본 보고서는 최첨단 강화 학습 프레임워크인 EfficientZeroV2에 대한 심층적인 기술 분석을 제공하고, 그 기반이 되는 MuZero와의 포괄적인 비교를 수행한다. MuZero의 모델 기반 강화 학습 패러다임, 핵심 신경망 구성 요소, 그리고 몬테카를로 트리 탐색(MCTS) 메커니즘을 자세히 살펴본다. 이어서, EfficientZeroV2의 아키텍처 및 알고리즘 개선 사항, 특히 샘플 효율성 향상과 연속 제어 도메인으로의 확장에 대해 심층적으로 조사한다. 또한, 공개된 저장소 정보를 바탕으로 EfficientZeroV2의 코드 구현 구조를 분석하고 주요 구성 요소와 그 기능을 추론한다. 비교 분석을 통해 두 알고리즘 간의 중요한 차이점, 성능 향상, 그리고 전략적 변화를 강조하며, 특히 제한된 데이터로 다양한 작업을 마스터하고 이산 및 연속 동작 공간을 모두 처리하는 EfficientZeroV2의 기여를 조명한다.
DeepMind가 개발한 MuZero는 규칙에 대한 명시적인 지식 없이도 바둑, 체스, 쇼기, 아타리 게임과 같은 복잡한 도메인을 마스터하는 능력으로 강화 학습 분야에서 중요한 진전을 이루었다. 이는 미리 정의된 규칙이나 시뮬레이터에 의존하는 기존 방법론과 달리, MuZero가 경험으로부터 직접 환경의 내부 모델을 학습한다는 점에서 두드러진다. 이러한 능력은 알려지지 않거나 부분적으로 관찰 가능한 환경에서 효과적으로 계획을 수립할 수 있게 한다. 1.1 핵심 원리 및 아키텍처 MuZero의 아키텍처는 계획에 필요한 환경의 핵심 측면, 즉 상태, 보상, 정책을 예측하도록 학습하는 세 개의 상호 연결된 신경망을 중심으로 구성된다. 표현 네트워크 (hθ): 이 네트워크는 원시 관측값(예: 아타리 화면의 픽셀 또는 바둑판의 구성)을 입력으로 받아 압축된 잠재(숨겨진) 상태 표현(s0)으로 변환한다. 그 목적은 원시 관측값을 완벽하게 재구성하는 것이 아니라, 미래 예측에 필요한 정보만을 포착하는 것이다. 아타리의 경우, 이 네트워크는 연속된 RGB 프레임과 과거 행동을 컨볼루션 및 잔차 블록을 통해 처리하여 공간 해상도를 줄인다. 다이내믹스 네트워크 (gθ): 주어진 숨겨진 상태(sk-1)와 가상의 행동(ak)을 바탕으로, 이 네트워크는 즉각적인 보상(rk)과 다음 숨겨진 상태(sk)를 예측한다. 이 기능은 명시적인 시뮬레이터 없이도 잠재 공간에서 환경의 전환 및 보상 구조를 효과적으로 학습한다. 이 네트워크의 아키텍처는 종종 표현 네트워크와 유사하다. 예측 네트워크 (fθ): 주어진 숨겨진 상태(sk)로부터 이 네트워크는 정책(pk – 유망한 행동에 대한 확률 분포)과 가치(vk – 미래 누적 보상에 대한 추정치)를 예측한다. 이러한 예측은 에이전트의 의사 결정을 안내한다. 이 네트워크는 일반적으로 컨볼루션 레이어와 완전 연결 레이어를 사용한다. 이러한 세 네트워크는 자체 플레이와 MCTS를 통해 생성된 목표에 대해 예측 오류를 최소화하도록 역전파를 통해 종단 간 공동으로 훈련된다. 훈련 목표는 탐색을 통해 개선된 정책 및 가치 추정치와 실제 관찰된 보상에 일치하도록 예측하는 것이다. 전반적인 손실 함수는 보상(lr), 가치(lv), 정책(lp)에 대한 손실과 L2 정규화 항의 합으로 구성된다. 정책 및 가치에 대한 목표는 MCTS 및 게임 결과에서 파생되며, 보상 목표는 관찰된 보상이다. MuZero의 핵심적인 발전은 명시적인 규칙 기반 시뮬레이터(예: AlphaZero)에서 벗어나 신경망을 통해 환경 모델을 학습하는 능력에 있다. AlphaZero는 게임 규칙에 대한 완벽한 지식을 필요로 했지만 , MuZero는 규칙에 접근하지 않고도 스스로 모델을 학습한다. 이러한 변화는 AI가 "명시적으로 프로그래밍되어야 하는 시뮬레이터" 에 의존하지 않고 "첫 번째 원리로부터 모델을 구축하고 이해하는 방법" 을 스스로 발견할 수 있게 한다. 이는 AI가 "폐쇄적이고 잘 정의된 도메인" 을 넘어 "설정이 많고 다양한 실제 시나리오" 로 확장될 수 있는 기반을 마련한다. 결과적으로, AI 시스템은 규칙이 알려지지 않았거나 너무 복잡하여 수동으로 코딩할 수 없는 환경에서도 적응하고 학습할 수 있게 되어, AI 에이전트의 자율성과 적응성을 크게 향상시킨다. 1.2 MuZero의 몬테카를로 트리 탐색 (MCTS) 각 타임스텝에서 MuZero는 몬테카를로 트리 탐색(MCTS) 알고리즘을 사용하여 행동을 계획한다. MCTS는 학습된 표현, 다이내믹스, 예측 네트워크를 활용하여 가상의 미래 궤적을 시뮬레이션하고 그 결과를 평가한다. 탐색 과정: MCTS는 반복적인 시뮬레이션으로 구성되며, 각 시뮬레이션은 선택, 확장, 시뮬레이션(또는 평가), 백업의 네 단계를 포함한다. MuZero의 MCTS는 AlphaZero와 유사하지만, 단일 에이전트 환경 및 중간 보상에 맞게 조정되었다. 노드 통계: 탐색 트리의 각 노드는 방문 횟수(N), 평균 가치(Q), 정책(P), 보상(R), 상태 전환(S) 정보를 저장한다. 행동 선택: 행동은 방문 횟수, 예측된 정책, 가치를 사용하여 탐색(덜 방문된 경로 시도)과 활용(유망한 경로 활용)의 균형을 맞추는 상위 신뢰 한계(UCB) 공식을 최대화하여 선택된다. 효율성: 탐색 알고리즘은 시뮬레이션당 다이내믹스 및 예측 함수에 대한 호출을 최대 한 번만 수행하여 계산 효율성을 유지한다. 1.3 주요 혁신 및 한계 MuZero의 가장 중요한 혁신은 환경의 다이내믹스를 계획에 "충분한" 모델로 학습하고, 환경을 완벽하게 재구성할 필요 없이 이 모델을 사용하여 계획을 수립하는 능력에 있다. 이러한 능력 덕분에 MuZero는 다양한 게임에서 초인적인 성능을 달성할 수 있었다. 그러나 MuZero는 주로 이산 제어 환경(예: 보드 게임 및 아타리)에서 뛰어난 성능을 보였다. 원래의 MuZero 공식은 많은 실제 로봇 제어 작업에서 흔히 발생하는 고차원 및 연속 행동 공간을 처리하는 데 어려움을 겪었다. 또한, 많은 강화 학습 알고리즘과 마찬가지로, 상호 작용 데이터 수집 비용이 많이 드는 경우 특히 중요한 샘플 효율성(제한된 상호 작용으로부터 효과적으로 학습하는 능력)은 여전히 중요한 과제로 남아 있었다. 학습된 잠재 상태는 계획 과정을 불투명하게 만들 수도 있었다. 모델 기반 강화 학습 알고리즘인 MuZero는 "환경의 기본 다이내믹스를 학습하여 이를 달성하는 것을 목표로 한다". 그러나 "세계 모델을 활용하는 것이 모델 프리 대안에 비해 일관되게 더 큰 일반화 능력을 보여주지 못했다" 는 점이 관찰되었다. 이는 학습된 모델이 계획에 "직접적으로 가장 관련 있는 양" 만을 예측하도록 설계되었기 때문에 발생할 수 있는 현상이다. 이러한 효율성은 모델이 원본 관측값을 재구성하거나 환경의 "진정한 상태" 와 일치할 필요가 없다는 점에서 비롯된다. 그러나 이러한 최소주의적 접근 방식은 학습된 잠재 공간이 환경의 근본적인 대칭성이나 견고한 다이내믹스를 포착하지 못할 경우 새로운, 이전에 보지 못한 조건으로의 일반화를 제한할 수 있다. 예를 들어, "다이내믹스 네트워크가 더 긴 시뮬레이션에서 덜 정확해진다" 는 점은 모델의 불확실성이 누적될 수 있음을 시사한다. 또한, "학습된 잠재 상태가 계획 과정을 불투명하게 만든다" 는 점은 모델이 왜 특정 결정을 내리는지 이해하기 어렵게 만들어, 디버깅, 검증, 신뢰 구축 및 추가적인 과학적 이해를 방해할 수 있다. 이러한 현상은 모델 기반 강화 학습의 지속적인 과제를 강조한다. 즉, 모델을 학습하는 것이 데이터 효율성을 향상시킬 수 있지만, 이 학습된 모델이 다양하고 이전에 보지 못한 시나리오에 걸쳐 견고하고 일반화될 수 있도록 보장하는 것은 사소한 문제가 아니다. 이는 단순히 "세계 모델"을 갖는 것만으로는 충분하지 않다는 점을 시사한다. 모델의 품질과 해석 가능성, 그리고 환경의 근본적인 대칭성을 포착하는 능력(예: Equivariant MuZero에서 탐구된 바와 같이 )이 진정한 일반화를 위해 매우 중요하며, 특히 환경이 다양하고 설정이 많은 실제 응용 분야에서 그렇다. 이러한 점들은 EfficientZeroV2가 추가 개선 사항을 도입하는 이유를 설명하는 배경이 된다. MuZero의 모델 기반 접근 방식은 본질적으로 샘플 효율성에 대한 강력한 토대를 제공한다. 환경의 내부 모델을 학습함으로써 MuZero는 내부적으로 가상의 미래 궤적을 시뮬레이션할 수 있으며, 이는 순수하게 모델 프리 방식에 비해 실제 환경과의 광범위한 상호 작용 필요성을 줄인다. MuZero는 "계획을 통해 오류를 수정함으로써 여전히 효과적으로 수행된다" 는 점은 학습된 모델이 완벽하지 않더라도 계획 프로세스가 불확실성을 관리하고 성능을 유지할 수 있음을 시사한다. MuZero는 "AlphaZero와 동일한 컨볼루션 및 잔차 아키텍처를 사용했지만, 탐색 트리의 노드당 계산 단계가 20% 더 적었다" 는 점은 초기부터 계산 효율성에 대한 의도적인 노력이 있었음을 나타낸다. 이러한 효율성 추구는 MuZero를 기반으로 하는 EfficientZeroV2의 주요 동기가 된다. 이는 실제 상호 작용 비용을 최소화하는 방향으로 강화 학습 연구가 지속적으로 진화하고 있음을 보여주며, 이는 실제 RL 배포에 매우 중요하다.
EfficientZeroV2(EZ-V2)는 샘플 효율적인 강화 학습 알고리즘을 위한 일반 프레임워크로 소개되며, EfficientZero(MuZero에서 발전한 더욱 효율적인 변형)의 토대 위에 구축되었다. 그 주요 동기는 MuZero와 유사한 알고리즘의 강력한 성능을 연속 제어를 포함한 더 넓은 범위의 도메인으로 확장하고, 제한된 데이터 설정에서 샘플 효율성을 크게 향상시키는 것이다. EZ-V2는 아타리 100k, 고유 제어(Proprio Control), 비전 제어(Vision Control) 벤치마크를 포함한 다양한 벤치마크에서 평가된 66개 작업 중 50개에서 DreamerV3와 같은 기존 최첨단(SOTA) 알고리즘보다 우수한 결과를 보여주었다. 2.1 동기 및 목표 초기 EfficientZero는 MuZero보다 훨씬 적은 데이터로 아타리 100k에서 초인적인 성능을 달성했다. EfficientZeroV2는 다음 두 가지 핵심 질문을 해결함으로써 이러한 한계를 더욱 확장하는 것을 목표로 한다: 고차원 및 연속 행동 공간에서 트리 탐색을 사용하여 효율적인 계획을 어떻게 수행할 것인가? 제한된 데이터 상황에서 오래된 전환(오프-정책 데이터)을 효과적으로 활용하는 능력을 어떻게 더욱 강화할 것인가? 연속 제어 및 향상된 데이터 활용으로의 확장은 게임 플레이 AI와 실제 로봇 공학 또는 제어 작업 간의 격차를 해소하는 데 매우 중요하다. 이러한 작업에서는 연속적인 행동이 일반적이며 데이터 수집 비용이 많이 든다. 2.2 주요 알고리즘 개선 사항 EfficientZeroV2는 목표 달성을 위해 일련의 정교한 알고리즘 개선 사항을 통합한다. 연속 행동을 위한 샘플 기반 트리 탐색: MuZero의 MCTS는 주로 이산 행동 공간을 위해 설계되었다. EZ-V2는 Gumbel-Top-k 트릭과 같은 기술을 활용하여 샘플 기반 트리 탐색을 통합함으로써 이를 조정한다. 이는 MCTS가 연속 행동 공간에서 효율적으로 계획하고 탐색할 수 있도록 하여 정책 개선을 가능하게 한다. 전통적인 MCTS는 이산 행동을 열거하는 데 의존하지만, 연속 행동의 경우 이는 불가능하다. 샘플 기반 MCTS는 평가할 행동의 부분 집합을 선택하여 탐색을 가능하게 한다. Gumbel-Top-k 트릭은 탐색과 활용의 균형을 효과적으로 맞추면서 연속 공간에서 행동을 지능적으로 샘플링하는 메커니즘이다. 탐색 기반 가치 추정(SVE): 이전 수집된 데이터를 보다 효율적으로 활용하고 오프-정책 문제(데이터를 생성하는 정책이 현재 훈련 중인 정책과 다른 경우 발생하는 문제)를 완화하기 위해 EZ-V2는 새로운 탐색 기반 가치 추정 방법을 도입한다. 이 전략은 학습된 모델 내에서 가상의 궤적을 사용하여 보다 정확한 가치 예측을 생성한다. 오프-정책 학습은 샘플 효율성에 중요하지만, 오래된 데이터가 이전 정책에 의해 생성된 경우 가치 목표가 부정확할 수 있다. SVE는 현재 모델의 이해를 사용하여 이러한 목표를 수정하는 것을 목표로 한다. 환경 모델을 위한 자기 지도 학습 및 가치 접두사 예측 (원래 EfficientZero에서 상속): EfficientZero(EZ-V2의 전신)는 자기 지도 학습을 사용하여 시간적으로 일관된 환경 모델을 학습하고, "가치 접두사"(시간 창 평균 보상)를 종단 간 방식으로 학습하는 등 중요한 구성 요소를 도입했다. 이러한 메커니즘은 모델의 복합 오류를 완화하고 모델이 보상의 정확한 타이밍에 덜 민감하도록 돕는다. 모델 복합 오류는 다이내믹스 모델의 오류가 긴 예측 범위에 걸쳐 누적될 때 발생한다. 자기 지도 학습(예: 미래 관측값 또는 잠재 상태 예측)은 보상 외에 추가적인 학습 신호를 제공하여 학습된 모델을 더욱 견고하게 만든다. 가치 접두사 예측은 희소하거나 지연된 보상을 부드럽게 만들어 모델이 학습하기 쉽게 한다. 이러한 개선 사항은 EZ-V2가 이전 SOTA 방법론에 비해 훨씬 적은 데이터로 작업을 마스터할 수 있도록 하여 탁월한 샘플 효율성을 달성한다. 표 2: EfficientZeroV2 알고리즘 개선 사항 개선 사항 설명 주요 이점 관련 스니펫 샘플 기반 트리 탐색 (연속 행동용) MCTS를 연속 행동 공간에 적응시키기 위해 행동을 샘플링하여 탐색 (예: Gumbel-Top-k 트릭 활용) 고차원 연속 제어 환경에서 계획 가능 탐색 기반 가치 추정 (SVE) 학습된 모델의 가상 궤적을 활용하여 오프-정책 가치 목표를 수정 오래된 리플레이 버퍼 데이터의 효율적인 활용, 오프-정책 문제 완화 자기 지도 학습 (환경 모델용) 보조 자기 지도 손실을 통해 시간적으로 일관된 환경 모델 학습 모델 견고성 향상, 긴 언롤 시 복합 오류 감소 가치 접두사 예측 즉각적인 보상 대신 시간 창 평균 보상 예측 희소하거나 지연된 보상에 대한 학습 견고성 향상, 복합 오류 완화 EfficientZeroV2의 발전은 이전 모델 기반 강화 학습 알고리즘의 한계를 직접적으로 해결한다. MuZero는 이산 행동 공간에서 강점을 보였지만, 고차원 및 연속 행동 공간(로봇 공학과 같은 실제 시나리오에서 흔함)에서는 어려움을 겪었다. EZ-V2는 샘플 기반 트리 탐색(Gumbel-Top-k 트릭 사용)을 도입하여 이 문제를 명시적으로 해결한다. 이러한 기술적 혁신은 RL 연구가 이론적인 게임 플레이 성공에서 벗어나 실제 로봇 공학 및 제어와 같은 실용적인 응용 분야로 나아가고 있음을 보여준다. "샘플 효율성"에 대한 강조는 실제 데이터 수집이 종종 비용과 시간이 많이 든다는 점을 고려할 때 이러한 방향을 더욱 강조한다. 자기 지도 학습 및 가치 접두사 예측은 제한된 데이터로부터 최대한의 가치를 추출하고 모델 복합 오류 및 오프-정책 데이터와 같은 문제를 완화하는 메커니즘으로 작용한다. 이는 실제 제약 조건(제한된 데이터, 연속 행동)이 특정 알고리즘 혁신을 이끌어내는 직접적인 인과 관계를 보여준다. 또한, EfficientZeroV2의 "자기 지도 학습을 사용하여 시간적으로 일관된 환경 모델을 학습"하고 "가치 접두사를 종단 간 방식으로 학습하여 모델의 복합 오류를 완화하는 데 도움을 준다"는 점은 주목할 만하다. 다이내믹스 네트워크는 "더 긴 시뮬레이션에서 덜 정확해지는 경향이 있다" 는 점을 고려할 때, 이러한 자기 지도 학습은 모델의 내부 표현을 시간적으로 더욱 견고하고 일관되게 만드는 추가적인 신호를 제공한다. 이는 보상 기반 기울기 외에 모델의 다이내믹스 및 표현 네트워크에 추가적인 감독을 제공한다. 이러한 개선 사항은 모델의 예측 정확도를 향상시켜 복합 오류의 축적을 줄인다. 동시에, 오프-정책 가치 목표를 수정하는 것은 오래된 데이터의 유용성을 높여 샘플 효율성을 더욱 향상시킨다. 이는 모델 기반 RL에서 모델의 견고성과 데이터 효율성 사이의 상호 작용에 대한 심오한 이해를 보여준다. 단순히 모델을 학습하는 것을 넘어, 장기 예측을 위해 견고하고 정확한 모델을 학습하는 것이 중요하다. 자기 지도 손실과 가치 접두사 예측은 모델의 예측 능력과 안정성을 간접적으로 향상시키는 중요한 보조 작업으로 작용하며, 이는 복잡한 환경에서 더 나은 샘플 효율성과 성능으로 이어진다. 이는 모델 기반 RL의 미래 발전이 모델 품질과 작업 성능을 모두 보장하기 위해 더욱 복잡한 다중 목표 훈련 전략을 포함할 가능성이 높다는 것을 시사한다.
EfficientZeroV2 저장소(https://github.com/Shengjiewang-Jason/EfficientZeroV2)는는) 샘플 효율적인 RL 알고리즘을 위한 일반 프레임워크를 제공하며, 주로 Python으로 구현되었고 일부 C++ 및 Cython 구성 요소가 포함되어 있다. 분석 시점에는 ez/ 디렉토리 내용 및 train.py 스크립트에 직접 접근할 수 없었지만, README 및 논문은 코드 구조 및 작동 메커니즘에 대한 상당한 통찰력을 제공한다. 3.1 저장소 구조 및 주요 모듈 저장소는 다양한 도메인에 걸쳐 확장성 및 실험 용이성을 위해 설계되었다. ez/ 디렉토리: EfficientZeroV2의 주요 구현 로직을 포함하는 핵심 디렉토리이다. 여기에는 신경망(표현, 다이내믹스, 예측) 정의, MCTS 구현, 리플레이 버퍼 및 알고리즘의 기타 기본 구성 요소가 포함될 가능성이 높다. ez/config/exp/{domain}.yaml: 이 하위 디렉토리에는 atari, dmc_state, dmc_image와 같은 다양한 지원 도메인에 대한 구성 파일이 포함되어 있다. 이러한 YAML 파일은 사용자가 game, training_steps, total_transitions와 같은 실험별 매개변수를 정의할 수 있도록 한다. 이러한 구성을 쉽게 수정할 수 있다는 점은 프레임워크의 유연한 실험 설계를 강조한다. agents/ 디렉토리: 이 디렉토리는 사용자 정의 에이전트를 구현하기 위한 것이다. 사용자는 base.Agent 클래스를 상속하고, 이산/연속 및 이미지/상태 설정에 대한 제공된 구현을 참조하여 모듈성과 재사용성을 촉진할 수 있다. ez/train.py: 이 스크립트는 실험을 시작하기 위한 진입점 역할을 한다. 이는 자체 플레이 루프, 데이터 생성 및 네트워크 훈련을 포함한 훈련 프로세스를 조정할 가능성이 높다. python ez/train.py exp_config=ez/config/exp/your_env.yaml 명령은 명확하고 명령줄 기반의 실행 흐름을 나타낸다. media/img 폴더: 이 폴더에는 실험 결과, 즉 성능 지표의 시각화가 포함되어 있다. 표 3: EfficientZeroV2 저장소 구조 개요 디렉토리/파일 역할/목적 주요 내용/기능 관련 스니펫 ez/ 핵심 알고리즘 구현 신경망 정의, MCTS 로직, 리플레이 버퍼 관리 에서 추론 ez/config/exp/ 다양한 환경에 대한 구성 파일 atari, dmc_state, dmc_image 등 .yaml 파일, 게임, 훈련 단계 등 정의 agents/ 사용자 정의 에이전트 구현 기본 에이전트 클래스, 이산/연속, 이미지/상태 설정 예시 ez/train.py 메인 훈련 스크립트 자체 플레이, 데이터 수집, 네트워크 최적화 조정 media/img/ 실험 결과 성능 지표 시각화 README.md 프로젝트 개요, 설정 지침, 사용 예시, 인용 EZ-V2의 개요, 실험 실행 방법 저장소가 ez/config/exp/{domain}.yaml을 통해 도메인별 구성을 정의하고, agents/ 디렉토리를 통해 사용자 정의 에이전트를 구현할 수 있도록 하는 점은 주목할 만하다. 또한, train.py 스크립트는 구성 파일을 인수로 받아 실행된다. 이러한 모듈화되고 구성 가능한 설계는 연구자와 개발자가 새로운 환경에 알고리즘을 적용하거나 새로운 에이전트 변형을 테스트하는 데 필요한 노력을 크게 줄인다. 코드베이스를 깊이 수정할 필요 없이, 구성 파일을 통해 또는 구조화된 방식으로 새 에이전트를 구현함으로써 변경 사항을 적용할 수 있다. 이는 실험 및 반복의 속도를 직접적으로 가속화한다. 강화 학습 분야에서 재현성은 중요한 과제였으며, EfficientZeroV2와 같은 잘 구조화된 코드베이스는 실험을 정의하고 실행하며 수정하는 과정을 간소화하여 이러한 문제를 해결한다. 이는 커뮤니티 기여를 촉진하고 새로운 환경이나 알고리즘 변형에 대한 체계적인 벤치마킹을 가능하게 하여 RL 연구 개발을 가속화한다. 이러한 설계 선택은 머신러닝을 위한 과학 소프트웨어 엔지니어링의 모범 사례를 반영하며, 프레임워크의 "일반 프레임워크" 목표와 일치한다. 3.2 핵심 훈련 루프 메커니즘 MuZero 및 EfficientZero의 일반적인 원리를 바탕으로, ez/train.py의 훈련 루프는 자체 플레이를 통한 데이터 생성과 네트워크 훈련이라는 두 부분으로 구성될 가능성이 높다. 자체 플레이 데이터 생성: 에이전트는 현재 신경망 모델을 사용하여 스스로 게임을 플레이하거나 환경과 상호 작용한다. 궤적 데이터(상태, 행동, 보상 등의 시퀀스)가 수집되어 리플레이 버퍼에 저장된다. 네트워크 훈련: 주기적으로 신경망(표현, 다이내믹스, 예측)은 리플레이 버퍼에서 샘플링된 데이터를 사용하여 훈련된다. 훈련 목표는 정책, 가치, 보상 목표에 대한 예측 오류를 최소화하는 것이다. 언롤링: 모델은 K개의 가상 단계(예: K=5) 동안 언롤되어 미래 양을 예측한다. 손실 함수: 전체 손실 함수는 보상, 가치, 정책에 대한 손실과 L2 정규화의 합이다. 가치 및 보상 목표에 대한 특정 손실 계산은 안정성을 위한 변환(예: 아타리 가치/보상에 대한 가역 변환)을 포함한다. 기울기 스케일링: 각 헤드의 손실은 스케일링되고, 다이내믹스 함수의 시작 부분의 기울기는 일관된 크기를 유지하기 위해 스케일링된다. 최적화: 훈련 프로세스는 표준 딥러닝 최적화 기술을 포함하며, 언어 분포(68.9% Python)를 고려할 때 PyTorch를 사용할 가능성이 높다. 효율적인 훈련 루프는 종종 자동 혼합 정밀도(AMP), 기울기 누적, 기울기 스케일링과 같은 기술을 통합하여 메모리 및 계산 효율성을 높인다. 3.3 네트워크 아키텍처 및 구현 네트워크 아키텍처에 대한 특정 코드는 직접 접근할 수 없지만, 논문은 통찰력을 제공한다. 공유 아키텍처 원리: MuZero는 AlphaZero와 유사한 컨볼루션 및 잔차 아키텍처를 사용했다. EfficientZeroV2는 EfficientZero를 기반으로 하며, EfficientZero는 MuZero를 기반으로 한다. 이는 시각적 입력(예: 아타리 게임) 처리를 위한 깊은 컨볼루션 네트워크의 지속을 시사하며, EfficientNetV2(이미지 분류에 중점을 둔 관련 모델 계열이지만 별개임 )의 Fused-MBConv와 같은 요소를 포함할 수도 있다. 도메인 적응: 아키텍처는 다양한 입력 유형(시각적 대 저차원) 및 행동 공간(이산 대 연속)에 적응한다. 시각적 입력(아타리 이미지와 같은)의 경우, 표현 네트워크는 특징 추출 및 다운샘플링을 위해 컨볼루션 레이어를 사용할 가능성이 높다. 연속 제어의 경우, 예측 네트워크의 출력 레이어는 이산 확률 분포 대신 연속 행동 분포의 매개변수(예: 가우시안 분포의 평균 및 분산)를 예측하도록 수정되어야 한다. 3.4 이산 및 연속 제어를 위한 MCTS 구현 세부 사항 EfficientZeroV2 계획의 핵심은 MCTS이지만, 연속 제어를 위한 중요한 적응이 이루어졌다. 이산 MCTS: 이산 행동 공간(아타리와 같은)의 경우, MCTS는 MuZero 구현을 면밀히 따르며, 행동 선택을 위해 UCB를 사용하고 노드 통계(N, Q, P, R, S)를 업데이트할 가능성이 높다. 연속 MCTS (샘플 기반 트리 탐색): 이는 EZ-V2의 핵심 혁신이다. 가능한 모든 이산 행동을 평가하는 대신, 연속 제어를 위한 MCTS는 탐색할 행동의 부분 집합을 샘플링한다. 이는 Gumbel-Top-k 트릭과 같은 기술을 통해 달성되는 경우가 많으며, 트리 탐색 중 유망한 연속 행동을 선택하는 데 도움이 된다. 이를 통해 알고리즘은 그렇지 않으면 다루기 힘든 고차원 행동 공간에서 계획을 수행할 수 있다. 3.5 구성 관리 (다양한 도메인에 대한 .yaml 파일) ez/config/exp/{domain}.yaml 파일은 실험 구성의 핵심이다. 이는 "일반 프레임워크"에 매우 중요한 도메인별 매개변수를 설정할 수 있게 한다. 맞춤 설정: 사용자는 game, training_steps, total_transitions를 수정할 수 있다. total_transitions와 buffer_size를 동시에 수정해야 한다는 중요한 참고 사항은 수집된 총 데이터 양과 리플레이 버퍼 용량 간의 종속성을 나타낸다. 도메인 지원: 프레임워크는 atari, dmc_state, dmc_image 도메인을 명시적으로 지원한다. 이는 이산(아타리) 및 연속(DMC) 제어, 그리고 시각적 및 저차원 입력을 모두 처리할 수 있는 능력을 확인시켜 준다. GitHub 저장소는 .yaml 구성 파일을 통해 다양한 도메인(아타리, DMC)에 대한 매개변수를 정의하고, agents/ 디렉토리를 통해 사용자 정의 에이전트를 구현할 수 있는 명확한 경로를 제공한다. train.py 스크립트가 구성 파일을 인수로 받아 실행된다는 점은 이러한 설계 철학을 더욱 강조한다. 이러한 고도로 모듈화되고 구성 가능한 설계는 연구자와 개발자가 새로운 환경에 알고리즘을 적용하거나 새로운 에이전트 변형을 테스트하는 데 필요한 노력을 크게 줄인다. 코드베이스를 깊이 수정할 필요 없이, 구성 파일을 통해 또는 구조화된 방식으로 새 에이전트를 구현함으로써 변경 사항을 적용할 수 있다. 이는 실험 및 반복의 속도를 직접적으로 가속화한다. 빠르게 변화하는 딥 강화 학습 분야에서 새로운 아이디어를 테스트하고 비교하는 용이성은 매우 중요하다. EfficientZeroV2와 같은 잘 구조화되고 구성 가능한 코드베이스는 빠른 프로토타이핑, 체계적인 제거 연구, 커뮤니티 기여를 촉진한다. 이러한 설계 선택은 단순한 구현 세부 사항이 아니라, 전반적인 연구 속도와 프레임워크의 광범위한 채택 및 영향력에 영향을 미치는 전략적 결정이다.
EfficientZeroV2는 MuZero의 획기적인 연구를 기반으로 하며, 핵심 모델 기반 RL 원리를 유지하면서 샘플 효율성 및 연속 제어와 같은 한계를 극복하기 위한 중요한 개선 사항을 도입한다. 4.1 아키텍처 및 알고리즘 차이점 MuZero와 EfficientZeroV2는 모두 표현, 다이내믹스, 예측 네트워크를 MCTS와 결합하여 사용하지만, 그 구현 및 특정 알고리즘 세부 사항은 크게 다르다. 행동 공간 처리: MuZero: 주로 이산 행동 공간을 위해 설계되었으며, 보드 게임과 아타리에서 뛰어난 성능을 보였다. MuZero의 MCTS는 이산 행동을 평가하여 작동한다. EfficientZeroV2: 핵심 혁신은 샘플 기반 트리 탐색(예: Gumbel-Top-k 트릭)을 통해 연속 제어로 확장되었다는 점이다. 이를 통해 DeepMind Control(DMC)과 같은 고차원, 연속 행동이 있는 도메인을 처리할 수 있다. 샘플 효율성 개선: MuZero: 최첨단 성능을 달성했지만 상당한 데이터(예: 수백만 단계의 훈련, 높은 TPU 사용량)가 필요했다. EfficientZeroV2 (및 EfficientZero): 샘플 효율성을 크게 향상시켜, MuZero보다 훨씬 적은 데이터(예: EfficientZero의 경우 2시간의 실시간 게임 플레이)로 아타리 100k에서 초인적인 성능을 달성한다. 이는 다음과 같은 혁신 덕분이다: 자기 지도 학습: 보상 외에 더 풍부한 훈련 신호를 제공하는 자기 지도 학습을 통해 시간적으로 일관된 환경 모델을 학습한다 (EfficientZero에서 도입). 가치 접두사 예측: 즉각적인 보상 대신 시간 창 평균 보상을 예측하여 복합 오류를 완화하고 희소 보상에 대한 학습을 더욱 견고하게 만든다 (EfficientZero에서 도입). 탐색 기반 가치 추정 (SVE): 오프-정책 가치 목표를 수정하고 오래된 상호 작용 데이터를 보다 효율적으로 활용하는 새로운 방법이다. 모델 복합 오류 완화: MuZero: 계획이 오류를 수정하지만 , 학습된 다이내믹스 네트워크는 더 긴 시뮬레이션에서 덜 정확해질 수 있다. EfficientZeroV2 (및 EfficientZero): 자기 지도 학습 및 가치 접두사 예측을 통해 이를 명시적으로 해결하여 학습된 모델을 더욱 견고하게 만들고 언롤 단계에서 복합 오류에 덜 취약하게 만든다. 훈련 비용: MuZero: 훈련에 상당한 계산 자원(예: 보드 게임의 경우 훈련에 16개의 TPU, 자체 플레이에 1000개의 TPU)이 필요했다. EfficientZero (EZ-V2와 관련): 훨씬 낮은 훈련 비용을 목표로 하며, 관련 구현 중 하나는 MuZero를 훈련하는 데 필요한 "수십만 달러"에 비해 완전히 훈련된 모델당 약 50달러의 비용을 언급한다. 이는 실질적인 효율성에 대한 강한 초점을 보여준다. 표 1: MuZero 대 EfficientZeroV2: 주요 차이점 특징/측면 MuZero EfficientZeroV2 핵심 원리 모델 기반 RL, 환경 모델 학습 샘플 효율적인 RL을 위한 일반 프레임워크 행동 공간 주로 이산 (바둑, 체스, 아타리) 이산 및 연속 (아타리 100k, DMC) 샘플 효율성 높은 데이터 요구량 크게 개선됨 (예: DQN보다 500배 적은 데이터) 주요 알고리즘 개선 사항 기본 MCTS, 표현/다이내믹스/예측 네트워크 샘플 기반 MCTS (Gumbel-Top-k), 탐색 기반 가치 추정 (SVE), 자기 지도 학습, 가치 접두사 예측 모델 복합 오류 계획이 오류를 수정하지만, 다이내믹스 네트워크는 장기 시뮬레이션에서 덜 정확해질 수 있음 자기 지도 학습 및 가치 접두사 예측을 통해 적극적으로 완화 훈련 비용/자원 높음 (예: 수천 개의 TPU) 낮음 (예: 관련 EZ 모델의 경우 약 $50, 단일 A100) Sheets로 내보내기 MuZero는 보드 게임에서 초인적인 성능을 달성하는 데 중점을 두었으며, AlphaZero보다 "탐색 트리의 노드당 계산 단계가 20% 더 적었다" 는 점은 초기 효율성 개선 노력을 보여준다. 그러나 EfficientZeroV2의 개발은 "제한된 데이터" 하에서 "샘플 효율적인 RL 알고리즘" 을 위한 "일반 프레임워크" 를 만드는 데 명시적으로 초점을 맞춘다. 이는 RL 연구의 주요 목표가 단순히 초인적인 성능을 달성하는 것을 넘어, 샘플 효율적인 초인적인 성능을 달성하는 것으로 변화했음을 보여준다. EfficientZeroV2와 관련된 EfficientZeroRemastered 구현은 "완전히 훈련된 모델당 약 50달러"의 훈련 비용을 언급하며, 이는 "MuZero를 훈련하는 데 필요한 수십만 달러"와 대조된다. 이러한 비용 절감은 EfficientZeroV2의 샘플 효율성 개선이 가져오는 직접적인 결과이다. 고급 RL 에이전트를 훈련하는 데 드는 높은 계산 비용은 역사적으로 잘 자금 지원을 받는 연구실에 개발 및 배포를 제한하는 주요 장벽이었다. EfficientZeroV2의 샘플 효율성에 대한 초점은 훈련 시간과 비용의 급격한 감소로 이어진다. 이는 최첨단 RL에 대한 접근성을 더 넓은 범위의 연구자, 소규모 기업, 심지어 개인 실무자에게까지 확대한다. 이러한 고급 RL의 "민주화"는 혁신을 가속화하고, 더 다양한 응용 분야를 육성하며, 자원 제약이 종종 가장 중요한 실제 산업 구현과 학술 연구 간의 격차를 해소할 수 있다. 이는 효율성 개선이 낮은 비용과 더 넓은 적용 가능성으로 이어진다는 직접적인 인과 관계를 보여준다. 4.2 성능 및 샘플 효율성 향상 EfficientZeroV2는 성능과 샘플 효율성에서 상당한 개선을 보여준다. 최첨단 성능: EZ-V2는 아타리 100k, 고유 제어, 비전 제어를 포함한 다양한 벤치마크에서 평가된 66개 작업 중 50개에서 기존 일반 알고리즘인 DreamerV3보다 우수한 성능을 보인다. 제한된 데이터로 인간 수준 성능: EfficientZero(전신)는 아타리 100k에서 2시간의 실시간 게임 경험만으로 초인적인 성능(평균 인간 성능 194.3%, 중앙값 성능 109.0%)을 달성했으며, DQN보다 500배 적은 데이터를 소비했다. EZ-V2는 이를 더욱 발전시켜 일관된 샘플 효율성을 보여준다. 4.3 이산 대 연속 제어 처리: 핵심적인 차이점 연속 제어 처리 능력은 EfficientZeroV2를 원래 MuZero와 구별하는 핵심적인 특징이다. MuZero: 이산 게임에서 효과적이었지만, MCTS는 본질적으로 연속 행동 공간을 위해 설계되지 않아 로봇 공학에 직접 적용하기 어려웠다. EfficientZeroV2: 샘플 기반 트리 탐색을 통해 이러한 한계를 명시적으로 해결하여, 이산 및 연속 제어 작업, 그리고 시각적 및 저차원 입력을 모두 마스터할 수 있는 "일반 프레임워크"가 되었다. 이러한 적응성은 실제 시나리오에 매우 중요하다. 4.4 계산 및 자원 고려 사항 두 알고리즘 모두 계산 집약적이지만, EfficientZeroV2의 설계는 자원 효율성을 우선시한다. 훈련 하드웨어: MuZero는 훈련 및 자체 플레이에 많은 수의 TPU를 사용했다(예: 보드 게임의 경우 훈련에 16개의 TPU, 자체 플레이에 1000개의 TPU). EfficientZeroV2는 샘플 효율성을 목표로 하므로, 이러한 대규모 계산 필요성이 줄어들었지만, 최첨단 결과를 위해서는 여전히 고성능 GPU(예: A100)가 훈련에 사용된다. CPU 대 GPU 활용: EfficientZeroRemastered 구현에서 관찰된 바에 따르면, 훈련 프로세스의 특정 측면은 CPU 집약적일 수 있으며, 이는 저주파수, 다중 코어 CPU를 사용하는 GPU 클러스터에서 더 긴 훈련 시간으로 이어질 수 있다. 이는 GPU 성능이 중요하더라도, MCTS 또는 데이터 처리와 같은 측면에서 효율적인 CPU 활용이 전반적인 훈련 속도에 여전히 영향을 미친다는 것을 시사한다. EfficientZeroV2의 뛰어난 샘플 효율성은 단일 혁신 때문이 아니라, 여러 신중하게 설계된 알고리즘 개선 사항의 시너지 효과 때문이다. EZ-V2는 샘플 기반 트리 탐색, 탐색 기반 가치 추정(SVE), 환경 모델을 위한 자기 지도 학습, 가치 접두사 예측을 도입한다. 각 구성 요소는 강화 학습의 고유하고 중요한 병목 현상을 해결한다. 샘플 기반 트리 탐색은 연속 행동 공간에서 계획을 가능하게 하여 적용 가능성을 확장한다. SVE는 리플레이 버퍼의 오래된 오프-정책 데이터의 유용성을 향상시켜 새로운 상호 작용의 필요성을 줄인다. 자기 지도 학습은 학습된 환경 모델을 더욱 견고하고 정확하게 만들어 복합 오류를 줄인다. 가치 접두사 예측은 희소하거나 지연된 보상이 있는 환경에서 학습을 더욱 안정적으로 만든다. 이러한 구성 요소들이 함께 작동하여 DreamerV3를 50/66개 작업에서 능가하고, 2시간의 실시간 게임 플레이만으로 아타리 100k에서 초인적인 성능을 달성하는 등 상당한 성능 향상을 가져온다. 이는 복잡한 도메인에서 강화 학습의 미래 발전이 단일 알고리즘 발견보다는 여러 보완적인 기술의 지능적인 통합 및 미세 조정을 통해 이루어질 가능성이 높다는 것을 시사한다.
EfficientZeroV2는 MuZero의 근본적인 혁신을 기반으로 하여 실제 응용 분야의 중요한 과제를 해결하기 위해 그 능력을 확장한 모델 기반 강화 학습의 상당한 진전을 나타낸다. 샘플 기반 트리 탐색(Gumbel-Top-k와 같은 기술 활용), 새로운 탐색 기반 가치 추정(SVE) 방법 도입, 환경 모델을 위한 자기 지도 학습 통합, 가치 접두사 예측 사용을 통해 EfficientZeroV2는 탁월한 샘플 효율성을 달성하고 복잡한 연속 제어 문제를 성공적으로 해결한다. 이러한 발전은 RL 알고리즘이 제한된 데이터로 달성할 수 있는 한계를 넓힐 뿐만 아니라, 최첨단 연구 및 배포를 위한 계산 장벽을 크게 낮춘다. 프레임워크의 모듈화된 코드 구조와 구성 가능한 특성은 재현성을 촉진하고 빠른 반복을 가능하게 하여 연구 커뮤니티에 대한 유용성을 더욱 향상시킨다. 학습된 잠재 모델의 완전한 해석 가능성은 RL에서 지속적인 과제로 남아 있지만, EfficientZeroV2가 견고한 모델 학습과 효율적인 데이터 활용에 중점을 둔다는 점은 정교한 RL 에이전트가 다양하고 복잡하며 자원 제약이 있는 환경에 더 광범위하게 적용될 수 있는 미래를 향하고 있음을 시사한다. EfficientZeroV2가 다양한 도메인(이산/연속, 시각/저차원)에서 성공을 거두었다는 점은 범용 AI 에이전트 개발이라는 장기적인 목표를 향한 유망한 길을 강력히 시사한다. EZ-V2는 "연속 및 이산 행동, 시각적 및 저차원 입력을 포함하는 다양한 도메인으로 EfficientZero의 성능을 확장했다" 고 명시적으로 밝힌다. 역사적으로 많은 강화 학습 알고리즘은 특정 도메인이나 행동 공간에서 뛰어난 성능을 보였지만, 상당한 재설계나 하이퍼파라미터 튜닝 없이는 다른 도메인으로 일반화하는 데 실패했다. EZ-V2가 보여준 다재다능함은 단일 강화 학습 에이전트가 상당한 아키텍처 변경이나 도메인별 수정 없이도 다양한 작업과 환경을 마스터할 수 있는 능력을 향한 중요한 진전을 의미한다. 이는 좁은 AI를 넘어 인간 지능과 유사하게 광범위한 문제에 걸쳐 학습하고 적응할 수 있는 시스템을 추구하는 데 있어 핵심적이고 도전적인 목표이다. 미래 연구는 이러한 알고리즘 내에서 학습된 잠재 모델의 해석 가능성을 향상시키는 데 중점을 둘 수 있다. MuZero에서 이미 지적되었듯이 "블랙박스" 문제를 해결하는 것은 특히 안전에 중요한 응용 분야에서 신뢰, 디버깅 능력, 복잡한 AI 의사 결정 과정에 대한 과학적 이해를 향상시키는 데 중요한 영역으로 남아 있다. 실용적인 엔지니어링 관점에서, 훈련 파이프라인 내에서 CPU와 GPU 구성 요소 간의 계산 균형을 지속적으로 최적화하는 것이 필수적이다. CPU 병목 현상에서 강조된 바와 같이, 실제 훈련 시간을 줄이려면 하드웨어 활용 및 데이터 흐름 관리에 대한 전체론적 접근 방식이 필요하다. 마지막으로, EfficientZeroV2의 원리를 더 복잡하고 비정형적인 실제 환경(예: 더 높은 자유도를 가진 로봇 공학, 다중 에이전트 시스템, 부분적 관측 가능성 및 동적 변화가 있는 환경)에 적용하는 것은 연구 커뮤니티의 자연스럽고 영향력 있는 다음 단계가 될 것이다.