이 웹페이지에는 DreamerV3를 위한 강화학습 환경 설계: 종합 기술 가이드 에 대한 전문적이고 자세한 글이 작성되어 있습니다. 자세한 내용은 아래에서 확인할 수 있습니다.

DreamerV3를 위한 강화학습 환경 설계: 종합 기술 가이드

DreamerV3 및 모델 기반 강화학습(MBRL) 소개

1.1. DreamerV3 개요: 일반적이고 확장 가능한 MBRL 에이전트 DreamerV3는 환경의 월드 모델(world model)을 학습하여 미래 시나리오를 예측하고, 이러한 미래 궤적을 상상함으로써 정책(액터-크리틱)을 훈련하는 일반적이고 확장 가능한 모델 기반 강화학습(MBRL) 에이전트입니다. 이 접근 방식은 높은 데이터 효율성과 고정된 하이퍼파라미터를 사용하여 다양한 도메인에 걸쳐 일반적으로 적용 가능함을 목표로 합니다. DreamerV3의 아키텍처는 동시에 훈련되는 세 가지 주요 신경망으로 구성되며, 이들은 그래디언트를 공유하지 않습니다. * 월드 모델 (RSSM): 감각 입력 (x_t, 이미지 또는 벡터 형태)을 이산적인 잠재 표현 (z_t)으로 인코딩합니다. 순환 상태 (h_t)를 가진 시퀀스 모델(예: GRU 기반 순환 상태 공간 모델 - RSSM)은 행동 (a_t)이 주어졌을 때 이러한 잠재 표현을 예측합니다. 또한 입력 재구성을 통해 표현을 형성하고, 미래 보상 및 에피소드 지속 플래그를 예측합니다. * 액터 네트워크: 월드 모델이 상상한 궤적을 기반으로 가치있는 결과를 가져오는 행동 (a_t)을 선택하는 정책을 학습합니다. * 크리틱 네트워크: 상상된 상태의 가치 (v_t)를 판단하며, 마찬가지로 상상된 궤적에서 학습합니다. DreamerV3의 주요 성과는 인간 데이터나 커리큘럼 없이 처음부터 Minecraft에서 다이아몬드를 수집한 최초의 알고리즘이라는 점입니다. 이는 희소 보상, 어려운 탐험, 긴 시간 지평을 가진 복잡한 오픈 월드 환경에서의 능력을 보여줍니다. Atari 게임, DeepMind Control Suite, DMLab, ProcGen 등 다양한 벤치마크에서도 강력한 성능을 입증했습니다. 1.2. 모델 기반 강화학습(MBRL)의 기초 MBRL 에이전트는 환경의 동역학 모델(상태 전이 함수 및 보상 함수)을 학습하고, 이 모델을 사용하여 정책 학습을 위한 계획을 세우거나 시뮬레이션된 경험을 생성합니다. MBRL의 주요 이점은 다음과 같습니다: * 샘플 효율성: 실제 환경과의 광범위한 상호작용 필요성을 줄여, 데이터 수집이 비용이 많이 들거나 느린 실제 응용 분야에 중요합니다. DreamerV3는 모델 프리 방법에 비해 훨씬 적은 환경 단계로 높은 성능을 달성할 수 있습니다. * 계획 능력: 학습된 모델을 통해 에이전트는 다양한 행동 순서의 미래 결과를 시뮬레이션하여 "미리 계획"할 수 있습니다. 그러나 MBRL에는 다음과 같은 과제도 존재합니다: * 모델 정확도: 특히 복잡한 환경에 대해 정확한 월드 모델을 구축하는 것은 어렵습니다. 모델 오류는 장기 예측 중에 누적되어 차선의 정책으로 이어질 수 있습니다. * 계산 비용: 모델 학습 및 계획은 계산 집약적일 수 있습니다. 1.3. DreamerV3의 월드 모델이 정책 학습을 주도하는 방식 DreamerV3에서 액터와 크리틱은 주로 월드 모델이 상상한 추상적인 잠재 표현의 궤적에서 훈련되며, 실제 환경 상호작용에서 직접적으로 학습하지 않습니다. 월드 모델은 인식 및 동역학 예측을 처리하여 액터-크리틱이 작동할 안정적이고 학습된 잠재 공간을 제공합니다. DreamerV3는 보상 및 가치에 대한 symlog/symexp 변환, KL 균형 조정, 이산 잠재 상태와 같은 기술을 사용하여 다양한 도메인 및 신호 크기에 걸쳐 안정적인 학습을 보장합니다. DreamerV3가 다양한 작업에서 고정된 하이퍼파라미터로 성공을 거둔다는 사실 은 내부의 견고성 메커니즘(symlog 등 )이 다양한 환경 신호를 정규화하는 데 매우 효과적임을 시사합니다. 이는 환경 설계자가 관찰이나 보상을 좁은 범위로 세심하게 사전 정규화해야 하는 부담을 줄여줍니다. 그러나 이것이 신중한 신호 설계를 제거하는 것은 아니며, 오히려 신호의 정보성과 일관성을 보장하는 데 초점을 맞추도록 합니다. 알고리즘의 안정성을 위한 정확한 정규화보다는 신호가 의미 있고 일관되게 작업 진행 상황이나 환경 상태를 나타내도록 하는 것이 환경 설계자의 주된 관심사가 됩니다. 극단적인 이상치나 근본적으로 정보가 없는 신호는 여전히 문제가 될 것입니다. 이러한 설계 철학은 새로운 환경으로의 배포를 단순화하지만, 설계자는 알고리즘의 내부 정규화 기능을 신뢰하고 이해하며 신호의 의미론적 내용에 집중해야 합니다. 또한, 상상된 궤적으로부터 학습한다는 점 은 환경 설계의 "충실도"가 에이전트의 직접적인 상호작용뿐만 아니라 해당 동역학이 월드 모델에 의해 얼마나 잘 학습되고 시뮬레이션될 수 있는지에 매우 중요하다는 것을 의미합니다. 미묘한 환경적 불일치나 잘못 정의된 동역학은 월드 모델을 손상시켜 정책 자체가 강력하더라도 정책 실패로 이어질 수 있습니다. DreamerV3의 정책은 월드 모델로부터의 상상된 롤아웃을 기반으로 훈련되므로 , 이러한 롤아웃의 품질은 전적으로 학습된 월드 모델의 정확성에 달려있습니다. 실제 환경의 동역학이 잘못 정의되거나 일관성이 없다면 월드 모델은 이러한 불일치를 학습하게 되고, 상상된 궤적은 이러한 결함을 반영하여 잠재적으로 정책이 차선의 또는 잘못된 행동을 학습하게 만들 수 있습니다. 이는 단순한 샘플 효율성보다 더 깊은 문제로, 환경 동역학의 학습 가능성에 관한 것입니다. 따라서 DreamerV3를 위한 환경 설계는 학생 에이전트를 위한 설계만큼이나 학생 모델을 위한 설계이기도 합니다. 환경은 월드 모델 구성 요소에 의해 "학습 가능"해야 합니다.

2. 강화학습 환경 설계의 일반 원칙

2.1. 에이전트-환경 상호작용 루프 강화학습의 핵심은 에이전트가 환경 내에서 행동을 취하고, 환경은 새로운 상태로 전환되며 보상을 제공하는 순환적인 과정입니다. 이러한 상호작용은 일반적으로 이산적인 시간 단계로 발생합니다. 2.2. RL 환경의 핵심 구성 요소 (MDP 공식화) 강화학습 문제는 종종 마르코프 결정 과정(MDP)으로 공식화되며, 다음과 같은 핵심 요소로 구성됩니다 : * 상태 공간 (S): 에이전트가 처할 수 있는 모든 가능한 상황 또는 구성의 집합입니다. 의사 결정에 필요한 모든 관련 정보를 포착하도록 잘 정의되어야 합니다. * 행동 공간 (A): 각 상태에서 에이전트가 취할 수 있는 모든 가능한 행동의 집합입니다. * 전이 동역학 (P(s'|s, a)): 상태 's'에서 행동 'a'를 취했을 때 상태 's''로 전이할 확률입니다. 이는 환경이 어떻게 진화하는지를 정의합니다. MBRL에서는 에이전트가 이를 학습하려고 시도합니다. * 보상 함수 (R(s, a, s')): 상태 's'에서 행동 'a'를 취하여 상태 's''로 전이하는 것의 즉각적인 바람직성을 나타내는 스칼라 신호입니다. 에이전트의 목표는 누적 보상을 최대화하는 것입니다. * 할인 계수 (γ): 0과 1 사이의 값으로, 즉각적인 보상과 미래 보상의 중요성 사이의 균형을 맞춥니다. 2.3. 마르코프 속성 마르코프 속성은 현재 상태가 주어지면 미래는 과거와 독립적이라는 것을 의미합니다. 즉, 현재 상태는 의사 결정에 필요한 모든 관련 과거 정보를 요약해야 합니다. 환경이 완전히 관찰 가능하지 않은 경우(즉, 현재 관찰이 전체 상태를 포착하지 못하는 경우) 부분 관찰 가능 MDP(POMDP)가 됩니다. DreamerV3의 RSSM은 순환 상태를 유지하여 POMDP를 처리하도록 설계되었습니다. 2.4. 탐험-활용 딜레마 에이전트는 잠재적으로 더 나은 전략을 찾기 위해 미지의 환경 영역을 탐험하는 것과 즉각적인 보상을 최대화하기 위해 현재 지식을 활용하는 것 사이에서 균형을 맞춰야 합니다. 환경 설계(예: 보상 구조, 상태 연결성)는 탐험의 난이도에 큰 영향을 미칠 수 있습니다. 일반적인 RL 원칙이 S, A, P, R을 정의하지만, DreamerV3와 같은 MBRL 에이전트의 경우 월드 모델에 의한 P와 R의 학습 가능성이 단순한 존재 유무를 넘어 주요 설계 제약 조건이 됩니다. 환경 설계자는 선택된 S와 A가 P와 R을 다루기 쉽게 모델링할 수 있는지 고려해야 합니다. 표준 RL은 S, A, P, R을 정의하고 , MBRL 에이전트는 P와 R의 모델을 학습합니다. 만약 S와 A가 주어졌을 때 P가 지나치게 복잡하거나 혼란스럽거나, R이 S에 없는 관찰 불가능한 요인에 기반한다면 월드 모델은 정확하게 학습하는 데 어려움을 겪을 것입니다. 따라서 S와 A의 설계는 P와 R을 신경망 모델에 의해 학습 가능하게 만드는 것을 우선시해야 합니다. 예를 들어, 충분한 상태 정보 없이 매우 불연속적이거나 장기 기억 의존적인 전이는 문제가 될 것입니다. 이는 DreamerV3를 위한 환경 설계가 환경 동역학 자체가 학습 가능한 환경을 설계하는 메타 학습 측면을 포함함을 시사합니다. DreamerV3에서의 탐험-활용 딜레마 는 단순히 액터의 정책에 의해서만 관리되는 것이 아니라 근본적으로 월드 모델의 정확성과 얽혀 있습니다. 만약 부실한 탐험으로 인해 월드 모델이 상태 공간의 특정 영역에서 부정확하다면, 해당 영역에서의 상상된 궤적은 오해의 소지가 있어 액터가 최적의 경로를 발견하는 것을 방해할 수 있습니다. 이는 액터의 탐험 전략(예: 엔트로피 보너스)이 건전하더라도 발생할 수 있습니다. DreamerV3의 액터는 월드 모델로부터의 상상된 궤적을 통해 학습하고 , 월드 모델은 에이전트가 실제 환경과 상호작용하며 수집한 데이터로 훈련됩니다. 초기 탐험이 부실하면 환경 동역학의 일부가 월드 모델에 전혀 제공되지 않아, 방문하지 않은 영역에 대해 월드 모델이 부정확해집니다. 이러한 영역을 통과하는 상상된 궤적은 결함이 있어, 실제로는 최적이거나 안전함에도 불구하고 유망하지 않거나 위험해 보일 수 있습니다. 이러한 결함 있는 상상된 롤아웃에 의존하는 액터는 해당 영역을 피하게 되어 월드 모델을 위한 좋은 데이터 부족을 영속화할 수 있습니다. 즉, 실제 세계 탐험, 월드 모델 정확도, 상상된 탐험의 질 사이에는 피드백 루프가 존재합니다. 환경 설계는 월드 모델을 효과적으로 "파종(seed)"하기 위해 초기적이고 광범위한 탐험을 촉진해야 합니다.

3. DreamerV3를 위한 환경 설계: 핵심 구성 요소

DreamerV3의 성능을 극대화하기 위해서는 환경의 각 핵심 구성 요소(관찰 공간, 행동 공간, 보상 함수, 에피소드 관리)를 신중하게 설계해야 합니다. 특히 DreamerV3가 월드 모델을 통해 학습한다는 점을 고려하여, 이러한 구성 요소들이 월드 모델의 학습 가능성과 예측 정확도에 미치는 영향을 중심으로 살펴보겠습니다. 표 1: DreamerV3 환경 구성 요소 설계 가이드 | 구성 요소 | DreamerV3를 위한 핵심 설계 원칙 | 원리/월드 모델 및 정책에 미치는 영향 | 예시 모범 사례 | 잠재적 함정 | 관련 정보 출처 | |---|---|---|---|---|---| | 관찰 공간 (x_t) | 월드 모델이 미래 상태, 보상, 지속 플래그를 정확하게 예측하고 정책이 정보에 입각한 결정을 내리기에 충분한 정보를 포함해야 함. 시간적 역학 및 잠재 상태 추론을 위한 단서를 제공해야 함. | 불충분하거나 모호한 관찰은 결함 있는 월드 모델과 차선의 정책으로 이어짐. RSSM은 시간 경과에 따른 정보를 통합하여 부분적 관찰 가능성을 처리함. | 작업 관련 특징이 뚜렷하고 예측 가능한 역학을 갖도록 보장. 이미지의 경우 64x64x3 RGB, 벡터 입력은 symlog 처리 고려. | 작업과 무관한 시각적 혼란이 재구성 손실을 지배하여 중요한 특징을 가리는 경우. 매우 긴 지연 시간을 갖는 산발적인 상태 명확화 정보. | | | 행동 공간 (a_t) | 월드 모델이 행동 결과를 예측하고 정책이 효과적으로 학습할 수 있도록 영향력 있고 예측 가능해야 함. | 지나치게 복잡하거나 세분화된 행동 공간은 월드 모델 예측과 정책 학습 모두의 난이도를 높임. 잘 설계된 행동 공간은 이러한 예측을 더 정확하고 학습 가능하게 만듦. | 복잡한 환경(예: Minecraft)의 경우 "평탄한 범주형 행동 공간"으로 단순화. 지속 시간이 필요한 행동(예: 점프)은 환경 래퍼에서 처리. | 너무 낮은 수준의 행동으로 인해 예측 범위가 의미 없어지거나, 너무 높은 수준의 행동으로 인해 결과가 지나치게 확률적이거나 복잡해져 월드 모델이 포착하기 어려운 경우. | | | 보상 함수 (r_t) | 작업 목표를 명확하게 정의하고 에이전트를 바람직한 행동으로 안내해야 하며, 월드 모델의 보상 예측기가 학습할 수 있을 만큼 일관성이 있어야 함. 희소하지만 명확해야 함. | DreamerV3는 월드 모델을 통해 희소 보상을 잘 처리함. 보상 예측기는 보상을 예측하도록 학습됨. 보상 해킹을 피하기 위해 실제 작업 성공을 반영해야 함. | Minecraft의 다이아몬드 수집 작업처럼 주요 단계(milestone) 기반의 희소 보상 사용. 보상은 상상 속에서 쉽게 달성할 수 없는 복잡한 상태 구성에 연결되어야 함. | 보상 예측기가 사소한 방식으로 높은 보상을 예측하도록 유도하는 보상(예: 환경 버그 또는 잘못 설계되어 상상 속에서 쉽게 달성 가능한 보상). | | | 에피소드 관리 | 명확하고 일관된 종료 조건과 환경 초기화는 월드 모델의 '지속' 플래그 학습과 일반화에 매우 중요함. | 조기 종료는 에이전트가 성공적인 행동에 대한 보상을 받는 것을 방해할 수 있음. 부정확한 종료 신호는 월드 모델의 지속 플래그 예측을 손상시켜 상상된 롤아웃에 영향을 미침. | 실제 작업 완료 또는 돌이킬 수 없는 실패 시 종료. 최대 단계 제한 사용. Minecraft에서는 다이아몬드 광석 파괴 시 조기 종료 제거. | 중간적이고 가역적인 조건에 기반한 종료. 환경의 done 신호가 잡음이 많거나 일관성이 없는 경우. | | 3.1. 관찰 공간 설계 (x_t) 3.1.1. 픽셀 기반 입력 대 상태 기반 입력 DreamerV3는 픽셀 관찰(예: 64x64x3 RGB 이미지)에서 직접 작동하도록 설계되었으며 Atari, DMLab, Minecraft, DeepMind Control Suite와 같은 시각적으로 복잡한 도메인에서 강력한 성능을 보여주었습니다. 또한 저차원 벡터 입력도 처리할 수 있습니다. 선택은 종종 작업에 따라 달라집니다. 픽셀 입력은 수동 특징 공학 없이 더 일반적인 적용성을 허용하지만, 관련 표현을 학습하기 위해 월드 모델의 인코더에 더 큰 부담을 줍니다. 일부 작업에서는 복잡성을 줄이기 위해 단순화되거나 전처리된 시각적 입력(예: 이진 마스크)이 사용되었지만, 이는 에이전트가 더 풍부한 컨텍스트에서 학습하는 능력을 제한할 수 있습니다. 3.1.2. 정보 내용 및 충분성 관찰은 월드 모델이 미래 상태, 보상 및 지속 플래그를 정확하게 예측하고 정책이 정보에 입각한 결정을 내리기에 충분한 정보를 포함해야 합니다. 중요한 작업 관련 요소는 식별 가능해야 합니다. 중요한 정보가 관찰에서 누락되거나 모호하면 월드 모델에 결함이 생기고 에이전트는 실패할 가능성이 높습니다. 관찰의 "충분성"은 현재 상태에 관한 것뿐만 아니라 RSSM이 시간적 역학 및 잠재 상태를 추론하기에 충분한 단서를 제공하는 것에 관한 것입니다. 이는 관찰 시퀀스가 중요하며 설계 시 시간 경과에 따른 변화가 감지 가능하고 예측 가능하도록 보장해야 함을 의미합니다. DreamerV3는 시간적 종속성을 포착하고 잠재 상태를 추론하기 위해 RSSM(순환 모델)을 사용합니다. RSSM은 내부 상태(h_t)를 구축하기 위해 관찰 및 행동의 이력에 의존합니다. 개별 관찰이 풍부하지만 시간적 단서가 부족하거나(예: 근본적인 변화에도 불구하고 모든 것이 정적으로 보이거나 변화가 관찰 빈도에 비해 너무 미묘하거나 빠른 경우) RSSM은 역학을 효과적으로 모델링할 수 없습니다. 따라서 관찰 설계는 단일 프레임 내용뿐만 아니라 프레임 시퀀스가 환경의 진화를 어떻게 드러내는지를 고려해야 합니다. 이는 프레임 속도 또는 직접 보이지 않는 경우 모션 단서 포함에 영향을 미칠 수 있습니다. 즉, DreamerV3의 RSSM을 위한 설계는 고립된 스냅샷뿐만 아니라 관찰 시퀀스가 전달하는 "이야기"에 대해 생각하는 것을 의미합니다. 3.1.3. 부분적 관찰 가능성 처리 (POMDP) DreamerV3의 RSSM은 시간 경과에 따라 정보를 통합하여 실제 기본 상태를 근사하는 순환 상태(h_t)를 유지함으로써 부분적으로 관찰 가능한 환경을 본질적으로 처리하도록 설계되었습니다. 관찰에서 이력 단서의 품질이 매우 중요합니다. 환경은 시간이 지남에 따라 RSSM이 상태를 명확하게 구분할 수 있도록 하는 관찰을 제공해야 합니다. 예를 들어, cRSSM(문맥적 RSSM)은 다양한 역학을 가진 POMDP에서 상태 추론을 개선하기 위해 사용 가능한 경우 문맥을 명시적으로 통합합니다. POMDP에서 상태를 명확히 하는 데 중요한 정보가 산발적으로만 제공되거나 매우 긴 지연 후에 제공되는 경우 RSSM의 유한한 메모리 용량은 어려움을 겪을 수 있습니다. 이는 환경 설계상의 절충안을 시사합니다. 즉, 명확화 정보가 충분히 자주 나타나도록 하거나, 매우 먼 특정 과거 사건에 대한 장기 기억이 거의 최적의 행동에 엄격하게 필요하지 않도록 작업을 설계하여 대신 유사하고 더 최근 패턴에서 일반화하는 월드 모델의 능력에 의존하도록 하는 것입니다. RSSM은 POMDP에 대한 이력을 요약하기 위해 순환 상태 h_t를 사용합니다. 실제 응용 프로그램에는 상당한 관찰 지연 또는 매우 드문 명확화 신호가 있을 수 있습니다. RNN은 이력을 처리하지만, 특히 중간 이력이 잡음이 많거나 복잡한 경우 매우 특정한 먼 과거 사건을 완벽하게 기억하는 능력은 제한적입니다. 수백 단계 전에 나타난 중요한 정보 조각이 지금 매우 중요하다면 RSSM은 이를 완벽하게 유지하는 데 어려움을 겪을 수 있습니다. 이는 환경이 (a) 중요한 단서를 반복적으로 만들거나 RSSM의 합리적인 시간 창 내에 나타나도록 하거나, (b) 월드 모델이 특정 먼 사건의 완벽한 기억에 대한 의존도를 줄이는 일반적인 동적 패턴을 학습할 수 있도록 설계되어야 함을 의미합니다. 즉, 환경의 관찰 가능성 구조에 의해 부과되는 "메모리 부담"은 RSSM의 실제 능력과 일치해야 합니다. 3.1.4. 시각적 방해 요소 및 노이즈 관리 DreamerV3는 월드 모델의 재구성 손실에 의존하므로 관찰의 모든 것을 재구성하려고 시도합니다. 시각적 방해 요소(예: 작업과 무관한 움직이는 배경, 복잡한 텍스처)가 있는 경우 월드 모델은 작업 관련 요소 대신 이러한 방해 요소를 모델링하는 데 상당한 용량을 소비할 수 있습니다. 이로 인해 중요한 요소가 제대로 인식되거나 예측되지 않을 수 있습니다. 이러한 현상은 에이전트가 복잡한 방해 요소보다 재구성 손실에서 덜 두드러지는 경우 중요한 객체/단서를 무시하는 것으로 나타날 수 있습니다. 월드 모델은 방해 요소를 정확하게 예측하지만 작업 역학에서는 실패할 수 있습니다. 설계 시 고려 사항은 다음과 같습니다. * 가능하면 불필요한 시각적 혼란을 최소화합니다. * 작업 관련 특징이 시각적으로 구별되거나 무작위 노이즈보다 학습하기 쉬운 예측 가능한 역학을 갖도록 합니다. * 방해 요소가 불가피하고 문제가 되는 경우 MuDreamer(재구성 없음 ) 또는 객체 중심 접근 방식 과 같은 기술을 고려합니다. PSP(Policy-Shaped Prediction)도 월드 모델을 정책 관련 정보에 집중시키는 것을 목표로 합니다. 시각적으로 풍부한 환경에서 "재구성의 저주"가 발생할 수 있습니다. 작업과 관련 없는 관찰 부분의 복잡성과 역동성이 클수록 DreamerV3의 월드 모델이 다른 곳으로 주의를 돌릴 가능성이 높아져 잠재적으로 노이즈와 신호 모두를 학습하기 위해 더 큰 모델이나 더 많은 데이터가 필요할 수 있습니다. DreamerV3는 재구성 손실을 사용하며 , 이 손실은 전체 입력의 정확한 재현을 장려합니다. 시각적 방해 요소가 복잡한 경우(예: 배경으로 사용되는 비디오 ) 재구성 손실에 크게 기여합니다. 모델은 미묘하지만 중요한 작업 요소보다 이러한 "재구성하기 쉽지만 관련 없는" 부분을 학습하는 것을 우선시할 수 있습니다. 이는 작업 관련 정보에 대한 신호 대 잡음비를 최대화하기 위한 신중한 관찰 공간 설계 또는 재구성이 병목 현상이 되는 경우 대체 학습 목표 채택의 필요성을 의미합니다. 즉, 재구성 기반 월드 모델을 사용할 때 풍부하고 현실적인 환경을 만드는 것과 에이전트가 작업에 중요한 것에 집중하도록 보장하는 것 사이에는 본질적인 긴장이 있습니다. 3.1.5. 정규화 및 전처리 DreamerV3는 다양한 크기를 처리하고 학습을 안정화하기 위해 벡터 입력에 대해 내부적으로 symlog 변환을 사용합니다. 이미지는 일반적으로 크기가 조정되고(예: 64x64) 정규화됩니다(예: 픽셀 값을 또는 [-0.5, 0.5]로). DreamerV3 논문에서는 이미지를 내부적으로 6x6 또는 4x4 해상도로 컨볼루션을 사용하여 인코딩한다고 언급합니다. 특정 구현 또는 구성 요소에 대해 이미지 차원이 2의 거듭제곱이어야 하는 등의 특정 요구 사항이 있을 수 있습니다. DreamerV3 원본 논문 에서는 벡터 입력에 symlog를 사용하고 이미지에 특정 컨볼루션 아키텍처를 사용하는 것을 자세히 설명합니다. 네트워크에는 견고성을 향상시키기 위해 계층 정규화도 사용됩니다. DreamerV3에는 내부 정규화 기능이 있지만 관찰을 다소 표준적인 범위(예: 이미지 )로 제공하는 것은 좋은 관행이며 일반적인 신경망 입력 기대치와 일치합니다. 벡터 관찰의 경우 symlog의 동작을 이해하면 원시 센서 데이터가 극단적인 범위를 갖는 경우 이를 조정하는 방법에 대한 정보를 얻을 수 있습니다. 3.2. 행동 공간 설계 (a_t) 3.2.1. 이산 행동 대 연속 행동 DreamerV3는 동일한 고정 하이퍼파라미터를 사용하여 이산 및 연속 행동 공간을 모두 처리하도록 설계되었습니다. 두 유형 모두에 REINFORCE 추정기가 사용됩니다. 일부 연구에서는 DreamerV2/V3와 같은 이산 잠재 공간이 이산 행동 설정 및 시각적 제어에서 뛰어난 성능을 보이지만 상태 기반 연속 제어에서의 비교 성능은 덜 탐구되었거나 TD-MPC2와 같은 연속 잠재 공간을 가진 모델에 비해 특정 연속 제어 벤치마크에서 성능이 떨어질 수 있다고 제안합니다. 그러나 다른 연구(DC-MPC)에서는 연속 제어에서도 이산 잠재 상태의 이점을 주장합니다. 3.2.2. 행동 공간의 세분성 및 단순화 매우 고차원이거나 지나치게 세분화된 행동 공간은 월드 모델 예측(미묘한 행동의 결과 예측)과 정책 학습(결정 공간 탐색) 모두의 난이도를 높일 수 있습니다. 단순화 전략은 다음과 같습니다. * 평탄한 범주형 행동: Minecraft와 같은 복잡한 환경에서는 "평탄한 범주형 행동 공간"이 정의되었으며 , 이는 복잡한 행동 계층을 이산화하고 단순화하는 것이 유익할 수 있음을 시사합니다. * Oracle 지원 단순화: 일부 연구(예: ARC 작업)에서는 에이전트가 다른 구성 요소(예: 작업)에 집중할 수 있도록 Oracle을 통해 행동의 일부(예: 선택)를 제공하여 행동 공간을 단순화했습니다. 이는 실험적 설정이지만 행동 복잡성의 영향을 강조합니다. * 추상화 세분성: 행동 표현의 추상화 세분성으로 인한 정보 손실은 부정확성을 초래할 수 있습니다. Minecraft에서 사용된 "평탄한 범주형 행동 공간" 은 설계 패턴을 시사합니다. 즉, 본질적으로 복잡하거나, 계층적이거나, 여러 부분으로 구성된 행동에 직면했을 때, 이를 단일 수준의 더 높은 수준의 "기술" 또는 "옵션"의 이산 집합으로 추상화하는 것이 전체 조합 복잡성을 노출하는 것보다 DreamerV3의 학습 과정에 더 적합할 수 있습니다. Minecraft는 복잡한 상호작용을 가지고 있으며 , DreamerV3는 이를 위해 "평탄한 범주형 행동 공간"을 사용했습니다. 이는 기본 행동 공간의 단순화 또는 추상화를 의미합니다. 매우 세분화되고 조합적인 행동의 결과를 예측하는 월드 모델을 학습하는 것은 더 추상적이고 의미 있는 행동의 결과를 예측하는 것보다 어렵습니다. 정책 또한 더 적고 영향력 있는 이산적 선택으로 더 쉬운 검색 공간을 갖습니다. 따라서 새로운 복잡한 환경의 경우, DreamerV3에 작업을 더 다루기 쉽게 만들기 위해 환경 수준에서 행동 추상화 계층을 도입할 수 있는지 고려해야 합니다. 3.2.3. DreamerV3를 위한 특정 고려 사항 * 지속 행동(Held Actions): Minecraft와 같은 환경에서는 일부 행동(예: 점프)을 "지속"해야 합니다. Minecraft용 DreamerV3 환경 설정은 키를 백그라운드에서 고정된 시간(200ms) 동안 누른 상태로 유지하여 이를 처리했습니다. 이는 에이전트가 순간적인 행동을 출력하는 경우 환경 래퍼가 이러한 지속적인 측면을 처리해야 할 수 있음을 나타냅니다. * 행동 반복: DreamerV3는 일반적으로 특정 제어 빈도(예: Minecraft에서 20Hz )로 작동합니다. 환경은 이 빈도에서 행동에 의미 있게 응답하도록 설계되거나 행동 반복/지속 메커니즘을 고려해야 합니다. 3.2.4. 월드 모델 및 정책 학습에 미치는 영향 행동 표현은 월드 모델의 동역학 예측(h_t와 a_t가 주어졌을 때 z_t 예측)에 직접적인 영향을 미칩니다. 잘 설계된 행동 공간은 이러한 예측을 더 정확하고 학습 가능하게 만듭니다. 정책 네트워크는 행동을 출력하므로 행동 공간의 구조는 액터의 출력 계층과 학습해야 하는 매핑의 복잡성을 정의합니다. 3.3. 보상 함수 설계 (r_t) 3.3.1. 작업 정렬 보상 보상 함수의 주요 목표는 작업 목표를 명확하게 정의하고 에이전트를 바람직한 행동으로 안내하는 것입니다. 보상은 "해킹"될 수 있는 대리 신호가 아니라 실제 작업 완료 또는 진행 상황을 반영해야 합니다. 3.3.2. 희소 보상 처리 DreamerV3는 월드 모델 덕분에 희소 보상을 특히 잘 처리하며, 월드 모델은 외부 보상이 드물 때에도 상상을 통해 조밀한 학습 신호를 제공할 수 있습니다. * Minecraft 예시: Minecraft의 "다이아몬드 수집" 작업은 주요 단계 기반의 희소 보상(예: 12개 주요 단계 각각에 대해 +1)을 사용합니다. DreamerV3는 명시적인 보상 형상화 없이 여기서 성공합니다. * DreamerV3의 메커니즘: * 보상 예측기: 월드 모델은 보상(\hat{r}_t)을 예측하도록 학습합니다. * 반환값 정규화: 반환값은 탐험을 위한 고정 엔트로피 척도를 사용하기 위해 대략 [-1, 1] 내로 정규화되며, 이상치 및 희소 보상에 강인합니다. * Symexp Twohot 손실: 보상 및 크리틱 대상에 사용되어 그래디언트 척도를 대상 크기와 분리하여 다양한 보상 척도로 학습을 안정화합니다. * 보상/크리틱 출력 가중치의 제로 초기화: 초기 예측 보상이 큰 것을 방지하여 초기 학습을 가속화합니다. 3.3.3. 보상 형상화 및 내재적 동기 부여 * 보상 형상화: 학습을 안내하기 위해 중간 보상을 추가합니다. 유익할 수 있지만 에이전트가 실제 작업 대신 형상화된 보상을 최적화하는 "보상 해킹"의 위험이 있습니다. 잠재력 기반 보상 형상화(PBRS)는 최적 정책을 변경하지 않는 것을 목표로 합니다. * 내재적 동기 부여: 새로움, 호기심(예: RND와 같은 무작위 네트워크의 예측 오류) 또는 역량(competence)을 보상하여 탐험을 장려합니다. * DLLM은 LLM 생성 하위 목표를 힌트로 통합하여 모델 롤아웃에서 이러한 힌트와의 일치에 보상합니다. * CBET는 내재적 동기 부여와 전이 학습을 결합합니다. DreamerV3와의 효과는 환경에 따라 다를 수 있습니다. * DreamerV3의 의존성: DreamerV3는 이러한 이점을 활용할 수 있지만, 핵심 설계는 월드 모델을 활용하여 희소하고 형상화되지 않은 보상으로도 성공하는 것을 목표로 합니다. 월드 모델의 재구성 손실 자체가 조밀하고 작업에 구애받지 않는 학습 신호 역할을 합니다. 극도로 희소한 보상 설정에서 DreamerV3의 경우, 환경 설계자는 정교한 보상 형상화보다 월드 모델 학습의 질(관찰 재구성 및 동역학 예측에 의해 주도됨)에 초기 초점을 맞추는 것이 더 중요할 수 있습니다. 월드 모델이 다양한 상호작용에 걸쳐 "다음에 무슨 일이 일어날지"를 정확하게 예측할 수 있다면, 외부 보상이 매우 드물더라도 액터-크리틱에 필요한 예측 신호를 내부적으로 생성할 수 있습니다. 정교한 보상 형상화는 정확한 세계 동역학 학습을 방해한다면 오히려 간섭할 수 있습니다. DreamerV3는 월드 모델을 기반으로 상상된 궤적에서 학습하고 , 이 월드 모델은 조밀한 재구성 및 동역학 예측 손실을 통해 훈련됩니다. 이러한 조밀한 신호는 잠재 표현(z_t, h_t)을 형성하며, 액터-크리틱은 이러한 형성된 잠재 상태와 예측된 보상/가치를 사용하여 학습합니다. 월드 모델이 우수하다면 희소한 보상과 그로 이어지는 상태의 가치까지도 예측할 수 있습니다. 따라서 월드 모델을 위한 풍부하고 학습 가능한 관찰을 환경이 제공하도록 보장하는 것이 복잡한 보상 형상화 설계보다 더 근본적일 수 있으며, 특히 형상화가 자체적인 복잡성이나 해킹 가능성을 도입하는 경우에는 더욱 그렇습니다. 이는 DreamerV3가 조밀한 형상화가 아닌 주요 단계 보상만으로 Minecraft에서 성공한 사례로 뒷받침됩니다. 즉, 희소 보상에 대처하기 위한 주요 메커니즘으로서, 복잡한 보상 형상화에 의존하기 전에 DreamerV3 환경 설계에서 "월드 모델 학습 가능성", 특히 관찰의 풍부함과 예측 가능성을 우선시해야 합니다. 3.3.4. 외부 보상과 월드 모델 학습 신호의 균형 DreamerV3는 표현 학습을 위해 주로 월드 모델의 비지도 재구성 및 동역학 예측 손실에 의존합니다. 작업별 보상 및 가치 예측 그래디언트는 추가적이고 집중된 신호를 제공합니다. 환경 설계는 외부 보상이 발생할 때 의미 있고 월드 모델이 관찰로부터 학습한 신호에 의해 압도되거나 모순되지 않도록 보장해야 합니다. 3.3.5. 보상 예측기 활용 방지 월드 모델의 보상 예측기가 사소한 방식으로 높은 보상을 예측하는 방법을 찾는 경우(예: 환경의 버그 또는 상상 속에서 너무 쉽게 달성되는 잘못 설계된 보상으로 인해), 에이전트는 실제 작업 성공 없이 이러한 상상된 보상을 활용하는 정책을 학습할 수 있습니다. 이는 MBRL의 일반적인 우려 사항입니다. DreamerV3의 견고한 훈련(예: symexp twohot 손실, 반환값 정규화 )이 도움이 되지만, 실제적이고 달성하기 어려운 작업 성공을 반영하는 신중한 보상 설계가 중요합니다. 알 수 없는 동역학을 가진 보상 기계(UCRL-PRM에서 탐구됨 )를 사용하는 것은 비마르코프적 보상을 위한 고급 개념으로, 구조가 활용되도록 보장합니다. DreamerV3와 직접 관련은 없지만 구조화된 보상 이해의 중요성을 강조합니다. 환경의 보상 함수는 사소한 활용에 대해 "상상력 방지"되도록 설계되어야 합니다. 만약 월드 모델이 (자체 부정확성으로 인해) 그럴듯하다고 생각하는 비현실적인 일련의 사건을 통해 상상 속에서 보상을 얻을 수 있다면, 에이전트는 이를 활용하도록 학습할 것입니다. 이는 보상이 이상적으로는 약간 결함 있는 상상된 세계에서도 달성하기 어려운 복잡한 상태 구성에 연결되어야 함을 의미합니다. DreamerV3의 액터-크리틱은 월드 모델이 예측한 상상된 보상으로부터 학습합니다. 월드 모델은 불완전할 수 있으며 "실패 모드" 또는 부정확성을 가질 수 있습니다. 보상이 너무 단순하고(예: "X 근처에 있기") 월드 모델이 비현실적인 지름길을 통해 X 근처에 있는 것을 상상할 수 있다면 에이전트는 이 지름길을 학습할 것입니다. 따라서 보상은 견고하고 정확한 일련의 상상된 단계를 필요로 하는 상태 달성에 따라 결정되어야 하며, 불완전한 월드 모델에 의해 "게임화"하기 어렵게 만들어야 합니다. 즉, DreamerV3의 보상 설계는 보상 신호와 학습된 월드 모델의 잠재적 불완전성 간의 상호작용을 고려해야 합니다. 3.4. 에피소드 관리 3.4.1. 종료 조건 * 중요성: 명확한 종료 조건이 매우 중요합니다. 조기 종료는 에이전트가 성공적인 행동에 대한 보상을 받는 것을 방해할 수 있습니다(예: Minecraft 다이아몬드 광석 파괴 문제 ). * 모범 사례: * 실제 작업 완료(성공) 또는 돌이킬 수 없는 실패(예: 에이전트 사망) 시 종료합니다. * 무한히 긴 에피소드를 방지하기 위해 최대 단계 제한을 사용합니다(예: Minecraft에서 36,000단계 ). * DreamerV3의 월드 모델이 예측하는 "지속" 플래그(c_t)는 상상 속에서 에피소드 경계를 학습하는 데 매우 중요합니다. 이 플래그를 올바르게 학습하려면 환경이 정확한 완료/종료 신호를 제공해야 합니다. * 함정: 중간적이고 가역적인 조건에 따른 종료는 문제가 될 수 있습니다. 월드 모델의 "지속" 플래그 예측기 의 정확성은 효과적인 상상에 매우 중요합니다. 환경이 모호하거나 잡음이 많은 종료 신호를 제공하면 월드 모델은 상상된 궤적을 조기에 종료하거나 비현실적으로 확장하도록 학습하여 액터-크리틱 학습에 큰 영향을 미칠 수 있습니다. DreamerV3는 "지속" 플래그(c_t)를 예측하며 , 이 플래그는 상상된 궤적이 종료되어야 하는지를 결정합니다. 액터-크리틱 업데이트는 길이와 최종 가치를 포함하여 이러한 상상된 궤적을 기반으로 합니다. 환경의 done 신호(c_t를 훈련시키는)가 잡음이 많거나 일관성이 없다면(예: 때로는 복구 가능한 상태에서 종료되고 때로는 그렇지 않은 경우) c_t 예측기는 신뢰할 수 없게 됩니다. 이로 인해 상상된 롤아웃이 너무 짧아지거나(가치 과소평가) 너무 길어져서(보상/상태 환각) 발생할 수 있습니다. 즉, 환경의 done 신호는 단순한 제어 신호가 아니라 DreamerV3 월드 모델의 중요한 학습 신호입니다. 이는 깨끗해야 하며 실제 최종 상태에 해당해야 합니다. continue 플래그 예측 문제는 종종 환경의 잘못 설계된 종료 논리의 증상일 수 있습니다. 3.4.2. 환경 초기화 및 재설정 * 다양성: 일반화를 위해 환경은 이상적으로 다양한 초기 상태 또는 절차적 생성을 제공해야 합니다(예: Minecraft의 무작위 생성 세계 ). * 재설정 논리: reset 함수는 새 에피소드에 대해 환경을 유효한 시작 상태로 올바르게 다시 초기화해야 합니다. * DreamerV3 월드 모델의 순환 상태(h_t)는 각 새 에피소드가 시작될 때 재설정됩니다. 3.4.3. "지속" 플래그 (일부 문헌에서는 할인 예측기) DreamerV3의 월드 모델은 "지속" 플래그(사실상 다음 단계의 할인 계수, 종료 시 0, 그렇지 않으면 γ)를 예측합니다. 이 예측은 크리틱의 λ-반환값 계산과 상상된 궤적이 언제 끝나야 하는지 아는 데 매우 중요합니다. 지속 플래그 예측 문제(예: 항상 지속을 예측하거나 너무 일찍 종료)는 학습을 심각하게 방해할 수 있으며 종종 환경이 에피소드 종료를 알리는 방식의 문제 증상입니다.

4. DreamerV3로 환경적 복잡성 해결

4.1. 긴 시간 지평과 장기적 전략 DreamerV3는 Minecraft에서 입증된 바와 같이 장기적 작업을 위해 설계되었습니다. 월드 모델이 확장된 궤적을 상상하는 능력은 액터-크리틱이 지연된 결과를 고려하는 정책을 학습하도록 합니다. 크리틱은 특히 일반적인 상상 지평(논문에서는 T=15 또는 16 )을 넘어서는 반환값을 근사하도록 학습합니다. 환경은 장기적 종속성이 학습 가능하도록 구조화되어야 합니다. 중요한 인과 관계가 지나치게 길거나, 잡음이 많거나, 혼란스러운 상태 시퀀스로 분리되어 있다면 우수한 월드 모델이라도 이를 연결하는 데 어려움을 겪을 수 있습니다. 계획 지평에 걸친 예측 가능성이 핵심입니다. Minecraft와 같은 장기적 작업에서 DreamerV3의 성공 은 단순히 긴 상상 지평 때문만이 아니라 학습된 월드 모델의 구성성과 예측 가능성에 결정적으로 의존합니다. 환경은 일관된 장기 계획을 형성하기 위해 상상 속에서 분해되고 재결합될 수 있는 역학을 제공해야 합니다. 매우 혼란스럽거나 비구성적인 역학은 지평 길이에 관계없이 상상된 궤적이 빠르게 발산하도록 만들 가능성이 높습니다. DreamerV3는 장기적 작업을 해결하고 상상 지평(예: H=15)을 사용합니다. 더 긴 지평은 모델 오류를 누적시킬 수 있습니다. DreamerV3가 성공하려면 상상된 단계가 지평에 걸쳐 합리적으로 정확하게 유지되어야 합니다. 이는 기본 실제 환경 역학이 안정적인 다단계 예측을 지원하는 방식으로 학습 가능해야 함을 의미합니다. 구성적 역학(복잡한 행동이 더 간단하고 예측 가능한 규칙에서 발생하는 경우)은 매우 얽히고 혼란스러운 역학보다 장기적으로 모델링하고 예측하기가 더 쉽습니다. 따라서 장기적 작업을 설계할 때 환경 규칙이 월드 모델에 의해 함께 연결될 수 있는 지역적 예측 가능성을 허용하는지 고려해야 합니다. 4.2. 확률성: 무작위성 처리 확률성은 무작위 사건, 잡음이 있는 전이, 잡음이 있는 관찰 등 다양한 형태로 나타납니다. DreamerV3는 다음과 같은 견고성 기술을 통해 이를 처리합니다. * Symlog/Symexp: 관찰 및 보상의 다양한 크기를 처리하여 확률성으로 인해 발생할 수 있는 문제를 완화합니다. * 이산 잠재 상태 (범주형): 확률적 환경에서 흔히 발견되는 다중 모드 결과에 대해 더 표현력이 뛰어날 수 있습니다. 결정론적 붕괴를 방지하고 잘 정의된 KL 손실을 보장하기 위해 균일 노이즈(unimix)와의 혼합으로 매개변수화됩니다. * 반환값 정규화: 무작위화된 환경에서 일반적인 반환값 분포의 이상치에 강인합니다. 환경 설계 시 확률성의 특성과 수준을 고려해야 합니다. DreamerV3는 견고하지만 지나치게 높고 예측 불가능한 노이즈는 월드 모델이 의미 있는 역학을 학습하는 것을 불가능하게 만들 수 있습니다. 확률성이 핵심 과제의 일부인 경우(예: ProcGen 벤치마크 ), DreamerV3는 적합합니다. 우연적 불확실성(내재적 무작위성)과 인식론적 불확실성(모델 불확실성)을 구별해야 합니다. DreamerV3의 확률적 잠재 상태(z_t)는 우연적 불확실성을 포착하는 데 도움이 됩니다. DreamerV3를 위한 환경의 확률성 설계는 "학습 가능한 확률성"을 목표로 해야 합니다. 이는 무작위성이 월드 모델이 잠재적으로 추론하고 표현할 수 있는 기본 패턴이나 분포를 따라야 하며, 예측 신호를 제공하지 않는 완전히 구조화되지 않은 백색 소음이 아니어야 함을 의미합니다. DreamerV3는 예측 월드 모델을 학습하고 , 확률성은 예측을 더 어렵게 만듭니다. 확률성이 기본 구조 없이 순전히 무작위적이라면 모델은 평균 결과만 예측하거나 예측의 분산이 높아질 수 있습니다. 그러나 확률성에 학습 가능한 특성이 있다면(예: "이 행동은 10% 확률로 실패한다" 또는 "노이즈는 X 평균을 가진 가우시안에서 추출된다"), 월드 모델은 이러한 분포적 특성을 예측하도록 학습할 수 있습니다. DreamerV3의 확률적 구성 요소 사용(예: 범주형 잠재 변수, 보상/가치에 대한 분포 예측 )이 이를 지원합니다. 따라서 환경 설계자는 무작위 요소에 학습될 수 있는 패턴이 있는지 고려해야 합니다. 즉, DreamerV3를 위한 확률적 환경 설계는 단순히 노이즈를 추가하는 것이 아니라 구조화된 불확실성을 설계하는 것입니다. DreamerV3의 견고성 기술(symlog, 정규화 등 )은 잘 정의된 확률성의 변동을 처리하는 데 중요하지만, 확률성이 근본적으로 최적 행동의 본질을 변경하거나 중요한 상태를 구별할 수 없게 만드는 문제를 본질적으로 해결하지 못할 수 있습니다. 예를 들어, 노이즈로 인해 두 개의 결정적으로 다른 상태가 관찰 공간에서 동일하게 보이면 월드 모델은 평균화되고 잘못된 표현을 학습할 수 있습니다. DreamerV3는 다양한 신호 크기 및 일부 노이즈에 대한 견고성 기술을 가지고 있으며 , 이는 다양한 보상 척도 또는 관찰 범위를 가진 다양한 환경에서 학습을 안정화하는 데 도움이 됩니다. 그러나 확률성이 심각한 지각적 에일리어싱(노이즈로 인해 다른 실제 상태가 동일한 관찰로 매핑됨)을 생성하거나 최적 행동을 매우 예측 불가능하게 만드는 경우 정규화만으로는 이 문제를 해결할 수 없습니다. 월드 모델은 관찰로부터 학습합니다. 관찰이 노이즈에 의해 근본적으로 손상되어 중요한 정보를 잃으면 모델에 결함이 생깁니다. 이는 DreamerV3가 어느 정도 잡음이 있는 센서를 처리할 수 있지만 환경 설계자는 노이즈가 작업에 중요한 정보를 완전히 가리거나 올바른 상태-행동-결과 매핑 학습을 방해하는 환원 불가능한 모호성을 도입하지 않도록 보장해야 함을 의미합니다. 즉, 환경의 확률성이 학습에 필요한 정보 흐름을 근본적으로 깨뜨린다면 알고리즘적 견고성이 달성할 수 있는 것에는 한계가 있습니다. 환경은 노이즈에도 불구하고 어느 정도의 "신호 무결성"을 유지해야 합니다. 4.3. 비정상성 및 문맥적 변동 환경 동역학 또는 보상 함수는 시간이 지남에 따라 변경될 수 있거나(비정상성) 관찰되지 않은 문맥 변수에 따라 달라질 수 있습니다. 표준 DreamerV3의 RSSM은 기본 정상 동역학을 포착하는 것을 목표로 합니다. 갑작스럽고 신호 없는 변경은 월드 모델을 손상시킬 수 있습니다. 월드 모델의 예측 오류는 이러한 변화/이상 현상을 감지하는 데 사용될 수 있습니다. 동역학을 조절하는 관찰 가능한 문맥 변수가 있는 환경(예: 로봇 질량 변경, 동일한 물리학이지만 다른 목표/레이아웃을 가진 다른 게임 레벨)의 경우, 이 문맥에 월드 모델을 명시적으로 조건화하면(예: cRSSM) 일반화 및 적응을 개선할 수 있습니다. 환경 설계 시 비정상성이 있는 경우 관찰 가능한 문맥에 의해 신호되는지 확인해야 합니다. 문맥을 사용할 수 있는 경우 관찰 공간에 이를 포함하도록 설계합니다. 변경이 갑작스럽고 신호가 없는 경우 적응 메커니즘이나 신속한 재학습 없이는 단일 안정 월드 모델에 너무 어려울 수 있습니다. DreamerV3의 지속적인 학습 적응(예: 메모리 효율적인 재생 기능을 갖춘 WMAR )은 일련의 작업 또는 변화하는 환경을 처리하는 것을 목표로 합니다. 4.4. 다양한 도메인에 걸친 일반화 DreamerV3의 고정된 하이퍼파라미터와 견고한 설계는 작업 및 도메인 전반에 걸친 일반화를 촉진합니다. DreamerV3는 일반적이지만, 기본 구조적 유사성을 공유하는 환경(예: 물리 기반 작업, 그리드 월드)은 모델이 매우 크거나 광범위하게 사전 훈련되지 않는 한 완전히 다른 환경보다 일반화 능력의 이점을 더 많이 누릴 가능성이 높습니다. 새로운 환경에 훈련 중에 보지 못한 매우 다른 관찰 특징이나 동역학이 있는 경우 일반화 능력이 제한될 수 있습니다. 구성적 인과 구성 요소(WM3C )는 이를 개선하기 위한 연구 방향입니다.

5. 실제적 고려 사항, 함정 및 디버깅

5.1. MBRL/DreamerV3 환경 설계의 일반적인 안티패턴 효과적인 DreamerV3 환경 설계를 위해서는 몇 가지 일반적인 안티패턴을 피해야 합니다. * 지나치게 복잡하거나 잡음이 많은 관찰: 월드 모델 인코더가 의미 있는 잠재 상태를 추출하기 어렵게 만듭니다. 특히 작업과 무관한 특징이 재구성 손실을 지배하는 경우 문제가 됩니다. * 잘못 정렬된 행동 공간: 의미 있는 예측 범위에 비해 너무 낮은 수준의 행동이거나, 결과가 지나치게 확률적이거나 복잡하여 월드 모델이 포착하기 어려운 너무 높은 수준의 행동입니다. * 실제 작업 목표와 관련 없는 보상 / 보상 해킹: 지름길을 통하거나 월드 모델의 부정확성을 이용하여 보상을 얻을 수 있는 경우입니다. * 일관성 없거나 오해의 소지가 있는 종료 신호: 상상된 롤아웃에 필수적인 '지속' 플래그 학습을 손상시킵니다. * 학습 불가능한 동역학: 너무 혼란스럽거나, 관찰에 존재하지 않는 숨겨진 인과 관계 요인이 있거나, RSSM의 실제 용량을 초과하는 지나치게 긴 메모리를 필요로 하는 동역학입니다. * 탐험이 불충분한 정적/결정론적 환경: 제한된 경험에 과적합되고 일반화되지 않는 월드 모델로 이어집니다. * 부분적 관찰 가능성 무시: RSSM이 우수한 상태 표현을 형성하는 데 필요한 중요한 과거 맥락을 생략하는 관찰 설계입니다. 5.2. 월드 모델 실패 및 환경 문제 진단 DreamerV3의 학습 과정을 모니터링하여 월드 모델의 실패나 환경 문제를 진단할 수 있습니다. * DreamerV3의 주요 진단 신호: * 재구성 손실 (이미지/벡터 예측 손실): 높은 재구성 손실은 인코더/디코더가 관찰 공간(너무 복잡하거나, 잡음이 많거나, 분포를 벗어남(OOD))에 어려움을 겪고 있거나 잠재 공간이 충분한 정보를 포착하지 못하고 있음을 나타낼 수 있습니다. 재구성 손실은 낮지만 작업 성능이 좋지 않은 경우 모델이 관련 없는 세부 정보를 재구성하고 있을 수 있습니다. * 보상 예측 손실: 높은 손실은 월드 모델이 어떤 행동/상태가 보상으로 이어지는지 이해하는 데 어려움을 겪고 있음을 시사합니다. 희소/기만적인 보상 또는 상태-행동과 보상 간의 학습 불가능한 연결을 나타낼 수 있습니다. * 지속 플래그 예측 손실: 높은 손실 또는 지속적으로 잘못된 예측(예: 항상 지속을 예측)은 종종 환경의 에피소드 종료 논리 또는 done 신호 처리 방식의 문제를 나타냅니다. * 동역학 손실 (사전 분포와 사후 분포 간의 KL 발산): DreamerV2/V3의 L_{dyn} 및 L_{rep}. KL 발산이 높으면 순환 상태에서 동역학을 예측하기 어렵거나 현재 관찰의 정보가 상태 추정치를 급격하게 변경하여 놀랍거나 예측 불가능한 전이를 시사할 수 있습니다. * 가치 예측 손실 (크리틱 손실): 높은 크리틱 손실은 상태 가치 추정의 어려움을 나타내며, 이는 부정확한 월드 모델 예측, 희소/잡음이 많은 보상 또는 매우 긴 유효 지평에서 비롯될 수 있습니다. * 문제 있는 환경의 특징: * 너무 잡음이 많거나 분포를 벗어난(OOD) 관찰: 높고 잠재적으로 불안정한 재구성 손실. 모델이 노이즈를 재구성하거나 흐릿하거나 평균화된 재구성을 생성할 수 있습니다. 관찰 및 보상 예측 오류는 OOD 상태에 대한 이상 감지기 역할을 할 수 있습니다. * 월드 모델 손상 (누적 오류): 특히 더 긴 예측 범위에 걸쳐 상상된 궤적과 현실 간의 발산. 이는 항상 손실만으로는 명확하지 않을 수 있지만, 가능하다면 상상된 롤아웃과 실제 롤아웃을 시각화하여 볼 수 있습니다. * 불안정한 훈련 지표: 변동하는 손실, 성능의 갑작스러운 하락 또는 급증. 5.3. 디버깅을 위한 잠재 공간 및 모델 예측 해석 * 재구성 시각화: 월드 모델이 실제로 무엇을 "보고" 재구성하는지 확인합니다. 주요 작업 요소가 명확합니까? 방해 요소에 집중하고 있습니까?. * 상상된 궤적 시각화: 가능하다면 다른 시작 상태에서 짧은 상상된 궤적을 생성하고 시각화합니다. 그럴듯해 보입니까? 예측된 보상/종료가 의미가 있습니까?. * 잠재 공간 분석 (고급): 잠재 상태(z_t, h_t)에 대한 t-SNE/UMAP과 같은 기술은 다른 환경 상태 또는 작업 단계가 잘 분리되어 있는지 보여줄 수 있습니다. 이는 더 연구 지향적이지만 표현 품질에 대한 통찰력을 제공할 수 있습니다. * 예측기 조사: 특정 잠재 상태(해석 가능한 경우)로 보상 또는 지속 예측기를 체계적으로 테스트하여 예측이 기대치와 일치하는지 확인합니다. * 역방향 월드 모델: MBRL 에이전트에 역방향 월드 모델을 추가하면 에이전트가 다른 행동을 선호하도록 세상이 어떠해야 했는지 예측하여 정책 편차를 이해하는 데 도움이 될 수 있습니다. 5.4. 커뮤니티 및 구현의 실제 팁 * 단순하게 시작: 초기 테스트를 위해 더 작은 네트워크, 배치 크기 및 빈번한 로깅을 사용하는 디버그 구성을 사용합니다. * 환경 기본 사항 확인: 예상되는 관찰/행동 공간 유형과의 호환성을 보장합니다(예: RLlib의 DreamerV3는 64x64x3 이미지 또는 벡터용 1D float32 Box를 예상함 ). dtype이 올바른지 확인합니다(예: np.float32 ). * 구성 요소 분리: 가능하다면 전체 DreamerV3 훈련과 별도로 환경 상호작용 논리를 테스트합니다. * 리소스 사용량 모니터링: CUDA 오류는 메모리 부족(OOM)으로 인해 발생할 수 있습니다. 배치 크기를 줄여보십시오. * 체크포인트 호환성: "Too many leaves for PyTreeDef" 오류는 종종 호환되지 않는 체크포인트/구성을 의미합니다. * 공식/재구현 참조: danijar/dreamerv3 GitHub 리포지토리는 테스트된 코드와 예제를 제공합니다. 다른 구현이 존재할 수 있습니다. * 에피소드 종료 및 순환 상태 재설정: 월드 모델의 순환 상태가 에피소드 종료 시 올바르게 재설정되는지 확인합니다. 지속 예측 문제는 매우 중요합니다. * 하이퍼파라미터 민감도: DreamerV3는 고정된 하이퍼파라미터를 목표로 하지만 미묘한 환경 차이는 여전히 성능에 영향을 미칠 수 있습니다. 일부 연구에서는 RL이 환경 및 하이퍼파라미터에 미묘하게 의존한다고 지적합니다. 교통 신호 제어와 같은 특정 응용 분야에서는 모델 크기와 훈련 비율을 조정하는 것이 유익한 것으로 밝혀졌습니다. DreamerV3에서의 많은 "에이전트 실패"는 실제로는 월드 모델을 통해 나타나는 "환경 설계 실패"일 수 있습니다. 월드 모델의 지표(재구성, 예측 손실)는 환경이 에이전트에게 상태와 동역학을 얼마나 잘 "전달"하고 있는지에 대한 민감한 바로미터 역할을 합니다. DreamerV3는 학습된 월드 모델에 크게 의존하며 , 이 월드 모델은 환경의 데이터로 훈련됩니다. 재구성, 보상 예측, 지속 예측과 같은 손실은 모델이 환경 신호로부터 얼마나 잘 학습할 수 있는지를 직접적으로 반영합니다. 이러한 손실이 지속적으로 높거나 불규칙하게 작동한다면, 이는 종종 환경이 잡음이 많거나, 불충분하거나, 모호하거나, 오해의 소지가 있는 정보를 제공하고 있음을 나타냅니다. 따라서 DreamerV3 디버깅은 종종 월드 모델의 학습 과정을 통해 환경을 디버깅하는 것을 포함합니다. 이는 DreamerV3를 위한 환경 설계가 월드 모델 훈련 지표를 환경 적합성의 주요 지표로 면밀히 모니터링해야 하는 반복적인 과정임을 시사합니다. 학습된 잠재 공간(z_t, h_t)의 "블랙박스" 특성은 디버깅의 주요 장애물입니다. 최종 성능과 집계 손실은 유익하지만, 특정 환경 특징에 대해 잠재 표현이 좋거나 나쁜 이유를 쉽게 조사할 수 없다는 점은 세분화된 환경 디버깅을 방해합니다. 이는 보다 해석 가능한 월드 모델 또는 잠재 공간 분석을 위한 보조 도구에 대한 연구를 동기를 부여합니다. DreamerV3는 간결한 잠재 표현 z_t, h_t를 학습하지만 , 이들은 고차원적이며 직접적으로 인간이 해석하기 어렵습니다. 디버깅은 종종 재구성 품질이나 하위 작업 성능과 같은 간접적인 신호에 의존합니다. 월드 모델이 중요한 환경적 측면을 포착하지 못하는 경우, 잠재 공간 자체 내에서 이 실패를 정확히 찾아내기는 전문 도구 없이는 어렵습니다. 이는 집계 지표에 대한 예측 정확도를 넘어서 월드 모델의 이해를 "들여다보는" 더 나은 도구/방법의 필요성을 지적합니다. 모델이 "기대하는" 것을 시각화하는 기술 은 이러한 방향으로 나아가는 단계입니다. 즉, DreamerV3와 같은 MBRL의 향후 발전은 환경 설계 및 디버깅을 보다 효율적이고 목표 지향적으로 만들기 위해 "월드 모델 해석 가능성 도구"의 공동 개발을 필요로 할 수 있습니다. 표 2: DreamerV3 문제 해결: 일반적인 문제, 증상 및 디버깅 전략 | 문제 범주 | 일반적인 증상 | 잠재적인 환경 관련 원인 | 디버깅 단계 / 확인할 지표 | 관련 정보 출처 | |---|---|---|---|---| | 월드 모델 학습 부진 | 높은 재구성 손실, 높은 동역학 손실 (KL 발산), 불안정한 예측 손실 | 관찰 공간이 너무 복잡하거나 잡음이 많음, 관찰에 중요 정보 부족, 학습 불가능한 동역학 | 재구성 시각화, 예측된 궤적과 실제 궤적 비교, 관찰 공간 단순화 실험, symlog 변환 확인 | | | 정책 개선 안 됨 | 보상 정체, 낮은 작업 성공률, 크리틱 손실 높음 | 희소하거나 기만적인 보상, 보상 함수가 실제 목표와 불일치, 월드 모델의 부정확한 보상/가치 예측 | 보상 함수 재검토, 보상 예측 손실 확인, 크리틱 손실 확인, 상상된 궤적에서의 가치 추정치 분석 | | | 훈련 불안정성 | 손실 값의 급격한 변동, 성능의 갑작스러운 하락 또는 급증 | 일관성 없는 종료 신호, 환경의 비정상성(신호되지 않음), 극단적인 관찰/보상 값 | 종료 신호(done) 로직 검토, 지속 플래그 예측 손실 확인, 입력 정규화 확인, 학습률 조정(DreamerV3는 고정 하이퍼파라미터지만, 환경 문제로 인한 불안정일 수 있음) | | | 탐험 부족 | 에이전트가 상태 공간의 좁은 영역에 머무름, 새로운 행동 시도 안 함 | 보상이 너무 희소하여 초기 탐험 동기 부족, 환경이 탐험을 방해하는 병목 상태를 가짐 | 반환값 정규화 확인, 내재적 동기 부여 추가 고려(신중하게), 환경의 초기 상태 다양성 증가 | | | 월드 모델이 관련 없는 특징에 과적합 | 재구성 손실은 낮지만 작업 성능 낮음, 시각적 방해 요소가 있는 환경에서 특히 문제 | 관찰에 작업과 무관한 정보가 너무 많음, 재구성 손실이 이러한 방해 요소를 모델링하도록 유도 | 관찰 공간 단순화, MuDreamer와 같은 재구성 없는 모델 고려, 객체 중심 표현 사용 고려 | | | 지속 플래그 예측 문제 | 상상된 궤적이 너무 일찍 종료되거나 비현실적으로 계속됨, 크리틱 학습에 문제 발생 | 환경의 done 신호가 모호하거나 잡음이 많거나 일관성이 없음 | 환경의 종료 로직 명확화, done 신호가 실제 최종 상태를 정확히 반영하는지 확인, 지속 플래그 예측 손실 모니터링 | |

6. DreamerV3 환경 설계를 위한 고급 주제 및 향후 방향

6.1. 객체 중심 표현 대 전체론적 장면 수준 모델 표준 DreamerV3는 인코더와 RSSM을 통해 전체론적, 장면 수준 표현을 학습합니다. 그러나 이러한 전체론적 모델은 여러 객체 간의 세분화된 관계 추론이나 개별 객체 상태가 중요하고 전역 표현에서 "혼합"되는 작업에 어려움을 겪을 수 있습니다. 주요 특징이 가려지면 객체 가림에도 민감할 수 있습니다. SOLD 및 PIWM 과 같은 객체 중심 접근 방식은 개별 객체 또는 엔티티가 명시적으로 분리되고 모델링되는 표현을 학습할 것을 제안합니다. SOLD는 Slot Attention을 사용하여 객체 중심 슬롯을 얻고 그 동역학을 예측하며, PIWM은 자율 주행에서 개별 차량 모델링을 위해 분기된 네트워크를 사용합니다. 작업이 본질적으로 객체 중심이고 여러 고유 엔티티의 복잡한 상호 작용 또는 추적을 포함하는 경우 환경은 객체가 명확하게 구별되는 관찰을 제공해야 합니다. 향후 Dreamer와 유사한 아키텍처는 이러한 객체 중심 귀납적 편향을 통합하여 관찰 구성 방식에 영향을 미칠 수 있습니다. MBRL을 위한 객체 중심 및 재구성 없는 월드 모델에 대한 지속적인 연구는 잠재적인 "전문화" 추세를 시사합니다. DreamerV3는 전체론적, 재구성 기반 모델로 일반성을 목표로 하지만, 특정 환경 유형(예: 많은 상호 작용 객체가 있는 매우 혼잡한 환경 또는 심각한 시각적 방해 요소가 있는 환경)은 이 일반적인 접근 방식의 한계를 넘어설 수 있으며, 이러한 보다 전문화된 월드 모델 학습 패러다임을 필요로 할 수 있습니다. 이는 향후 "DreamerV4"가 더 광범위한 견고성을 위해 이러한 아이디어를 통합하거나 사용자가 심층적인 환경 특성에 따라 다른 Dreamer "버전"을 선택해야 함을 의미할 수 있습니다. DreamerV3는 일반적인 알고리즘이지만 , 특정 시나리오에서는 한계가 확인되었습니다. 즉, 많은 객체와의 관계 추론 및 시각적 방해 요소 입니다. SOLD(객체 중심 ) 및 MuDreamer(재구성 없음 )와 같은 솔루션은 DreamerV3의 핵심 메커니즘에 대한 개선 또는 대안으로 제안됩니다. 이는 월드 모델링에 대한 단일하고 단일체적인 접근 방식이, 매우 견고하더라도 모든 상상 가능한 환경 유형에 보편적으로 최적이지 않을 수 있음을 시사합니다. DreamerV3의 "고정 하이퍼파라미터" 철학은 핵심 월드 모델 아키텍처 자체가 매우 다른 환경 구조(예: 전체론적 대 객체 중심)에 크게 적응해야 하는 경우 어려움에 직면할 수 있습니다. 즉, 진정으로 일반적인 MBRL을 추구하면 단일 고정 아키텍처보다는 적응형 월드 모델링 전략 도구 키트로 이어지거나, 환경이 주어진 일반 모델의 "최적점"에 맞게 설계/추상화되어야 할 수 있습니다. 6.2. 재구성 없는 월드 모델 (예: MuDreamer) DreamerV3의 픽셀 재구성 손실은 특히 시각적 방해 요소가 있는 경우 모델이 관련 없는 세부 정보를 학습하도록 강요하여 잠재적으로 중요한 작업 요소를 무시하게 만들 수 있습니다. MuDreamer는 입력 신호를 재구성하지 않고 예측 월드 모델을 학습합니다. 대신 숨겨진 표현은 환경의 가치 함수와 이전에 선택한 행동을 예측하여 학습됩니다. 학습 붕괴를 방지하려면 배치 정규화가 중요합니다. MuDreamer는 DreamerV3 및 기타 재구성 없는 접근 방식에 비해 시각적 방해 요소에 대한 더 강력한 견고성을 보여주며 일부 벤치마크에서 더 빠른 훈련으로 비슷한 성능을 달성할 수 있습니다. 이러한 재구성 없는 모델을 사용하는 경우 "깨끗한" 시각적 관찰에 대한 강조가 줄어들 수 있습니다. 그러나 관찰은 여전히 가치와 행동을 정확하게 예측하기에 충분한 정보를 포함해야 하며, 보상 신호는 표현 형성에 더욱 중요해집니다. 6.3. 상상 지평 길이 (H)의 영향 DreamerV3는 일반적으로 H=15 또는 H=16의 상상 지평을 사용합니다. 더 긴 지평은 더 장기적인 계획을 허용하지만 모델 오류를 누적시켜 발산적이거나 비현실적인 상상된 궤적으로 이어질 위험이 있습니다. 더 짧은 지평은 모델 오류에 더 강인하지만 근시안적인 정책으로 이어질 수 있습니다. EfficientZero V2는 H=15가 지나치게 길어 오류 누적을 유발할 수 있다고 주장합니다. 최적의 상상 지평은 작업에 따라 달라질 수 있습니다. 역학이 더 긴 구간에 걸쳐 매우 예측 가능한 환경은 더 긴 지평의 이점을 얻거나 이를 견딜 수 있습니다. 반대로, 더 혼란스럽거나 빠르게 변화하는 역학을 가진 환경은 더 짧고 신뢰할 수 있는 상상된 롤아웃 또는 뛰어난 장기 예측 정확도를 가진 월드 모델을 필요로 할 수 있습니다. 환경의 고유한 "예측 가능성 지평"이 핵심 요소입니다. 상상 지평 길이에 대한 논쟁 은 MBRL의 근본적인 긴장, 즉 장기적 예측에 대한 열망과 불완전한 모델의 현실 사이의 긴장을 강조합니다. 장기적 예측 가능성이 본질적으로 낮은 환경(예: 매우 혼란스러운 시스템 또는 모델링되지 않은 외부 영향이 잦은 시스템)의 경우, 월드 모델이 정확한 매우 장기적인 예측을 하도록 강요하는 것보다 더 짧고 신뢰할 수 있는 계획 지평을 위해 설계하는 것이 더 실용적일 수 있습니다. DreamerV3는 고정된 상상 지평(예: H=15)을 사용하며 , 더 긴 지평은 모델 오류 누적으로 이어질 수 있습니다. 일부에서는 H=15가 너무 길 수 있다고 주장합니다. 월드 모델이 정확하게 예측하는 능력은 지평 길이에 따라 감소하며, 이 감소율은 환경의 복잡성과 확률성에 따라 달라집니다. 환경이 학습 가능한 모델에 의해 예를 들어 5단계 앞까지만 안정적으로 예측 가능하다면, 15단계를 상상하는 것은 대부분 마지막 10단계에 대한 오류 누적을 포함하게 됩니다. 즉, 환경 설계자는 DreamerV3가 어떻게 수행될지 또는 계획 깊이(구성 가능한 경우)나 기대치를 조정해야 하는지 고려할 때 환경의 "고유한 예측 가능성 지평"을 현실적으로 평가해야 합니다. 6.4. 트랜스포머 기반 월드 모델 대 DreamerV3의 RNN 기반 RSSM DreamerV3는 RNN(GRU) 기반 RSSM을 사용합니다. 많은 최근 MBRL 연구에서는 확장성 및 효율성을 위해 트랜스포머 기반 월드 모델(예: STORM, TWISTER)을 탐구합니다. 일부 연구에서는 트랜스포머 기반 모델이 Dreamer의 성능과 일치하는 데 어려움을 겪었다고 제안하며, 이는 미묘한 다음 프레임 차이를 예측하는 데 항상 복잡한 트랜스포머가 필요한 것은 아니거나 최적화 문제 때문일 수 있습니다. TWISTER는 더 긴 지평에 대한 대조적 예측 코딩을 사용하여 트랜스포머 월드 모델을 개선하는 것을 목표로 합니다. 이는 알고리즘적 논쟁에 가깝지만, 월드 모델의 시퀀스 모델 선택이 환경의 시간적 복잡성과 상호 작용할 수 있음을 나타냅니다. 매우 장거리 종속성을 가진 환경은 효과적으로 훈련될 수 있다면 결국 트랜스포머로부터 더 많은 이점을 얻을 수 있습니다.

결론 및 주요 시사점

6.1. DreamerV3 환경 설계를 위한 모범 사례 요약 DreamerV3를 위한 효과적인 환경 설계는 월드 모델의 학습 가능성을 최우선으로 고려해야 합니다. 관찰, 행동, 보상 및 에피소드 관리에 대한 주요 권장 사항은 다음과 같습니다. * 명확하고 정보가 풍부하며 관리 가능한 복잡성의 관찰을 우선시합니다. * 영향력 있고 예측 가능한 행동 공간을 설계합니다. * DreamerV3의 월드 모델이 조밀한 내부 신호를 제공하도록 희소하지만 모호하지 않은 보상 함수를 개발합니다. * 깨끗하고 일관된 에피소드 종료 신호를 보장합니다. 6.2. 중요한 절충안 및 결정 사항 요약 환경 설계 과정에서는 다음과 같은 중요한 절충안을 고려해야 합니다. * 픽셀 기반 관찰 대 상태 기반 관찰 (일반성 대 학습 부담). * 행동 공간 복잡성 대 월드 모델 예측 가능성. * 보상 희소성 대 형상화/내재적 동기 부여 필요성 (및 DreamerV3의 고유 기능). * 관찰 풍부함 대 관련 없는 세부 정보 모델링 위험 (재구성 손실). 6.3. 고급 MBRL 에이전트를 위한 환경 설계의 미래 객체 중심, 재구성 없는, 문맥 인식 등 진화하는 MBRL 에이전트는 향후 환경 설계 철학에 영향을 미칠 수 있습니다. 에이전트와 환경의 공동 설계는 지속적으로 필요할 것입니다. DreamerV3를 위한 효과적인 환경 설계는 근본적으로 월드 모델 구성 요소를 위한 "학습 가능한 세계"를 만드는 것입니다. 설계자의 주요 역할은 조밀한 보상을 통해 행동을 복잡하게 형상화하는 것(일부 모델 프리 RL에서처럼)에서 환경의 상태, 동역학 및 목표가 예측 모델에 의해 명확하고 견고하게 학습 가능하도록 보장하는 것으로 전환됩니다. DreamerV3의 핵심은 월드 모델이며 , 정책 학습은 이 모델을 사용한 상상에 의해 주도됩니다. 따라서 정책의 품질은 월드 모델의 품질에 의해 병목 현상이 발생하며, 월드 모델의 품질은 환경의 관찰, 행동, 보상 및 종료 신호로부터 얼마나 잘 학습할 수 있는지에 따라 결정됩니다. 따라서 환경 설계의 모든 측면은 "월드 모델이 이것을 얼마나 잘 학습할 수 있는가?"라는 렌즈를 통해 보아야 합니다. 즉, DreamerV3를 위한 설계는 보상을 통해 행동을 "프로그래밍"하는 것보다 모델이 정책을 가르칠 수 있도록 세계에 대해 모델을 "가르치는" 것에 더 가깝습니다. Dreamer와 유사한 에이전트가 더욱 유능해지고 점점 더 복잡한 실제 세계 유사 작업을 처리함에 따라 환경 설계의 과제는 정책뿐만 아니라(모델 프리를 위한 시뮬레이션-현실) 결정적으로 월드 모델에 대한 "현실 격차"를 관리하는 것을 점점 더 포함하게 될 것입니다. 작업에 중요한 현실의 측면이 월드 모델이 효과적으로 학습하고 상상하기에 충분한 충실도로 포착되도록 보장하는 것이 가장 중요합니다. DreamerV3는 Minecraft 및 로봇 공학과 같은 복잡한 도메인에 적용되며 , 실제 응용 프로그램은 엄청난 복잡성과 미묘함을 가지고 있습니다. 월드 모델은 이러한 복잡한 동역학의 관련 측면을 포착해야 합니다. 시뮬레이션된 환경(또는 실제 데이터가 제시되는 방식)이 월드 모델이 이러한 중요한 측면을 학습하도록 허용하지 않으면 상상된 롤아웃에 결함이 생겨 실제 성능이 저하됩니다. 이는 정책이 잠재적으로 결함 있는 시뮬레이터에서 직접 학습하는 일반적인 시뮬레이션-현실과는 구별됩니다. 여기서는 시뮬레이터 자체가 학습됩니다. 즉, DreamerV3와 함께 사용되는 환경/시뮬레이터에 대한 충실도 요구 사항은 정확한 상상을 위한 동역학의 학습 가능성에 중점을 두며, 이는 직접적인 정책 훈련을 위한 충실도와는 다른 기준을 가질 수 있습니다. 부록: 표 3: DreamerV3 하이퍼파라미터 및 환경 설계 선택에 대한 (간접적) 영향 DreamerV3는 고정된 하이퍼파라미터를 사용한다고 알려져 있지만, 이러한 고정된 선택 사항을 이해하는 것은 환경 설계자가 에이전트의 내장된 가정과 처리 능력에 대해 정보를 얻는 데 도움이 될 수 있습니다. | DreamerV3 하이퍼파라미터/아키텍처 선택 | 간략한 설명 | 환경 설계에 대한 간접적 시사점 | |---|---|---| | 잠재 상태 유형: 범주형 | 월드 모델은 이산적인 범주형 잠재 상태를 사용합니다. | 상태 기반 입력을 제공하는 경우 상태 이산화 방식을 고려하는 데 미묘한 영향을 미칠 수 있습니다. 다중 모드 환경 결과 표현에 유리할 수 있습니다. | | symlog/symexp 사용 | 보상, 가치 및 벡터 관찰에 적용되어 광범위한 값의 크기를 처리하고 학습을 안정화합니다. | 설계자는 보상을 과도하게 정규화할 필요가 없지만, symlog 이전에 적절하게 확장되지 않으면 매우 미묘한 보상 차이가 압축될 수 있음을 인지해야 합니다. | | KL 균형 조정 | 동역학 손실(L_{dyn})과 표현 손실(L_{rep}) 사이의 균형을 맞춰 표현이 예측 가능하면서도 정보를 충분히 담도록 합니다. | 관찰이 월드 모델이 예측하기에 너무 어렵거나 너무 쉬운 경우 이 균형에 영향을 미칠 수 있습니다. | | 재구성 손실 가중치 | 관찰 재구성의 중요성을 결정합니다. | 가중치가 높으면 월드 모델이 시각적 세부 사항에 더 집중하게 되어, 시각적 방해 요소가 많은 환경에서 문제가 될 수 있습니다. | | 상상 지평 H (예: 15) | 액터-크리틱 학습을 위해 월드 모델이 미래를 예측하는 단계 수입니다. | 환경의 고유한 "예측 가능성 지평"과 일치해야 합니다. 매우 혼란스러운 환경에서는 긴 지평이 오류 누적을 유발할 수 있습니다. | | 모델 크기 | 신경망의 파라미터 수입니다. DreamerV3는 모델 크기가 클수록 데이터 효율성과 최종 성능이 향상되는 경향을 보입니다. | 더 복잡한 환경 역학이나 고차원 관찰은 더 큰 모델 크기를 정당화할 수 있지만, 계산 비용도 증가합니다. | | 훈련 비율 (run.train_ratio) | 환경 상호작용 단계당 월드 모델 및 정책 업데이트 횟수입니다. | 특정 환경(예: 교통 신호 제어)에서는 이 비율을 조정하는 것이 유익할 수 있습니다. | 이 표는 DreamerV3의 내부 알고리즘 선택 사항을 이해함으로써 환경 설계자가 환경 특성을 알고리즘이 "기대"하거나 최적화된 것과 더 잘 일치시킬 수 있도록 도와줍니다.