월드 모델의 매력 인공지능(AI)의 궁극적인 목표 중 하나는 단순히 특정 작업을 수행하는 것을 넘어, 인간처럼 복잡하고 역동적인 세상을 진정으로 이해하고 상호작용하는 시스템을 만드는 것입니다. 이러한 목표를 향한 중요한 단계로 "월드 모델"이라는 개념이 등장했습니다. 월드 모델이란 AI 에이전트가 주변 환경이 어떻게 작동하는지에 대해 구축하는 내부적인 표현으로, 이를 통해 시뮬레이션, 예측, 계획이 가능해집니다. 이 내부 모델은 AI가 "행동하기 전에 생각"할 수 있도록 하는 핵심 열쇠입니다. 비디오와 같은 감각 데이터로부터 월드 모델을 학습하는 에이전트를 구축하면 물리적 세계를 이해하고, 미래 상태를 예측하며, 새로운 상황에서 계획을 세울 수 있게 됩니다. 월드 모델의 중요성은 딥마인드의 드림어V3(DreamerV3)와 메타(Meta)의 V-JEPA2라는 두 최첨단 AI 시스템에서 명확히 드러납니다. 이 두 시스템은 서로 다른 철학과 기술적 접근 방식을 사용하지만, 월드 모델을 핵심 개념으로 삼고 있다는 공통점이 있습니다. 이는 AI 커뮤니티 내에서 강력한 월드 모델이 단순한 패턴 인식을 넘어선, 보다 일반적인 지능으로 나아가기 위한 전제 조건이라는 공감대가 형성되고 있음을 시사합니다. 따라서 월드 모델의 개발과 정교화는 앞으로도 AI 연구의 주요 주제가 될 것이며, 더 복잡한 인지 능력을 구축하는 기초 계층으로 작용할 것입니다. 두 거인, 두 가지 비전: 딥마인드 Dreamer V3와 메타 V-JEPA2 딥마인드의 드림어V3와 메타의 V-JEPA2는 월드 모델을 학습하고 활용하는 대표적인 최첨단 AI 시스템이지만, 서로 다른 철학과 기술적 접근 방식을 취합니다. Dreamer V3는 주로 능동적인 상호작용을 통해 월드 모델을 기반으로 미래 시나리오를 "꿈꾸거나" 상상함으로써 학습합니다. 반면, V-JEPA2는 방대한 양의 비디오 데이터를 관찰하여 세상의 예측 가능한 패턴을 추상적인 방식으로 이해함으로써 학습합니다. 이 글에서 다룰 내용 이 글에서는 이 두 가지 모델을 심층적으로 살펴보고, 내부 작동 방식과 철학을 비교하며, 이들의 발전이 인공 일반 지능(AGI)이라는 거대한 도전 과제에 어떤 의미를 갖는지 탐구할 것입니다. 또한 이 흥미로운 분야에 기여하고자 하는 사람들을 위해 어떤 기술을 공부해야 할지에 대한 통찰력도 제공하고자 합니다.
핵심 철학: 모델 기반 강화학습(MBRL)의 정수 드림어V3의 핵심은 모델 기반 강화학습(Model-Based Reinforcement Learning, MBRL)입니다. MBRL에서 에이전트는 먼저 환경의 모델(즉, "월드 모델")을 학습한 다음, 이 모델을 사용하여 정책(행동 방식)을 학습합니다. 이는 환경과의 상호작용으로부터 직접 정책을 배우는 모델 프리(model-free) 강화학습과는 대조적입니다. "꿈꾼다"는 비유는 드림어V3가 학습된 월드 모델 내에서 미래 시나리오를 "상상"함으로써 학습하는 방식을 잘 나타냅니다. 이러한 내부 시뮬레이션을 통해 실제 (또는 시뮬레이션된 게임) 환경과 직접 상호작용하는 것보다 훨씬 효율적으로 경험을 축적할 수 있습니다. 드림어V3 작동 방식: 내부 들여다보기 월드 모델 구축: 순환 상태 공간 모델 (RSSM) 드림어V3의 월드 모델의 심장은 순환 상태 공간 모델(Recurrent State-Space Model, RSSM)입니다. RSSM은 픽셀 수준의 관찰로부터 환경의 역학을 학습하도록 설계되었습니다. 일반적으로 GRU(Gated Recurrent Unit)와 같은 순환 신경망(RNN)을 사용하여 시간적 의존성을 포착하고 압축된 잠재 공간에서 미래 상태를 예측합니다. RSSM은 이전 상태와 행동을 바탕으로 다음 확률적 상태와 환경 보상을 예측하는 방법을 학습합니다. 드림어V2와 V3는 범주형 잠재 상태를 사용하는데, 이는 특정 작업에서 가우시안 잠재 상태보다 더 표현력이 풍부하다고 알려져 있습니다. 아키텍처 삼총사 (RSSM과 협력) RSSM과 함께 작동하는 세 가지 주요 신경망 구성 요소는 다음과 같습니다. 인코더(Encoder): 게임 이미지와 같은 복잡한 관찰을 RSSM이 처리할 수 있도록 간결한 내부 표현(잠재 상태)으로 변환합니다. 동역학 모델(Dynamics Model, RSSM의 일부): 현재 잠재 상태와 제안된 행동을 기반으로 미래 잠재 상태를 예측합니다. 이것이 "상상"의 핵심입니다. 디코더(Decoder): 잠재 상태로부터 이미지를 재구성할 수 있으며, 이는 잠재 표현을 현실에 기반하게 하고 월드 모델이 관련 시각 정보를 포착하도록 보장하는 데 도움을 줍니다. "상상"을 통한 학습: 잠재 공간에서의 액터-크리틱 월드 모델(RSSM)이 충분히 정확해지면, 드림어V3는 액터 네트워크(어떤 행동을 취할지 결정)와 크리틱 네트워크(특정 상태에 있거나 특정 행동을 취하는 것의 가치를 추정)를 훈련합니다. 결정적으로, 액터와 크리틱은 실제 경험뿐만 아니라 주로 잠재 공간에서 동역학 모델을 전개하여 생성된 "상상된 궤적"에 대해 훈련됩니다. 이는 샘플 효율성을 크게 향상시킵니다. 액터는 크리틱의 가치 추정에 따라 이러한 상상된 롤아웃에서 예측된 보상을 최대화하는 것을 목표로 합니다. 목적 함수 월드 모델은 미래 잠재 상태, 보상을 정확하게 예측하고 잠재적으로 관찰을 재구성하도록 훈련됩니다. 여기에는 이미지 재구성 손실, 보상 예측 손실, 그리고 잠재 상태를 정규화하기 위한 KL 발산 항과 같은 손실 함수가 포함됩니다. 액터-크리틱 네트워크는 표준 강화학습 목적 함수(예: 액터에 대한 정책 경사, 크리틱에 대한 λ-return과 같은 가치 기반 손실)를 사용하여 훈련되지만, 이는 상상된 궤적에 적용됩니다. 주요 강점 및 성과 드림어V3의 성공, 특히 마인크래프트에서의 다이아몬드 수집 과제 해결은 학습된 월드 모델(RSSM) 내에서 긴 행동 순서와 그 결과를 "상상"하거나 시뮬레이션하는 능력에 달려 있습니다. 이러한 내부 시뮬레이션을 통해 장기적인 전략을 탐색하고 희소 보상 문제를 극복할 수 있습니다. 이는 모델 프리 에이전트가 방대한 양의 실제 상호작용 없이는 해결하기 어려운 문제입니다. 이 상상된 잠재 공간 내에서의 액터-크리틱 학습은 세계의 예측 모델을 갖는 것의 직접적인 결과입니다. AGI가 복잡하고 장기적인 문제를 해결하기 위해서는 드림어V3가 보여준 것처럼 정신적 시뮬레이션을 수행하고 가상 시나리오를 내부적으로 평가하는 능력이 중요할 것입니다. 이는 비용이 많이 들고 잠재적으로 위험한 실제 시행착오에 대한 의존도를 줄여줍니다. 드림어V3는 마인크래프트에서 인간의 데이터나 교육 과정 없이 처음으로 다이아몬드를 수집한 알고리즘으로 유명합니다. 마인크래프트는 오픈 월드, 희소 보상, 장기 계획의 필요성 때문에 중요한 벤치마크로 여겨집니다. 드림어V3의 또 다른 핵심 설계 철학은 일반성입니다. 단일 고정 하이퍼파라미터 세트를 사용하여 150개 이상의 다양한 작업에서 우수한 성능을 달성합니다. 이는 핵심 MBRL 프레임워크뿐만 아니라 symlog 예측 및 계층 정규화와 같은 특정 견고성 기술 덕분입니다. 이러한 기술을 통해 고정된 아키텍처가 수동 재조정 없이 다양한 환경에서 다양한 규모의 보상과 관찰을 처리할 수 있습니다. AGI를 달성하려면 취약하거나 지나치게 전문화되지 않은 모델이 필요합니다. 드림어V3의 접근 방식은 처음부터 아키텍처 및 학습 안정성을 구축하는 것이 광범위하게 적용될 수 있는 알고리즘을 만드는 데 중요하며, 이는 보다 일반적인 지능을 향한 필수 단계임을 시사합니다. 상상된 궤적에서 학습함으로써 많은 모델 프리 방법에 비해 실제 환경과의 상호작용이 덜 필요합니다. 또한 정규화, 균형 조정, 변환(보상/가치에 대한 symlog 등 )과 같은 견고성 기술을 사용하여 다양한 영역과 규모에서 안정적인 학습을 보장합니다. 주목할 만한 한계점/고려 사항 월드 모델을 학습하고 전개하는 것은 여전히 계산 집약적일 수 있지만, 샘플 효율성 향상으로 상쇄되는 경우가 많습니다. 에이전트의 성능은 학습된 월드 모델의 정확성에 크게 좌우됩니다. 모델이 결함이 있는 경우("모델 편향"), 상상된 궤적이 정책을 잘못된 방향으로 이끌 수 있습니다. 드림어V3는 RNN 기반 RSSM을 사용하지만, 최근 일부 연구(예: TWISTER, STORM )에서는 트랜스포머 기반 월드 모델을 탐색하여 학습 효율성 및 확장 속성 개선 가능성을 제시하고 있지만, 드림어에 비해 성능 영향은 초기에 제한적이었습니다.
핵심 철학: 자기 지도 학습(SSL)과 결합 임베딩 예측 아키텍처(JEPA) V-JEPA2의 근간은 자기 지도 학습(Self-Supervised Learning, SSL)입니다. SSL은 레이블이 없는 데이터로부터 데이터 자체에서 감독 신호를 생성하여 학습하는 방식입니다 (예: 입력의 한 부분을 다른 부분으로부터 예측). V-JEPA2는 레이블이 없는 데이터로만 사전 훈련됩니다. 얀 르쿤(Yann LeCun)이 제안한 JEPA(Joint Embedding Predictive Architecture)의 아이디어는 생성 모델처럼 입력의 누락된 부분의 모든 픽셀을 예측하는 대신, 추상적인 임베딩 공간에서 누락된 부분의 표현을 예측하는 것을 목표로 합니다. 이를 통해 모델은 예측 불가능하거나 관련 없는 세부 정보(예: 바람에 나뭇잎이 정확히 어떻게 흔들리는지)를 무시하고 더 높은 수준의 예측 가능한 개념을 학습하는 데 집중할 수 있습니다. 이는 훨씬 효율적입니다. JEPA는 서로 다른 입력 간의 종속성을 포착하고 AI 시스템이 정보에 입각한 예측을 하는 데 도움이 되는 추상적인 표현을 생성하도록 설계되었습니다. V-JEPA2 작동 방식: 아키텍처 엿보기 핵심 구성 요소 V-JEPA2의 핵심 구성 요소는 다음과 같습니다. 컨텍스트 인코더(x-encoder): 입력의 보이는 부분(예: 일부가 마스킹된 비디오 클립)을 처리하여 표현 s x 를 생성합니다. 타겟 인코더(y-encoder): 입력의 실제 타겟 부분(컨텍스트 인코더의 관점에서 마스킹된 부분)을 처리하여 표현 s y 를 생성합니다. I-JEPA 및 V-JEPA에서는 안정적인 타겟을 제공하기 위해 종종 모멘텀 인코더(컨텍스트 인코더의 지수 이동 평균(EMA))를 사용합니다. 예측기(Predictor): 컨텍스트 인코더의 표현(s x )을 입력받아 타겟의 표현( s y^ )을 예측하려고 시도합니다. 비디오로부터 학습: 마스킹, 예측 및 효율성 V-JEPA2는 이 아이디어를 비디오 데이터에 적용합니다. 비디오의 넓은 부분(시공간적 패치)을 마스킹하고 컨텍스트의 일부만 보여줍니다. 예측기의 목표는 실제 픽셀이 아닌, 누락된 부분에 대한 추상적인 설명(표현)으로 빈칸을 채우는 것입니다. 손실 함수(예: L2 거리)는 예측된 표현( s y^ )과 실제 타겟 표현(s y ) 간의 차이를 측정합니다. C-JEPA 는 분산/공분산 및 불변성을 보장하여 안정성과 표현 품질을 개선하기 위해 VICReg 손실을 통합합니다. 이 접근 방식은 예측 가능한 장면 역학에 초점을 맞추고 관련 없는 노이즈를 무시함으로써 픽셀 수준 예측의 비효율성을 피합니다. V-JEPA2의 핵심 JEPA 철학은 추상적인 표현 공간에서 예측하고, 예측 불가능하거나 관련 없는 픽셀 수준의 세부 정보를 의도적으로 버리는 것입니다. 이는 모든 것을 재구성하려는 생성 모델과는 근본적으로 다릅니다. 이러한 추상화는 방대하고 노이즈가 많은 인터넷 비디오 데이터로부터 효율성과 확장성을 가능하게 합니다. 모델은 예측 가능하게 중요한 것을 학습합니다. AGI가 세상이 제공하는 방대한 양의 데이터(특히 수동적이고 레이블이 없는 데이터)로부터 학습하려면 노이즈를 걸러내고 기본 구조와 예측 가능한 역학에 집중할 수 있어야 합니다. V-JEPA2의 성공은 매우 상세한 월드 모델보다는 매우 추상적인 월드 모델을 학습하는 것이 더 다루기 쉽고 확장 가능한 경로임을 시사합니다. 확장: 데이터 및 모델 크기 V-JEPA2는 100만 시간 이상의 인터넷 규모 비디오와 100만 개의 이미지로 사전 훈련되었습니다. 데이터셋 크기는 2,200만 개의 비디오로 증가했습니다. 인코더 아키텍처는 10억 개 이상의 파라미터(ViT-g)로 확장됩니다. 수동적 관찰에서 행동으로: 로보틱스를 위한 V-JEPA 2-AC V-JEPA2의 핵심 혁신은 V-JEPA 2-AC(Action-Conditioned)입니다. 사전 훈련된 V-JEPA2 인코더는 상대적으로 적은 양의 레이블 없는 로봇 상호작용 데이터(예: Droid 데이터셋의 62시간 )를 사용하여 미세 조정(사후 훈련)됩니다. 이 행동 조건 모델은 로봇 행동과 자세에 따라 미래 비디오 임베딩을 예측하는 방법을 학습합니다. 이를 통해 모델 예측 제어(MPC)를 통한 제로샷(zero-shot) 계획이 가능해집니다. 모델은 상상된 미래 상태(임베딩)와 시각적 목표 간의 거리를 최소화하여 행동 순서를 추론합니다. V-JEPA2는 단계적 접근 방식을 보여줍니다. 먼저, 방대한 수동적 데이터에서 강력한 시각 이해 모델(V-JEPA2 인코더)을 사전 훈련한 다음, 적은 양의 상호작용 데이터로 행동을 위해(V-JEPA 2-AC) 조정합니다. 이는 일반적인 시각 표현을 학습하는 복잡한 작업과 행동을 학습하는 작업을 분리합니다. 이러한 모듈성은 로보틱스와 AGI에 매우 유망합니다. 이는 세상을 이해하는 범용 "인식 엔진"을 구축한 다음, 최소한의 작업별 데이터로 다양한 로봇 구현 및 작업에 더 쉽고 효율적으로 특화할 수 있음을 시사합니다. 이는 모든 작업에 대해 모든 로봇을 처음부터 훈련하는 것보다 확장 가능한 접근 방식입니다. 이는 다운스트림 작업을 위해 조정되는 파운데이션 모델의 아이디어와 일치합니다. 주요 강점 및 성과 V-JEPA2는 방대한 양의 레이블 없는 수동적 인터넷 비디오로부터 효과적으로 학습합니다. JEPA 접근 방식은 모든 픽셀을 예측하는 생성 모델보다 효율적입니다. V-JEPA 2-AC는 로봇 행동을 약 16초 만에 계획하는 반면, Cosmos와 같은 생성 모델은 4분이 걸립니다. 강력한 시각 이해 능력을 보여주며, 동작 이해(예: Something-Something v2에서 77.3% top-1 정확도 ), 외형 이해(DINOv2와 경쟁력 있음 ), 인간 행동 예측(Epic-Kitchens-100에서 최고 성능 )에서 우수한 성능을 달성합니다. "고정된 평가(frozen evaluations)"는 V-JEPA가 다운스트림 작업에 대해 다른 모델보다 레이블 효율성이 더 높다는 것을 보여줍니다. 레이블된 예제가 줄어들수록 성능 격차가 커집니다. V-JEPA 2-AC는 작업별 훈련이나 보상 없이, 이미지 목표만을 사용하여 새로운 실험실의 보이지 않는 로봇 팔에서 물건 집기 및 놓기와 같은 작업을 수행할 수 있습니다. 이는 실제 로봇 공학을 위한 중요한 단계입니다. LLM과 정렬될 때 V-JEPA2는 비디오 질의응답 작업에서 최고 성능을 달성합니다(예: PerceptionTest에서 84.0% ). 주목할 만한 한계점/고려 사항 단기 예측(몇 초, 최대 10초 )에는 능숙하지만, V-JEPA2(및 일반적인 월드 모델)는 여전히 복잡하고 여러 단계로 이루어진 장기 계획에 어려움을 겪습니다. 실제 사용 시 카메라 위치에 민감할 수 있다는 점도 문제입니다. 상관 관계와 역학은 이해하지만, 심층적인 인과 관계 추론은 여전히 어려운 과제입니다 (Meta의 CausalVQA 벤치마크에서 60% 점수 획득 ). 기본 V-JEPA는 주로 인식에 관한 것이며, 행동 능력은 V-JEPA 2-AC 변형과 추가 미세 조정을 통해 얻어집니다.
학습 패러다임: 능동적 상호작용 대 수동적 관찰 (행동 지향적 확장 포함) 드림어V3는 근본적으로 강화학습 에이전트입니다. 실제 또는 시뮬레이션된 환경과 상호작용하고, 보상/벌칙을 받으며, 이러한 상호작용을 기반으로 월드 모델과 정책을 업데이트함으로써 학습합니다. 그 지식은 행동을 통해 발견된 인과 관계에 기반합니다. 반면, V-JEPA2는 주로 자기 지도 학습 모델입니다. 방대한 양의 수동적 비디오 데이터를 처리하여 추상적인 공간에서 예측 가능한 패턴을 찾아 학습합니다. V-JEPA 2-AC 변형은 소량의 상호작용 데이터로 미세 조정하여 이를 행동과 연결합니다. 이 두 모델의 주된 학습 방식에는 차이가 있습니다. 드림어V3는 처음부터 상호작용 루프가 필요합니다. V-JEPA2는 어떤 행동을 취하기 전에 방대한 세계 지식 기반을 구축할 수 있습니다. 월드 모델의 본질 드림어V3는 종종 재구성 목표(잠재 상태가 관련 정보를 포착하도록 보장하기 위해 최소한 암시적으로)와 보상 예측을 통해 훈련된 잠재 동역학 모델(RSSM)을 학습합니다. 이 모델은 세계 상태 전이의 시뮬레이터 역할을 하는 것을 목표로 합니다. V-JEPA2는 픽셀 수준의 재구성을 명시적으로 피하면서 잠재 공간에서 추상적인 특징을 예측하도록 학습합니다. 여기서 "월드 모델"은 세계 상태를 완전한 세부 사항으로 시뮬레이션하기보다는 표현의 예측 가능한 변환을 이해하는 것에 더 가깝습니다. 드림어V3 월드 모델의 (잠재 공간에서라도) "생성적" 특성과 V-JEPA2의 "예측적, 비생성적" 특성을 대조해 볼 수 있습니다. 데이터 식단 및 효율성 드림어V3는 능동적 상호작용에서 얻은 데이터에 의존합니다. 상상력을 통해 강화학습 패러다임 내에서 샘플 효율적이지만, 초기 데이터는 여전히 상호작용에서 비롯되어야 합니다. 마인크래프트와 같은 일부 상황에서는 놀라운 데이터 효율성을 보여주었습니다 (예: OpenAI VPT의 70,000시간 비디오 및 대규모 GPU 클러스터와 비교하여 단일 V100에서 17일 만에 학습 ). V-JEPA2는 방대하고 레이블이 없는 비디오 데이터셋에서 잘 작동합니다. SSL 접근 방식은 이러한 규모에 맞게 설계되었습니다. 다운스트림 작업에 대해 레이블 효율성이 매우 높으며 픽셀 생성 모델에 비해 계산적으로 효율적입니다. V-JEPA2는 훨씬 더 크고 쉽게 사용할 수 있는 데이터 소스(수동적 비디오)를 활용합니다. 드림어V3의 데이터는 더 구체적이지만 샘플당 행동-결과 정보가 더 풍부합니다. WPT 논문 은 V-JEPA2와 유사한 월드 모델 사전 훈련이 드림어V3와 같은 강화학습 에이전트의 샘플 효율성을 크게 향상시킬 수 있음을 시사합니다. 계획 및 행동 접근 방식 드림어V3의 계획은 학습된 월드 모델(RSSM)을 사용하여 행동 순서와 그 결과를 "상상"하고 액터-크리틱 정책을 통해 높은 예측 보상/가치로 이어지는 행동을 선택함으로써 수행됩니다. V-JEPA 2-AC의 계획(예: 로보틱스)은 모델 예측 제어(MPC)를 통해 달성되며, 여기서 행동 조건 모델은 미래 임베딩을 예측하고 이러한 예측된 임베딩과 목표 임베딩 간의 거리를 최소화하도록 행동이 최적화됩니다. 이는 새로운 작업에 대해 작업별 보상 함수를 명시적으로 학습하지 않는 제로샷 계획입니다. 드림어V3의 계획은 강화학습 루프에 내재되어 있습니다. V-JEPA2의 계획(V-JEPA 2-AC에서)은 학습된 표현의 다운스트림 응용 프로그램이며 종종 목표 상태 도달로 구성됩니다. 일반화 및 견고성 드림어V3는 고정된 하이퍼파라미터로 많은 작업에서 일반화를 달성하며 내부 월드 모델과 강력한 훈련 기술에 의존합니다. V-JEPA2는 시각 이해 작업(동작, 외형)에서 잘 일반화되며 V-JEPA 2-AC를 통해 로보틱스에서 제로샷 일반화를 보여줍니다. 그 표현은 최소한의 적응으로 다양한 다운스트림 작업에 유용하도록 설계되었습니다. 두 모델 모두 강력한 일반화를 보여주지만 서로 다른 각도에서 비롯됩니다. 드림어V3는 학습 과정과 정책 구조를 일반화합니다. V-JEPA2는 시각적 표현과 예측 능력을 일반화합니다. 드림어V3와 V-JEPA2를 비교하면 "월드 모델"이라는 용어 자체가 다양한 접근 방식을 포괄한다는 것을 알 수 있습니다. 드림어V3의 월드 모델(RSSM)은 잠재 상태의 동적이고 생성적인 모델로, 반복적인 예측과 액터-크리틱 학습 지원을 위해 설계되었습니다. V-JEPA2의 "월드 모델"은 비생성적 예측을 통해 학습된 추상적인 시각적 표현의 예측 가능한 구조에 대한 이해입니다. 둘 다 "세상이 어떻게 작동하는지"를 포착하는 것을 목표로 하지만, 메커니즘과 학습된 모델의 특성은 상당히 다릅니다. AGI를 위한 월드 모델을 논의할 때 어떤 종류의 월드 모델인지 명시하는 것이 중요합니다. 상세한 시뮬레이션을 위한 것인가? 추상적인 이해를 위한 것인가? 직접적인 행동 조절을 위한 것인가? 월드 모델 아키텍처와 학습 목표의 선택은 AI 시스템의 의도된 기능에 따라 크게 달라질 것입니다. 드림어V3는 능동적이고 목표 지향적인 상호작용과 내부 시뮬레이션을 통해 복잡하고 순차적인 의사 결정 및 계획을 학습하는 데 탁월합니다. V-JEPA2는 수동적 관찰로부터 광범위하고 확장 가능하며 효율적인 시각적 이해를 구축하는 데 탁월하며, 이는 행동을 위해 기반이 될 수 있습니다. 이는 상호 배타적인 강점이 아니라 상호 보완적인 강점입니다. 드림어V3는 V-JEPA와 유사한 사전 훈련으로부터 더 풍부한 초기 표현의 이점을 얻을 수 있으며, V-JEPA2의 행동 수행 능력은 더 정교한 강화학습 스타일의 정책 학습을 통해 향상될 수 있습니다. V-JEPA 2-AC 모델 자체는 수동적 사전 훈련과 상호작용 기반 미세 조정을 결합하여 이를 입증합니다. 월드 모델 사전 훈련(WPT)에 대한 연구는 V-JEPA의 접근 방식과 유사하게 선별되지 않은 데이터에 대한 사전 훈련 월드 모델이 드림어V3와 같은 강화학습 에이전트의 샘플 효율성과 성능을 크게 향상시킨다는 것을 명시적으로 보여줍니다. 미래의 AGI는 순전히 "관찰자"이거나 처음부터 순전히 "행위자"가 아닐 가능성이 높습니다. 방대한 관찰 데이터를 활용하여 기초적인 세계 지식을 구축하고(V-JEPA2 스타일), 그런 다음 목표 지향적인 상호작용과 강화를 통해 이 지식을 개선하고 복잡한 행동을 학습하는(드림어V3 스타일) 시스템을 포함할 가능성이 높습니다.
드림어V3의 AGI 기여 드림어V3는 에이전트가 희소 보상이 있는 동적이고 부분적으로 관찰 가능한 환경에서 복잡하고 목표 지향적인 행동과 장기 계획을 학습하는 방법을 보여줍니다. 내부 모델을 기반으로 효과적으로 행동하는 이 능력은 모든 AGI에 기본적입니다. 고정된 하이퍼파라미터로 다양한 영역에서 작동하는 일반 학습 알고리즘은 보다 적응력이 뛰어나고 덜 전문화된 AI를 향한 단계입니다. V-JEPA2의 AGI 기여 V-JEPA2는 방대하고 쉽게 사용할 수 있는 (수동적) 관찰 데이터로부터 물리적 세계에 대한 기초적인 이해를 구축하는 경로를 보여줍니다. 사물이 일반적으로 어떻게 보이고 행동하는지에 대한 이러한 "상식적인" 이해는 매우 중요합니다. 시각적 표현 학습의 효율성과 확장성은 AGI의 지각적 기반을 제공할 수 있습니다. V-JEPA 2-AC가 로보틱스에서 제로샷 계획을 가능하게 하는 능력은 이러한 기초 모델이 실제 상호작용에 얼마나 빨리 적응할 수 있는지를 보여줍니다. AI에서의 "행동을 통한 학습" 대 "관찰을 통한 학습" 논쟁 인지 과학과의 연결점을 살펴보면, 인간은 능동적인 경험(행동)과 수동적인 관찰을 통해 모두 학습합니다. 관찰을 통한 학습은 복잡한 행동을 배우는 데 필요한 시간과 시도를 줄일 수 있습니다. 드림어V3는 주로 "행동을 통한 학습"을 구현합니다. V-JEPA2는 주로 "관찰을 통한 학습"을 구현하며, V-JEPA 2-AC는 "행동을 통한 학습" 미세 조정 단계를 추가합니다. AGI는 아마도 두 가지 모두 필요할 것입니다. 관찰은 광범위한 지식을 효율적으로 구축할 수 있고, 행동은 기술을 개선하고 행동의 인과 관계를 이해하는 데 도움이 될 수 있습니다. 메타의 V-JEPA 2 논문 자체는 "현대 AI의 주요 과제는 세상을 이해하고 주로 관찰을 통해 행동하는 법을 배우는 것입니다. 이 논문은 인터넷 규모의 비디오 데이터와 소량의 상호작용 데이터를 결합하는 자기 지도 학습 접근 방식을 탐구합니다"라고 명시하고 있습니다. 이는 명시적으로 통합을 시사합니다. 순전히 상호작용적인 학습(전통적인 강화학습과 같은)은 특히 복잡한 실제 시나리오에서 엄청나게 많은 데이터를 필요로 합니다. 인터넷에서 사용할 수 있는 방대한 양의 수동적 데이터(비디오, 텍스트)는 우리가 수집할 수 있는 고품질 상호작용 데이터의 양을 훨씬 능가합니다. 100만 시간 이상의 비디오를 활용한 V-JEPA2의 성공은 AI의 지각적 기반을 위한 이 병목 현상을 극복하는 전략을 강조합니다. 마인크래프트에서 드림어V3의 효율성은 인상적이지만, 여전히 상호작용이 실제 세계보다 저렴한 시뮬레이션된, 비록 복잡하지만, 환경 내에서 작동합니다. AGI가 실제 세계의 풍부함에 대해 배우려면 수동적 데이터를 광범위하게 활용할 수 있어야 합니다. 이러한 수동적 데이터를 유용한 세계 지식으로 전환할 수 있는 V-JEPA2와 같은 접근 방식은 따라서 매우 중요합니다. 그런 다음 강화학습 방법은 이 지식에 따라 행동하는 방법을 배우는 데 필요하지만, 강력한 관찰 기반으로 시작하면 훨씬 더 효율적으로 만들 수 있습니다. 이는 SSL 사전 훈련이 강화학습 샘플 효율성을 향상시킨다는 연구 결과에 의해 뒷받침됩니다. 시너지의 힘: 관찰 학습과 상호작용적 개선의 결합 V-JEPA 2-AC는 이미 이러한 시너지를 보여줍니다. 즉, 대규모 수동적 사전 훈련 후 목표 지향적인 상호작용적 미세 조정을 거칩니다. SSL에서 학습된 사전 훈련된 시각적 특징이나 월드 모델을 사용하여 강화학습을 가속화하는 아이디어는 점점 더 확산되는 추세입니다 (DINO-WM ; APV ; PreLAR ; WPT ). 이러한 접근 방식은 수동적 데이터에서 학습된 표현이 강화학습을 더 샘플 효율적으로 만들 수 있음을 보여줍니다. 드림어와 유사한 에이전트가 V-JEPA와 유사한 시스템에서 학습된 표현으로 인코더 또는 월드 모델의 일부를 초기화할 수 있을까요? 이는 엄청난 출발점을 제공할 수 있습니다. V-JEPA2는 풍부하고 확장 가능한 인식을 대량의 데이터로부터 얻는 강력한 경로를 제공합니다. 드림어V3는 복잡한 환경에서 효과적이고 계획된 행동을 생성하는 학습을 위한 강력한 프레임워크를 제공합니다. AGI는 단순히 수동적인 이해자이거나 맹목적인 행위자일 수 없습니다. 두 가지 모두 필요합니다. V-JEPA 2-AC 모델은 대규모 관찰 사전 훈련과 로보틱스를 위한 상호작용 기반 미세 조정을 명시적으로 결합하여 이러한 통합을 향한 실질적인 경로를 보여줍니다. 문제는 이 두 측면이 얼마나 깊이 통합되고 공동 개발될 수 있는지에 있습니다. 미래의 AGI 아키텍처는 인식(관찰을 통한 학습)과 행동/계획(상호작용을 통한 학습)을 위한 별개이지만 상호 연결된 모듈을 특징으로 하며, 이들 간에 지식을 효율적으로 전달하는 메커니즘을 갖출 가능성이 높습니다. "월드 모델"이 그 다리 역할을 할 수 있습니다. AGI로 가는 길에 대한 두 접근 방식의 지속적인 과제 발전에도 불구하고 두 모델 모두 매우 장기적이고 여러 단계로 이루어진 추론 및 계획에는 여전히 한계가 있습니다. 역학은 학습하지만, 상관 관계를 넘어서는 심층적이고 추상적인 인과 관계 이해는 현재 모델이 이제 막 다루기 시작한 AGI의 주요 장애물입니다. 지각적 패턴을 넘어 더 추상적이고 상징과 유사한 상식적 추론으로 나아가는 것은 여전히 미개척 연구 분야입니다. 르쿤의 JEPA 비전에는 직접적인 시행착오 없이 예측 및 결과 이해를 가능하게 하는 세계 작동 방식에 대한 내부 모델 구축이 포함됩니다. 시뮬레이션된 학습을 복잡하고 예측 불가능한 실제 세계로 이전하는 것("sim2real 갭" )은 특히 복잡한 물리적 상호작용의 경우 중요한 과제로 남아 있습니다. V-JEPA 2-AC가 가능성을 보여주지만, 강력한 실제 배포는 어렵습니다. 이러한 모델의 기능이 향상됨에 따라 안전하고 인간의 가치와 일치하도록 보장하는 것이 무엇보다 중요합니다.
AGI 개발은 본질적으로 학제 간 연구입니다. 권장되는 연구 분야 목록은 핵심 머신러닝(SSL, RL), 로보틱스(체화형 AI, sim2real), 인지 과학(인간의 학습 및 인식 방식), 심지어 철학(인과 관계, 이해의 본질)에까지 걸쳐 있습니다. 이는 AGI가 현재 AI의 더 큰 버전일 뿐만 아니라, 여러 분야에서 영감과 형식을 얻는 근본적으로 새로운 사고방식을 필요로 하기 때문입니다. 예를 들어, 르쿤은 JEPA와 인간/동물의 학습 방식 사이의 유사점을 명시적으로 제시합니다. 로보틱스의 과제는 종종 어린이의 발달 학습을 반영합니다. 따라서 AGI 연구 지망생은 고립되어서는 안 됩니다. 광범위한 학제 간 지식 기반은 개념적 돌파구를 마련하고 지능의 다면적 특성을 이해하는 데 필수적입니다. 또한, 많은 권장 연구 분야는 "무엇을 학습하는가"(표현)와 "어떻게 학습하는가"(정책)의 융합을 시사합니다. V-JEPA2와 같은 SSL 기술은 세계의 좋은 표현을 학습하는 것("세상이 어떤 모습인지 학습")에 관한 것입니다. 드림어V3와 같은 강화학습 기술은 세계에서 행동하는 정책을 학습하는 것("목표를 달성하는 방법 학습")에 관한 것입니다. 그러나 가장 발전된 시스템(V-JEPA 2-AC, DINO-WM, 드림어V3를 강화하는 WPT)은 이것이 별개의 문제가 아님을 점점 더 보여주고 있습니다. 좋은 표현은 정책 학습을 더 효율적으로 만들고 , 효과적인 상호작용(정책)은 더 나은 표현을 학습하는 데 필요한 데이터를 생성합니다. 미래 AGI 연구는 표현과 정책을 공동 개발하여 더 나은 이해가 더 나은 행동으로 이어지고, 더 나은 행동이 더 나은 이해로 이어지는 선순환을 만드는 아키텍처와 알고리즘에 점점 더 초점을 맞출 것입니다. "인식 모델"과 "정책 모델"의 구분은 점점 더 모호해질 수 있습니다. 월드 모델 패러다임 수용 월드 모델 심층 탐구: RNN 기반(드림어V3의 RSSM 등)에서 트랜스포머 기반(), 그리고 추상적 표현에 초점을 맞춘 모델(JEPA 등)에 이르기까지 다양한 월드 모델 아키텍처의 이론과 실제를 이해해야 합니다. 이들이 어떻게 훈련되고 예측, 계획, 제어에 사용되는지 연구해야 합니다. 모델 기반 강화학습 (MBRL): 드림어V3를 넘어 MBRL의 광범위한 분야를 탐구해야 합니다. 여기에는 장점(샘플 효율성, 계획)과 과제(모델 편향, 계산 비용)가 포함됩니다. 에이전트가 동역학 모델을 학습하고 활용하는 방법을 이해해야 합니다. 자기 지도 학습(SSL) 마스터하기 V-JEPA를 넘어서: JEPA 가 핵심 초점이지만, 다른 SSL 패러다임도 탐구해야 합니다. 대조 학습 (예: SimCLR, MoCo). 마스크 오토인코더 (MAE) 및 기타 생성적 SSL 방법. 이들의 강점, 약점, 그리고 레이블 없는 데이터로부터 표현을 학습하는 방법을 이해해야 합니다. 비디오 및 순차 데이터용 SSL: 월드 모델링에 매우 중요한 동역학 및 시간적 패턴을 비디오에서 이해하는 데 특화된 기술에 중점을 두어야 합니다. V-JEPA 와 V-JEPA2 가 대표적인 예입니다. 강화학습 기초 (및 고급 주제) 모델 프리 강화학습: MBRL의 부상에도 불구하고 모델 프리 방법(Q-러닝, 정책 경사, 액터-크리틱, PPO )을 이해하는 것은 종종 구성 요소 또는 기준선으로 사용되기 때문에 필수적입니다. 탐험 대 착취: 강화학습의 근본적인 과제입니다. 다중 에이전트 강화학습 (MARL): AGI가 다른 에이전트와 상호작용할 가능성이 높기 때문입니다. 물리적 세계로의 다리: 체화형 AI 및 로보틱스 체화형 AI 원칙: 지능은 환경과의 물리적 상호작용에 의해 형성된다는 것을 이해해야 합니다. 이는 AI가 세상을 진정으로 배우려면 "몸"이 필요하다는 것을 의미합니다. Sim2Real 이전: 로보틱스의 주요 장애물은 "현실 격차"로 인해 시뮬레이션에서 학습된 정책을 실제 세계로 이전하는 것입니다. 도메인 무작위화 와 정확한 시뮬레이터 구축(NVIDIA Isaac Sim ; Genesis )과 같은 기술을 연구해야 합니다. 로보틱스 특화 파운데이션 모델: 파운데이션 모델이 로보틱스에 어떻게 적용되고 있는지 탐구해야 합니다. V-JEPA 2-AC 와 DINO-WM 은 로보틱스에 적용된 월드 모델의 예입니다. 상호작용 데이터로부터 학습: V-JEPA 2-AC와 같은 모델이 로봇 궤적을 사용하여 어떻게 미세 조정되는지 이해해야 합니다. "왜": AI에서의 인과 관계 상관 관계를 넘어 인과 관계로 나아가야 합니다. 인과 관계를 이해하는 것은 강력한 추론, 계획 및 개입에 매우 중요하며, 이는 핵심적인 AGI 특성입니다. 이는 현재 모델이 종종 부족한 분야입니다. 인과 관계 발견 및 추론 방법을 탐구해야 합니다. 인간 지능으로부터 배우기: 인지 과학 및 발달 심리학 체화된 인지: 물리적 체화가 인간 (그리고 잠재적으로 인공적인) 인지를 어떻게 형성하는지 연구해야 합니다. 관찰을 통한 학습 대 행동을 통한 학습: 인간과 동물이 학습하는 방식에서 통찰력을 얻어야 합니다. 직관적 물리학 및 상식: 인간이 이를 어떻게 개발하는지, 그리고 AI에 이를 어떻게 주입할 수 있는지 연구해야 합니다. 의사 결정을 위한 파운데이션 모델 대규모 사전 훈련된 모델(LLM, VLM)이 계획, 추론 및 제어를 위해 의사 결정 파이프라인에 어떻게 통합되고 있는지 연구해야 합니다. 이는 대규모 사전 훈련의 강점과 에이전트 기능을 결합하는 빠르게 발전하는 분야입니다. 확장 가능하고 강력한 아키텍처의 중요성 방대한 데이터셋과 모델 크기에 따라 확장할 수 있는 아키텍처(V-JEPA2의 인코더 및 예측기에 사용되고 드림어와 유사한 월드 모델에 대해 탐색된 트랜스포머 등 )에 중점을 두어야 합니다. 드림어V3와 V-JEPA2 모두에서 볼 수 있듯이 훈련 안정성과 견고성을 보장하는 기술을 이해해야 합니다. 결론: 흥미롭고 학제적인 미래를 향하여 AGI는 머신러닝, 로보틱스, 인지 과학 등 다양한 분야의 아이디어를 종합해야 하는 거대한 도전 과제임을 강조해야 합니다. 호기심, 지속적인 학습, 다양한 접근 방식을 탐구하려는 의지를 장려해야 합니다. AGI를 향한 여정은 답을 찾는 것만큼이나 올바른 질문을 하는 것에 관한 것입니다. 드림어V3와 V-JEPA2는 각기 다른 방식으로 이 여정에 중요한 이정표를 제시하며, 미래 AI가 세상을 이해하고 그 안에서 행동하는 방식에 대한 귀중한 통찰력을 제공합니다. 이들의 강점을 결합하고 한계를 극복하려는 노력은 의심할 여지 없이 AGI 실현을 향한 길을 밝혀줄 것입니다.