이 웹페이지에는 구글 딥마인드 2025 4월 논문 [An Approach to Technical AGI Safety and Security ] 한글번역 에 대한 전문적이고 자세한 글이 작성되어 있습니다. 빅데이터 분석을 통해 얻은 인사이트를 글로 작성하였고, 자세한 내용은 아래에서 확인할 수 있습니다.





구글 딥마인드 2025 4월 논문 [An Approach to Technical AGI Safety and Security ] 한글번역


도입부

인공 일반 지능(AGI)은 혁신적인 혜택을 약속하지만, 동시에 심각한 위험도 동반합니다. 우리는 인류에 심각한 해를 가할 수 있는 위험을 해결하기 위해 접근 방식을 개발했습니다. 우리는 네 가지 위험 영역을 식별했습니다: 악용, 부적합, 실수, 구조적 위험. 그 중에서도 기술적 접근 방식을 통해 악용과 부적합 위험에 집중합니다. 악용의 경우, 위협 요인에 위험한 능력을 접근하지 못하도록 방지하기 위해 위험한 능력을 사전에 식별하고, 강력한 보안, 접근 제한, 모니터링, 모델 안전 완화 조치를 구현합니다. 부적합을 해결하기 위해 두 가지 방어 전략을 제시합니다. 첫째, 모델 수준의 완화 조치인 강화된 감시와 강력한 훈련을 통해 부적합하지 않은 모델을 구축할 수 있습니다. 둘째, 시스템 수준의 보안 조치인 모니터링과 접근 제어는 모델이 부적합하더라도 해를 줄일 수 있습니다. 해석 가능성, 불확실성 추정, 그리고 더 안전한 디자인 패턴과 같은 기술은 이러한 완화 조치의 효과를 높일 수 있습니다. 마지막으로 이러한 구성 요소를 결합하여 AGI 시스템에 대한 안전 사례를 만드는 방법을 간략히 설명합니다. 확장된 초록 AI, 특히 AGI는 혁신적인 기술이 될 것입니다. 모든 혁신적인 기술처럼 AGI는 큰 혜택을 제공할 것이며, 동시에 심각한 위험을 동반할 것입니다. 이는 인류에 심각한 해를 가할 수 있는 사건들을 포함합니다. 이 논문은 이러한 심각한 해를 피하기 위한 AGI 개발 방식을 설명합니다. AGI 안전 연구는 빠르게 발전하고 있기 때문에, 우리의 접근 방식은 탐색적인 것으로 간주되어야 합니다. 우리는 새로운 아이디어와 증거를 통합하여 AI 생태계와 함께 진화할 것입니다. 심각한 해는 증거 딜레마에 직면합니다: 위험 완화 조치의 연구와 준비는 그 위험을 초래하는 능력의 명확한 증거가 있을 때 이루어집니다. 우리는 잠재적인 위험을 사전에 예측하여, 가능성보다 더 많은 위험을 탐구하는 전략을 개발할 수 있습니다. 그럼에도 불구하고, 우리는 이러한 능력의 발생 가능성을 예측할 수 있는 위험을 우선시하고, 더 추측적인 위험은 향후 연구에 미루기로 합니다. 구체적으로, 우리는 학습을 통해 기울기 하강을 통해 활성화된 기반 모델의 능력에 집중하며, Morris 등(2023)의 예외적인 AGI(4급)를 고려합니다. 이는 99% 상위 스킬을 가진 성인보다 넓은 범위의 비물리적 작업에서 일치하거나 초과하는 AI 시스템으로 정의됩니다. 이는 대화 시스템, 에이전트 시스템, 추론, 학습된 새로운 개념, 그리고 재귀적 개선의 일부 측면을 포함하지만, 목표의 변동과 초지능에서 발생하는 새로운 위험은 향후 작업으로 미루어집니다. 우리는 심각한 해를 완화할 수 있는 기술 연구 영역에 집중합니다. 그러나 이는 반쪽짜리 그림일 뿐입니다: 기술적 해결책은 효과적인 거버넌스와 보완되어야 합니다. 경쟁 압력으로 인해 안전 기준에 대한 더 낮은 경쟁을 방지하기 위해 안전 기준과 최선의 실천 방법에 대한 더 넓은 합의가 특히 중요합니다. 이 논문이 이를 위한 의미 있는 단계를 취하는 데 도움이 되기를 희망합니다. 배경 가정 우리 접근 방식을 개발하는 동안 다양한 옵션의 장단점을 고려했습니다. 예를 들어, 일부 안전 접근 방식은 더 강력한 일반 이론적 보증을 제공할 수 있지만, 그것이 제때 준비될지는 불확실합니다. 다른 접근 방식은 더 임의적이고 경험적이며, 더 빨리 준비되지만, 거친 부분이 있습니다. 이러한 트레이드오프를 위해 우리는 AGI 개발에 대해 몇 가지 배경 가정과 믿음에 크게 의존합니다: 1. 인간 한계 없음: 현재 패러다임(광범위하게 해석) 하에서 AI 시스템이 인간의 능력 수준에 제한되는 근본적인 장벽은 없다고 생각합니다. 따라서 더 강력한 능력의 가능성을 준비하기 위해 이러한 가능성을 심각하게 고려합니다. • 결과: 관찰자의 능력보다 더 높은 시스템을 감독하는 것은 어려우며, 관찰자의 능력과 시스템의 능력 간의 격차가 넓어질수록 더욱 그렇습니다. 특히 기계 규모와 속도에서 그렇습니다. 따라서 충분히 강력한 AI 시스템의 경우, 우리의 접근 방식은 순수하게 인간 감독자에 의존하지 않으며, 대신 AI 자체의 능력을 감독에 활용합니다. 2. 시간대: 강력한 AI 시스템이 개발될 시간대에 대해 매우 불확실하지만, 2030년까지 개발될 가능성이 높다고 생각합니다. • 결과: 시간대가 매우 짧을 수 있으므로, 우리의 안전 접근 방식은 "언제든지" 적용 가능해야 합니다. 즉, 필요할 경우 완화 조치를 빠르게 구현할 수 있어야 합니다. 이 이유로 현재 ML 파이프라인에 쉽게 적용할 수 있는 완화 조치에 주로 집중합니다. 3. 가속화: 경제 성장 모델에 대한 연구를 바탕으로, AI 시스템이 과학 연구 및 개발(R&D)을 자동화하면 가속화된 성장 단계에 진입할 가능성이 있다고 생각합니다. 여기서 자동화된 R&D는 더 많은 AI 시스템의 개발과 효율성을 가능하게 하며, 더 많은 자동화된 R&D를 가능하게 하여 긍정적인 피드백 루프를 발생시킵니다. • 결과: 이러한 시나리오에서는 진보 속도가 급격히 증가하여, 문제가 발생할 때 이를 인식하고 대응할 시간이 매우 적어질 것입니다. 새로운 문제를 인식하고 대응할 수 있도록 위험 완화 방식을 AI가 더 많은 AI 안전 작업에 참여하도록 할 수 있습니다. 이 논문의 접근 방식은 AI 시스템이 AI 안전 R&D를 수행할 수 있도록 하는 데 초점이 맞춰져 있지 않지만, 이를 그 목적으로 특화시킬 수 있습니다. 4. 연속성: 우리는 가속화된 속도를 처리할 수 있지만, 한계가 있습니다. 예를 들어, 현재 채팅봇에서 모든 인간 경제 활동을 폐지하는 AI 시스템으로 단일 단계로 점프하는 것은, 우리가 예상하지 못한 문제가 발생할 가능성이 매우 높습니다. 다행히도 AI 진보는 이토록 불연속적이지 않습니다. 따라서 우리는 대략적인 연속성을 의존합니다: 즉, 입력(예: 컴퓨팅 및 R&D 노력)의 상대적으로 점진적인 증가가 일반 AI 능력의 큰 불연속적 도약을 초래하지 않을 것이라고 가정합니다. 중요한 것은, 시간대와 관련하여 진보 속도에 제한이 없다는 것입니다. • 결과: 능력이 개선됨에 따라 잘못된 가정이 발생할 수 있는 것을 탐지하기 위해 우리의 접근 방식을 반복적이고 경험적으로 테스트할 수 있습니다. • 결과: 우리의 접근 방식은 임의의 능력의 AI 시스템에 대해 견고할 필요는 없습니다. 대신, 다음 몇 단계 동안 발생할 수 있는 능력에 대해 계획을 세울 수 있으며, 더 강력한 능력은 향후에 미루어집니다. 위험 영역 안전성과 보안에 대해 논의할 때, 유사한 완화 전략을 통해 해결할 수 있는 해로 가는 경로를 식별하는 것이 도움이 됩니다. 완화 전략의 차이를 구별하기 위해 위험 영역을 정의하므로, 구체적인 위험 영역(예: 사이버 공격이나 인간 통제 상실)과는 다릅니다. 따라서 이러한 영역은 AI 전체에 적용되며, AGI에 특화되어 있지 않습니다. 우리는 네 가지 주요 영역을 고려합니다: 1. 악용: 사용자가 AI 시스템에 지시하여 개발자의 의도와는 달리 해를 초래하도록 합니다. 예를 들어, AI 시스템은 해커가 중요 인프라에 대한 사이버 공격을 수행하는 데 도움을 줄 수 있습니다. 2. 부적합: AI 시스템이 개발자의 의도와는 달리 해를 초래합니다. 예를 들어, AI 시스템은 인간 감독자가 검토하는 데 견딜 수 있는 자신감 있는 답변을 제공할 수 있지만, AI는 실제로 답변이 잘못되었음을 알고 있습니다. 우리의 부적합 개념은 기만, 음모, 의도하지 않은 통제 상실과 같은 구체적인 위험을 포함하고 초월합니다. 3. 실수: AI 시스템은 해로운 결과를 초래하는 출력을 생성하지만, AI 시스템은 개발자가 의도하지 않은 출력이 해로운 결과를 초래할 것이라고 알지 못합니다. 예를 들어, 전력망을 운영하는 AI 에이전트는 전송선이 유지 보수가 필요하다는 사실을 인식하지 못할 수 있으며, 과부하를 가해 소각할 수 있습니다. 4. 구조적 위험: 이는 여러 사람, 조직, 또는 AI 시스템 간의 다중 에이전트 역학에서 발생하는 해로, 한 사람의 행동, 하나의 시스템의 부적합, 또는 하나의 시스템의 안전 제어만 변경하여 방지할 수 없습니다. 이것은 분류가 아니며, 이러한 영역은 상호 배타적이거나 포괄적이지 않습니다. 실제로는 많은 구체적인 시나리오가 여러 영역의 혼합일 것입니다. 예를 들어, 부적합한 AI 시스템은 악의적인 요인에게 도움을 받아 자신의 모델 가중치를 유출할 수 있으며, 이는 악용과 부적합의 조합입니다. 이러한 경우에도 각 구성 요소 영역의 완화 조치를 포함하는 것이 여전히 생산적일 것입니다. 그러나 향후 연구는 영역의 조합에 특화된 완화 조치를 고려해야 합니다. 악의적인 요인이 없는 경우, 실수와 같은 경우, 표준 안전 공학 실천(예: 테스트)은 위험을 크게 줄일 수 있으며, AI 실수와 인간 실수를 방지하는 데 유사하게 효과적일 것입니다. 이러한 실천은 이미 심각한 인간 실수로 인한 심각한 해를 매우 불가능하게 만들었습니다. 그러나 이는 심각한 해가 매우 높은 기준이기 때문입니다. 따라서 우리는 AI 실수에서 발생하는 심각한 해가 악용이나 부적합보다 훨씬 덜 가능성이 높다고 생각하며, 적절한 안전 실천을 통해 더욱 감소시킬 수 있습니다. 이러한 이유로 이 논문에서는 범위를 설정합니다. 그럼에도 불구하고, AI 실수에 대한 네 가지 주요 완화 조치인 AI 능력 개선, 극단적인 상황에서의 배포 회피, AI 행동의 안전성을 확인하는 실드 사용, 단계적 배포를 언급합니다. 구조적 위험은 훨씬 더 큰 범주로, 각 위험은 고유한 접근 방식을 필요로 합니다. 또한 AI 개발자는 이러한 위험을 처리하기가 훨씬 어렵습니다. 이는 종종 새로운 규범이나 기관을 통해 강력한 세계 역학을 형성해야 하기 때문입니다. 이러한 이유 때문에 이러한 위험은 이 논문의 범위를 벗어납니다. 이것은 구조적 위험에 대해 아무것도 하지 않는다는 의미는 아닙니다. 실제로 이 논문에서 논의된 대부분의 기술 작업은 구조적 위험에 대한 것도 중요할 것입니다. 예를 들어, 모델을 임의의 훈련 목표에 맞추기 위한 기술을 개발함으로써, 규제 기관은 모호한 사양에 따라 모델을 규제할 수 있는 기능을 제공할 수 있습니다. 따라서 우리의 전략은 악용과 부적합에 집중합니다. 악용의 경우, 전략은 Frontier Safety Framework(Google DeepMind, 2025)를 통해 실현됩니다. 이는 모델이 해를 초래할 수 있는 능력을 평가하고, 그렇다면 보안 및 배포 완화 조치를 구현합니다. 부적합 전략은 좋은 감시를 달성하는 것으로 시작하며, 이는 AGI 안전 분야에서 중요한 집중 영역입니다. 또한, 감시를 어디서 얻을지, 즉 훈련된 시스템이 부적합하지 않도록 하기 위해 감시가 필요한 작업에 중점을 둡니다. **악용** 악용은 인간이 AI 시스템을 개발자의 의지와 반대로 악용하여 해를 끼치려는 경우를 의미합니다. 이를 방지하기 위해, 우리는 악의적인 사용자가 위험한 기능을 악용하여 심대한 해를 끼칠 수 없도록 보안 및 배포 완화를 도입합니다. (완화된) AI 시스템이 주어진 경우, 우리는 모델을 악용해 보면서 실제 해를 끼치지 않으면서 얼마나 악용할 수 있는지 평가함으로써 완화를 평가할 수 있습니다. 단순한 논리적으로, 만약 우리가 모델로 (대리) 해를 끼칠 수 없다면 외부 악의적인 사용자도 (실제) 해를 끼칠 수 없을 것입니다. 이 단순한 논리는 악의적인 사용자가 우리가 하는 것보다 더 많은 노력을 기울일 수 있다는 점 등을 추가적인 요인들로 보완해야 합니다. 반대로, 만약 우리가 (대리) 해를 끼칠 수 있다면 완화를 강화해야 합니다. 위의 특별한 경우로, 완화가 전혀 도입되지 않은 경우, 우리는 모델이 처음부터 심대한 해를 끼칠 수 있는 능력을 가지고 있는지 여부를 확인하고, 그런 능력을 발견하면 완화를 도입합니다. 이는 구글 딥마인드를 통해 실천되는 프론티어 세이프티 프레임워크(Google DeepMind, 2025)의 접근 방식입니다. **위험 평가** 악용 위협 모델링은 강력한 프론티어 AI 시스템의 능력을 통해 악의적인 사용자가 심대한 해를 끼칠 수 있는 구체적이고 현실적인 방법을 식별합니다. 중요한 질문에는 AI 시스템이 어떤 능력을 가지고 있는지, 악의적인 사용자가 이러한 능력을 어떻게 사용하는지, 어떤 종류의 악의적인 사용자가 관련될 수 있는지 등이 포함됩니다. 목표는 가장 현실적인 해로 이어질 수 있는 경로와 예상되는 피해를 명확하게 설명하는 것입니다. 이를 통해 어떤 모델 능력이 실제 세계에서 심대한 해를 끼칠 위험을 증가시키는 대리 역할을 할 수 있는지 알 수 있습니다. 위험한 능력 평가는 AI 시스템에서 이러한 능력의 정도를 구체적으로 측정하는 방법입니다. 우리는 모델이 악용될 가능성이 있는 잠재적 능력을 포착하는 작업 모음을 정의하고, 모델을 사용하여 이러한 작업 모음에서 높은 점수를 받을 수 있는지 확인합니다. 일반적으로 이러한 평가를 통해 모델이 필요한 능력을 갖추지 못하기 때문에 악용이 불가능하다고 주장하고, 완화가 필요하지 않다고 합니다. 이를 위해 우리는 악용이 발생할 수 있는 능력 임계값을 정의하고, 이를 위험한 능력 평가의 구체적이고 측정 가능한 점수에 매핑합니다. 예측된 임계값 달성 시기를 기준으로 완화를 적절한 시간대에 준비할 수 있습니다. **도표 2 | 악용을 완화하기 위한 접근 방식 개요** 우리는 모델 가중치, 모델 수준 완화(“훈련” 상자), 시스템 수준 완화(“배포” 상자)를 통해 악의적인 사용자가 위험한 기능을 악용할 수 없도록 차단하려는 목표를 가지고 있습니다. 위험한 능력 평가는 완화가 필요한지 여부를 평가하는 데 도움이 되며, 레드 팀은 충분한지 여부를 평가합니다. **완화** 배포 완화는 의도된 API를 통해 악의적인 사용자가 위험한 기능을 악용할 수 없도록 차단하려는 목표를 가지고 있습니다. 완화는 모델 수준에서 시작되며 다음을 포함합니다: 1. 훈련 후 안전성: 개발자는 훈련 후 모델이 해로운 요청을 수행하지 않도록 가르칠 수 있습니다. 이러한 접근 방식은 모델이 탈옥을 방지할 수 있도록 보장해야 합니다. 2. 능력 억제: 위험한 기능을 완전히 제거(“언러닝”)하는 것이 이상적이지만, 기술적으로 여전히 달성하기 어려우며, 유익한 사용 사례를 너무 많이 손상시킬 수 있습니다. 우리 접근 방식은 시스템 수준의 추가 배포 완화를 고려하며, 모델 완화와 결합하여 방어 깊이를 제공합니다: 1. 모니터링: 모니터링은 위협적인 사용자가 위험한 기능을 부적절하게 접근하려는 시도를 감지하고, 그 접근을 통해 심대한 해를 끼칠 수 없도록 대응하는 것을 포함합니다. 내부 모델 활성화, 생성된 콘텐츠를 수동으로 감사하거나 해 확률 점수를 출력하는 분류기를 사용하여 감지를 수행할 수 있습니다. 2. 접근 제한: 위험한 기능을 가진 모델은 검증된 사용자 그룹과 사용 사례에 제한될 수 있으며, 악의적인 사용자가 부적절하게 접근할 수 있는 위험한 기능의 표면적을 줄일 수 있습니다. 사용자가 안전 모니터를 자주 트리거하는 경우에도 제한이 있을 수 있습니다. 보안 완화는 위험한 기능을 가진 AI 시스템을 도둑맞는 것을 방지하려는 목표를 가지고 있습니다. 많은 보안 완화는 보안 전반에 적합하지만, AI 모델을 방어하는 데 더 특화된 보안 완화도 있습니다. 예를 들어, 모델 가중치에 단독으로 접근할 수 있는 사람의 수를 제한하려는 요구 사항이 있습니다. 이를 달성하기 위해 표준 ML 워크플로를 가능하게 하는 인터페이스가 필요하며, 이를 통해 모델 개발을 수행하고 인터페이스를 강화할 수 있습니다. 사회적 준비 완화는 AI 시스템을 사용하여 사회적 방어력을 강화합니다. 예를 들어, AI 사이버 공격 능력을 준비하기 위해 중요한 인프라의 취약점을 신속하게 패치할 수 있는 능력을 제공합니다. 이러한 완화는 위험한 기능을 악용할 수 있더라도 악의적인 사용자가 심대한 해를 끼칠 수 없도록 할 수 있습니다. **악용 방지 보증** 악용 스트레스 테스트: 완화가 도입되면, 악용 완화 세트가 적용될 때 위험을 적절한 수준으로 줄이는 데 충분한지 여부를 논증하는 상세한 논증을 작성하는 것이 우리 접근 방식입니다. 이를 통해 논증이 기반으로 하는 주요 가정들을 식별하고, 이러한 가정의 결점을 식별하기 위해 스트레스 테스트를 수행할 수 있습니다. 예를 들어, 전담 레드 팀은 안전 미세 조정 완화의 탈옥을 우회할 수 있는 새로운 탈옥 방법을 발견할 수 있습니다. 악의적인 사용자는 더 많은 노력을 기울일 수 있으므로, 레드 팀에게 완화에 대한 완전한 지식을 제공하거나 시스템을 더 쉽게 공격할 수 있도록 완화 임계값을 완화하는 등의 추가 이점을 제공합니다. 또한, 완화 개발과 레드 팀을 분리하여 공유된 맹점을 줄이는 것이 가치 있습니다. 이를 위해 내부 전문가 레드 팀을 두거나 외부 파트너에게 스트레스 테스트를 수행하게 할 수 있습니다. 악용 안전 사례: 안전 사례는 시스템이 안전하다는 것을 체계적으로 논증하고, 증거를 바탕으로 하는 것입니다. 우리 접근 방식은 두 가지 유형의 안전 사례를 가능하게 합니다: 1. 불가능성: 시스템은 해를 끼칠 능력을 갖추지 못합니다. 이는 위험한 능력 평가의 결과와 이러한 능력들이 어떻게 위험을 초래하는지를 기반으로 정당화됩니다. 2. 레드 팀: 위험한 기능을 가진 모델의 경우, 완화의 강도를 이해하기 위해 스트레스 테스트를 실행해야 합니다. 그런 다음 완화가 위험을 적절한 수준으로 줄이는 데 충분하다는 논증으로 증거를 제공합니다. 현재 레드 팀 방법(자동화 및 수동 모두)은 위험한 기능에 접근하는 것이 얼마나 어려운지를 정량화하는 데 도움이 되지만, 전체 위험과 관련시키는 데 더 많은 연구가 필요합니다. **비정렬** 우리 접근 방식에는 두 가지 방어선이 있습니다. 첫 번째는 모델 수준 완화를 사용하여 모델이 비정렬된 목표를 추구하지 않도록 하는 것입니다. 표준 ML 플레이북을 따르며, (1) 좋은 감독을 받는 능력을 개선합니다(강화된 감독), (2) 이를 사용하여 모델을 개선합니다(모델 행동 안내), (3) 감독이 필요한 부분을 파악하여 우리가 원하는 바를 강건하게 수행하는 모델을 훈련합니다(강건한 훈련). 두 번째는 모델이 비정렬된 경우에도 해를 미치는 것을 완화하는 것입니다(“AI 통제”로 자주 불림), 시스템 수준 완화를 사용하여 완화합니다. 컴퓨터 보안에서 큰 영감을 받아 AI 시스템을 신뢰할 수 없는 내부인으로 취급하여 접근 제어와 같은 완화 방법을 동기부여합니다. 특히 모니터링은 AI 능력의 증가에 따라 이익을 얻을 수 있으므로 중요합니다. 우리는 위의 방어를 강화할 수 있는 연구 분야도 고려합니다. 불확실성은 강건한 훈련과 모니터링 모두에 중요한 구성 요소입니다. 해석 가능성은 AI 시스템이 어떻게 작동하는지 이해하는 데 도움이 되어 다양한 완화 방법을 가능하게 합니다. 안전 설계 패턴 분야는 안전성을 다른 요구 사항을 희생하여 달성할 수 있는 설계 결정을 탐구하며, 적절한 지점을 선택할 수 있도록 파레토 프론티어를 측정하고 확장하는 것을 목표로 합니다. **도표 3 | 비정렬 완화 접근 방식 개요** 첫 번째 방어선은 정렬된 모델을 훈련하는 것을 목표로 합니다(“훈련” 상자). 이 방어선이 실패할 경우 두 번째 방어선은 모델이 비정렬된 경우에도 심대한 해를 미치는 것을 방지하려고 합니다(“추론” 상자). 추론 완화는 훈련 후(즉, 배포 중)에 계속 적용됩니다. 또한 훈련 중 AI 시스템을 모니터링하는 것이 유용하지만, 모니터를 훈련 신호로 사용하면 AI 시스템이 나쁜 행동을 숨기는 대신 제거하려고 할 수 있으므로 모니터링을 사용하지 않는 것이 좋습니다. 안전 설계 패턴, 해석 가능성, 불확실성 등 강화 요인은 다른 완화 방법을 강화할 수 있습니다. 도표에 표시되지 않았지만, 우리는 악용(도표 2)의 접근 방식과 유사하게 완화의 필요성과 충분성을 평가하고 스트레스 테스트를 수행할 것입니다. **정렬된 모델 훈련** 이러한 모델 수준의 완화 조치는 우리가 의도하는 목표를 추구하는 모델을 만드는 것을 목표로 합니다. 증폭된 감독은 거의 모든 정렬 계획에서 중요한 도전 과제 중 하나입니다. 즉, 모델이 감독자의 능력을 초과할 경우 주어진 모델 출력이 좋은지 나쁜지 판단하는 것이 매우 어려울 수 있습니다. 예를 들어, AlphaGo의 한 수를 판단하려는 인간 감독자를 상상해 보세요. 증폭된 감독의 영역은 이 문제를 해결하기 위해 목표로 합니다: 인간의 감독자가 AI 시스템이 출력을 생성한 이유를 모두 이해하고 올바른 결정을 반성할 수 있는 능력을 무한히 가질 수 있는 경우의 감독 신호를 제공하는 것입니다. 핵심 아이디어는 AI 시스템 자체를 사용하여 AI 시스템이 출력을 생성한 이유를 식별하는 것입니다. 예를 들어, 두 모델의 복사를 설정하여 각 모델이 인간 "판사"에게 다른 모델의 출력의 결점을 지적하도록 최적화할 수 있습니다. 이상적으로, 한 모델이 판사가 기본적으로 눈치채지 못할 미세한 결점을 출력이 도입하면 다른 모델이 결점을 지적하고 설명하여 판사가 첫 번째 모델을 적절히 처벌할 수 있도록 합니다. 증폭된 감독에서는 직접 감독하기 어려운 모든 질문이 시스템적으로 감독할 수 있다고 가정하는 것으로 줄어듭니다. 그러나 인간은 비교적 간단한 질문에서도 시스템적으로 편향될 수 있습니다. 실제 문제가 될 경우, 편향을 모델링하고 감독을 해석할 때 이를 자동으로 수정하거나 반영할 수 있습니다. **모델 행동 유도** 감독 신호를 얻으면 이 감독을 사용하여 모델을 훈련해야 합니다. 기존 기법인 강화 학습이 충분할 수 있지만 이를 개선할 수 있습니다. 예를 들어, 자연어에 의한 모델 답변의 비판과 같은 새로운 피드백 모달리티는 업데이트에 제공되는 정보를 증가시킬 수 있으며, 모델 내부 정보를 사용하여 더 타겟팅된 업데이트를 생성하여 샘플 효율성을 개선할 수 있습니다. **강건한 훈련** 좋은 행동과 나쁜 행동을 구분할 수 있는 감독 신호를 얻으면 이를 사용하여 잘 행동하는 AI 시스템을 구축해야 합니다. 그러나 모델이 여전히 훈련 분포 외부에선 잘못 행동할 수 있는 문제가 남습니다. 강건한 훈련은 이러한 문제를 완화하여 AI 시스템이 훈련된 입력의 분포를 확장합니다. 필요한 데이터와 충분한 데이터가 정렬된 모델을 유도하는지에 대한 보다 넓은 질문을 탐구하면서도, 실패를 일으키는 사례에 대한 실용적인 초점을 유지합니다. 주요 기법에는 활동 학습, 자동적 대항적 훈련 및 배포 후 온라인 훈련이 포함됩니다. **잘못 정렬된 모델에 대한 방어** 증폭된 감독과 강건한 훈련이 이론적으로 충분한 해결책일 수 있지만, 실제로는 구멍이 남아 있을 것입니다. 따라서 방어의 깊이에 중점을 둡니다: AI 시스템이 잘못 정렬되더라도 적절한 방어로 인해 피해를 줄일 수 있습니다. **보안** AI 시스템을 신뢰할 수 없는 내부인으로 취급하여, 접근 제어, 이상 탐지, 로깅 및 감사와 같은 완화 조치를 동기화합니다. 인간 직원에 비해 AI 시스템은 더 전문화된 작업을 수행할 가능성이 높으므로, 더 세밀하게 사용할 수 있는 권한을 제한할 수 있습니다. 다른 관련 기법에는 샌드박싱 및 환경 강화가 있습니다. **모니터링** AI 능력의 증가는 모니터링 능력을 크게 향상시킬 수 있으며, 이는 AI 시스템이 필요한 규모에서 작동할 수 있기 때문입니다. 동시에 전통적으로 수동 검토에만 관련된 유연한 지능을 제공할 수 있습니다. 계층적 감독이 중요합니다. 즉, 모델 출력은 먼저 저렴한 시스템에 의해 모니터링되고, 가장 의심스러운 또는 불분명한 사례는 증폭된 감독에 의해 정의된 더 능력 있고 비용이 높은 모니터에 에스컬레이션됩니다. **강력한 방어 촉진** 우리의 접근 방식은 위의 주요 완화 조치에서 우리의 능력을 강화하기 위해 연구 분야에 투자하는 것을 요구합니다. **불확실성** 강건한 훈련과 모니터링은 모두 전통적인 베이즈식이나 언어 추상화 수준에서의 추론을 통해 불확실성을 유지하는 모델에 크게 이익을 얻고, 필요로 할 수도 있습니다. 강건한 훈련의 경우, 불확실성은 분포를 확장할 가장 유용한 측면을 더 잘 식별하기 위해 활동 학습을 가능하게 합니다. 모니터링의 경우, 불확실성은 계층적 감독에서 에스컬레이션할 시점을 결정하는 데 중요한 역할을 할 수 있습니다. **안전 설계 패턴** AI 시스템의 설계에서 안전 특성을 달성하기 쉽게 만드는 많은 결정이 있지만, 다른 바람직한 특성을 희생할 수 있습니다. 이러한 트레이드오프를 정량적으로 연구하고, AI 시스템을 구축할 때 적절한 결정을 내릴 수 있도록 이러한 트레이드오프의 파레토 프론티어를 확장하는 데 투자하는 것이 중요합니다. 예를 들어: 1. **훈련 타겟**: AI 시스템의 원하는 행동을 설정할 때 사용자 제어 기능을 가능하게 하는 원칙을 포함할 수 있습니다: a) AI 시스템의 행동을 사용자에게 알림 b) 중요한 및 불가역적인 행동을 취하기 전에 사용자와 상담 c) 사용자가 예상치 못한 부정적인 피드백을 제공하면 중단하거나 보수적으로 행동 2. **창의성**: AI 시스템을 훈련할 때 행동 탐색 또는 최적화의 양을 제어할 수 있습니다. 탐색이 적으면 보상 해킹 행동의 발견을 방지할 수 있지만, 창의적인 해결책을 찾는 기회도 줄어듭니다. 3. **외부화된 추론**: AI 시스템이 행동을 설명하도록 하여 인간이 승인할 수 있도록 하고, 우수한 감독을 제공할 가능성이 높아집니다. **해석 가능성** 직관적으로, 시스템을 안전하게 만드는 것은 시스템이 어떻게 작동하는지 이해하는 것이 많을수록 훨씬 더 쉬워야 합니다. AI 시스템이 어떻게 작동하는지 행동을 통해 엄격한 분석을 통해 표면적인 이해를 얻을 수 있지만, 훈련된 LLM의 전방 패스가 구현하는 알고리즘을 이해하는 데 더 나은 것을 할 수 있습니다. 성공하면 정렬에 대한 광범위한 영향을 미칠 수 있습니다: 1. 테스트를 통과하여 정렬된 것처럼 보이려는 잘못 정렬된 AI 시스템을 확인합니다. 2. AI가 답변을 생성할 때 내부 추론을 신실하게 대표하는지 AI 설명을 테스트합니다. 3. 감독자에게 AI의 추론 정보를 제공하여 증폭된 감독을 개선합니다. 불행히도, 해석 가능성 연구는 아직 초기 단계이며 이러한 응용 프로그램을 아직 가능하게 하지 않습니다. 결과적으로, "기본 과학"에 대한 상당한 투자가 여전히 필요합니다. **정렬 보증** **정렬 스트레스 테스트**: 스트레스 테스트에는 어떤 정렬 계획의 가정이 거짓임을 보여주기 위해 노력하는 레드 팀이 포함됩니다. 레드 팀이 이 목표를 달성하는지 여부는 그 가정이 얼마나 신뢰할 수 있는지, 그리고 AI 시스템을 정렬할 때 그 가정에 의존할 수 있는지에 대한 증거를 제공합니다. 스트레스 테스트는 특정 실패 모드를 보여주는 모델 생물을 생성할 수 있으며, 그 실패 모드를 방지하는 연구와 잘못 정렬된 실패의 가능성에 대한 과학적 증거를 쌓는 데 도움이 됩니다. **제어 평가**: 제어 평가는 악용 레드 팀을 정렬 설정으로 확장합니다. 악용 설정에서 레드 팀은 악의적인 외부 사용자로 행동하여 우리가 악용 시 관찰할 수 있는 적대적인 행동을 시뮬레이션하고, 그들이 얼마나 성공적인지 관찰합니다. 유사하게, 제어 평가에서 레드 팀은 모델을 미세 조정하거나 프롬프트하여 (대리) 해를 일으키려고 할 수 있으며, 결과 모델이 얼마나 성공적인지 관찰합니다. AI 시스템이 심각한 오류로 인해 심각한 해를 입히지 않음을 논리적으로 증명하는 것은 중요합니다. 다음은 AI 시스템이 심각한 오류를 범하지 않음을 입증하는 다양한 논리적 접근 방식입니다: 1. **능력 부족**: 현재 모델에 대해 능력 부족 안전 논증이 적절합니다. AI 시스템이 심각한 해를 입히려고 해도 그럴 수 없음을 보여주는 것입니다. 이는 오용 안전 논증과 유사하게 능력 평가를 통해 증명할 수 있습니다. 그러나 이러한 안전 논증은 곧 적용되지 않을 수 있습니다. 2. **감독 (또는 통제)**: 이 유형의 논증은 AI 시스템이 해로운 출력을 생성하면 이를 감지하고 조치를 취하여 해를 방지할 것이라고 주장합니다. AI 지원 감시 시스템이 오류로 인해 잘못된 행동을 보고하지 않을 가능성, 즉 공모에 강인해야 합니다. 통제 평가는 이러한 안전 논증을 지지하는 증거로 사용될 수 있습니다. 3. **인센티브**: 인센티브 기반 논증은 학습 과정을 통해 AI 시스템이 의도된 목표를 추구하고 있음을 주장하여 오류가 없음을 입증합니다. 목표 오류 일반화나 분포 변동은 인센티브 기반 논증에 대한 중요한 도전 과제가 됩니다. 배포 중 AI 시스템이 직면할 수 있는 상황들에 대한 충분한 커버리지를 어떻게 보여줄지 불분명합니다. 4. **이해**: 이 유형의 안전 논증은 최종 모델을 충분히 분석하여 모든 잠재적인 입력과 출력을 점검하지 않고도 안전 출력을 생성함을 인증하는 것을 목표로 합니다. 현재는 이러한 안전 논증에 도달하기에는 멀지만, 해석 가능성의 진전은 이러한 안전 논증이 가능할 수 있습니다. **제한 사항** 이 논문은 기술적 접근 방식과 AGI에서 발생하는 위험을 완화하는 방법에 중점을 둡니다. 중요한 제한 사항은 이것이 절반의 그림에 불과하다는 점입니다. 완전한 접근 방식은 또한 관리, 즉 모든 선도 개발자가 필요한 완화 조치를 구현하여 위험을 의미 있게 줄이는 것이 중요하다는 점도 논의해야 합니다. 한 개발자가 완화 조치를 구현하더라도 다른 개발자들이 따르지 않으면, 적대자는 덜 안전한 AI 시스템을 사용할 수 있습니다. 또한 구조적 위험에 대해서는 다루지 않습니다. 구조적 위험은 맞춤형 접근 방식을 요구하기 때문입니다. 또한 현재 AI 개발에 통합될 수 있는 기술에 주로 중점을 둡니다. 이는 선도 AI 개발자의 주요 안전 접근 방식을 위한 적절한 초점이라고 믿지만, 더 긴 기간에 걸쳐 안전성을 높일 수 있는 연구에 투자하는 것도 가치가 있습니다. 예를 들어, 에이전트 기초, 심층 학습 과학, 그리고 AI에 대한 형식적 방법의 적용입니다. 우리는 현재 또는 가까운 미래의 능력으로 진전할 수 있는 위험과 완화 조치에 중점을 둡니다. 약 3.5절에서 설명한 근사 연속성 가정에 따르면 이러한 결정이 정당화됩니다. 능력은 일반적으로 큰 폭으로 불연속적으로 증가하지 않으므로, 이러한 위험이 우리를 놀라게 할 가능성은 낮습니다. 그럼에도 불구하고 미래 개발, 예를 들어 AI 과학자들이 새로운 공격 중심 기술을 개발할 가능성, 또는 자동 연구자가 안전 완화 조치를 개발하고 구현할 가능성을 완전히 다루는 것이 더 강력할 것입니다. 마지막으로, 우리가 논의하는 접근 방식은 연구 과제입니다. AGI 위험을 해결하는 우리의 작업에 유용한 길잡이가 될 것이라고 믿습니다. 그러나 여전히 해결해야 할 많은 문제들이 남아 있습니다. 안전 AGI의 혜택을 안전히 즐기기 위해 AGI 안전의 최신 기술을 진전시키기 위해 연구 공동체가 함께 노력하기를 기대합니다.

목차

**목차** 1 서론 15 2 증거 딜레마를 탐색하는 방법 16 2.1 구체적인 위험에 대한 접근 방법 적용 . . . . . . . . . . . . . . . . . . . . . . . . . 17 3 AGI 개발에 대한 가정 20 3.1 현재 패러다임의 지속 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.1.1 계산력, 데이터 및 알고리즘 효율성이 AI 능력의 진보를 촉진하는 요인 . . . 22 3.1.2 대안 패러다임의 도전 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.2 AI 능력의 인간 한계 없음 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.3 AI 개발의 시간표는 여전히 불확실 . . . . . . . . . . . . . . . . . . . . . . . . . 29 3.4 능력 개선 가속화의 가능성 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 3.5 근사적 연속성 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.5.1 대규모 비연속적 도약에 대한 기반율 및 개념적 논증 . . . . . . . . . . . 36 3.5.2 기존 AI 진보의 경험적 증거 . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.5.3 미래의 비연속성에 대한 개념적 논증 . . . . . . . . . . . . . . . . . . . . . . 39 3.6 AGI의 혜택 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.6.1 AGI는 전 세계의 생활 수준을 높일 수 있음 . . . . . . . . . . . . . . . . . . . 40 3.6.2 인간의 지식을 심화시키고 과학적 발견을 가속화 . . . . . . . . . . . . . . . . 42 3.6.3 정보 처리 능력을 향상시키고 혁신 장벽을 낮춤 . . . . . . . . . . . . . . . . 43 4 위험 영역 44 4.1 악용 위험 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 4.1.1 악용 위험의 예 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.1.2 접근 방법: 위험한 능력에 대한 접근 차단 . . . . . . . . . . . . . . . . . . 47 4.2 비정렬 위험 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 4.2.1 단기 목표를 가진 비정렬 모델의 예 . . . . . . . . . . . . . . . . . . . . . . . . 48 4.2.2 장기 목표를 가진 비정렬 모델의 예 . . . . . . . . . . . . . . . . . . . . . . . 49 4.2.3 비정렬의 원인 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 4.2.4 기만적인 정렬 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 4.2.5 접근 방법: 정보에 기반한 감독 . . . . . . . . . . . . . . . . . . . . . . . . . 53 4.3 실수 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 4.4 구조적 위험 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 5 악용 대응 56 5.1 악용 안전성 사례 구성 요소 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 5.2 능력 기반 위험 평가 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 5.2.1 위협 모델링 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 5.2.2 능력 평가 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 5.2.3 능력 유도 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 5.3 모델 배포 완화 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 5.3.1 훈련 후 무해성 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 5.3.2 탈옥 저항 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 5.3.3 능력 억제 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 5.4 모니터링 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 5.4.1 AI 특정 접근 방법 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 5.4.2 다른 산업에서의 모니터링 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 5.5 접근 제한 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 5.5.1 접근 검토 과정 수행 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 5.5.2 접근 제어 구성 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 5.6 모델 가중치 보호 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 5.6.1 신원 및 접근 제어 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 5.6.2 환경 강화 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 5.6.3 암호화 처리 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 5.7 사회 준비성 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 5.8 레드팀 완화 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 5.8.1 테스트 예 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 5.8.2 미해결 문제 및 앞으로의 방향 . . . . . . . . . . . . . . . . . . . . . . . . . . 70 6 비정렬 대응 70 6.1 강화된 감독 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 6.1.1 방법 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 6.1.2 인간-AI 보완성 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 6.1.3 인간 편견 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 6.1.4 간결한 정당화 없이 추론 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 6.1.5 인간 감독 개선을 우회 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 6.1.6 논의 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 6.1.7 앞으로의 방향 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 6.2 모델 행동 안내 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 6.3 훈련 및 모니터링을 위한 견고한 AI 감독 . . . . . . . . . . . . . . . . . . . . . . 80 6.3.1 심판 안전성 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 6.3.2 일반화 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 6.3.3 불확실성 추정 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 6.3.4 자원 효율적인 감독 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 6.3.5 견고한 훈련 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 6.3.6 모니터링 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 6.3.7 지속적인 학습 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 6.4 보안 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 6.5 안전 설계 패턴 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 6.5.1 훈련 목표 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 6.5.2 비정렬에 대한 사전 훈련 편향 억제 . . . . . . . . . . . . . . . . . . . . . . . . . 89 6.5.3 제한된 최적화 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 6.5.4 외부화된 추론 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 6.6 해석 가능성 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 6.6.1 해석 가능성 방법이 어떻게 다릅니까? . . . . . . . . . . . . . . . . . . . . . . . 92 6.6.2 어떻게 해석 가능성을 사용할 수 있습니까? . . . . . . . . . . . . . . . . . . . . 94 6.6.3 해석 가능성 기술 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 6.7 정렬 스트레스 테스트 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 6.7.1 동기 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 6.7.2 사례 연구 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 6.8 안전 사례 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 6.8.1 무능력 안전 사례 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 6.8.2 통제 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 6.8.3 잠재적 미래 안전 사례 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 6.9 기타 영역 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 7 결론 108

본문 내용

1. 서론 인공지능은 전 세계 생활 수준을 높이고(러셀, 2022), 의료(싱할 등, 2025)와 교육(쿠마르 등, 2023) 등의 주요 부문을 혁신하며, 과학적 발견을 가속화하는(왕 등, 2023b) 혁신적인 기술로 자리잡을 것입니다. 그러나 모든 혁신적인 기술과 마찬가지로, 인공지능도 위험을 동반합니다. 변화의 속도와 새로운 영향의 novelty로 인해 혁신적인 기술의 위험을 예측하고 완화하는 것이 어렵습니다. 조기 완화와 규제는 종종 이익을 줄이면서도 상응하는 피해를 줄이지 않는 경우가 많습니다. 예를 들어, 항공기 해제규정은 경제적 이익을 가져왔지만(모리슨과 윈스턴, 2010), 안전에는 악영향을 미치지 않았습니다(모세스와 세이브, 1990). 따라서 많은 위험에 대해, 몇 가지 예방 안전 완화 조치를 포함하는 것은 적절하지만, 대부분의 안전 진보는 "관찰하고 완화" 전략을 통해 이루어져야 합니다. 구체적으로, 기술은 점차 확대되는 범위로 여러 단계에 걸쳐 배포되어야 하며, 각 단계는 모니터링, 사건 보고, 버그 바운티 등 실습에서 발생하는 위험을 관찰하기 위한 시스템을 포함해야 합니다. 위험이 관찰된 후에는 실제 발생하는 위험을 더 정확하게 타겟팅하는 더 엄격한 안전 조치가 도입될 수 있습니다. 불행히도, 기술이 점점 강력해지면 심각한 피해를 초래할 수 있습니다. 어떤 사건이 심각한 피해를 초래했는지 여부는 그것이 인류에게 중요한 영향을 미쳤는지 여부에 따라 결정됩니다. "관찰하고 완화"는 이러한 피해에 대한 접근법으로 충분하지 않으며, 대신 예방적인 접근을 취해야 합니다. 예를 들어, 맨해튼 프로젝트 동안 과학자들은 핵무기가 대기권을 점화할 수 있을지에 대해 걱정했으며, 이론적 분석을 통해 이를 배제해야 했습니다(비스처와 랑간케, 2024; 코노핀스키 등, 1946). 이 문서에서 심각한 피해의 정확한 기준은 명시되지 않습니다. 스펙트럼의 한 끝에서는 정기적으로 발생하는 피해는 이 문서에서 정의된 심각한 피해가 아닙니다. 예를 들어, 자율 주행 자동차 사고는 수동으로 운전하는 차량에서 정기적으로 발생하는 치명적인 사고와 동일하게 간주되지 않습니다. 스펙트럼의 다른 끝에서는 인류를 영구히 파괴하는 존재 위험(오드, 2020)이 심각한 피해의 명확한 예입니다. 이 두 끝 사이에서 어떤 피해가 심각한지 여부는 구글 딥마인드가 결정하는 것이 아니라, 사회가 그 집단적인 위험 허용도와 피해 개념에 따라 결정해야 합니다. AGI의 거대한 잠재적 영향으로 인해, AGI도 심각한 피해를 초래할 잠재적인 위험을 동반할 수 있습니다. 이 보고서에서는 구글 딥마인이 AGI에서 발생하는 심각한 위험을 완화하기 위한 접근 방식을 제시하며, 기술적 안전성과 보안 완화 조치에 초점을 맞추고 있습니다. 중요한 것은, 여전히 해결해야 할 많은 연구 문제가 남아 있으므로, 이는 길잡이보다는 해결책입니다. 다양한 심각한 위험은 다양한 능력에 의해 가능해지며, 따라서 다양한 위험이 발생할 특정 능력 수준을 특정할 수 없습니다. 그럼에도 불구하고, 설명을 위해 AI 시스템의 구체적인 능력 수준을 상상하는 것이 유용합니다. 모리스 등(2023)의 용어를 따라, 다양한 비물리적 작업에서 숙련된 성인의 상위 1%에 도달하거나 초과하는 AI 시스템인 예외적인 AGI(레벨 4)를 고려합니다. 이 능력 수준에서 여러 가지 심각한 위험을 식별하며, 두 가지 주요 위험 원천인 남용과 불일치에 중점을 둡니다. 남용에 대한 전략은 다음과 같습니다: 1. 모델이 심각한 피해를 초래할 수 있는 능력 여부를 평가합니다(5.2절). 2. 만약 그렇다면, 적절한 배포 완화 조치(5.3-5.5절)와 보안 완화 조치(5.6절)를 마련합니다. 3. 완화 조치의 품질을 평가하기 위해 완화 조치를 깨뜨려보고 얼마나 갈 수 있는지 확인합니다(5.8절). 마찬가지로, 불일치에 대한 전략은 다음과 같습니다: 1. AI 시스템 자체를 사용하여 감독 과정을 돕고(6.1절), 이를 통해 AI 시스템을 훈련합니다(6.2절). 2. 감독이 필요한 경우를 식별하여 훈련된 모델이 우리가 원하는 바를 강하게 수행하도록 합니다(6.3절). 3. 우리의 최선에도 불구하고 불일치된 AI 시스템에 대한 방어를 위해, 모니터링과 효율적이고 확장 가능한 감독(6.3절)을 결합한 깊이 방어 전략을 적용합니다. 그리고 컴퓨터 보안 기술(6.4절)을 적용합니다. 4. 완화 조치의 품질을 평가하기 위해 일치 보증 기술(6.7 및 6.8절)을 적용합니다. 또한, 안전 설계 패턴(6.5절)과 해석 가능성(6.6절) 등의 다양한 단계를 개선하는 보조 기술에 투자합니다. 정부. 위험 완화에 대한 완전한 논의는 더 넓은 소사이오테크니컬 맥락을 고려해야 합니다. 예를 들어, 인종 역학(아머스트롱 등, 2016; 케브와 오헤이거타이, 2018)은 단독적인 조치가 무효화될 수 있습니다: 안전에 대한 고려 없이 신중하지 않은 AI 개발자가 앞장서면, 다른 개발자의 자제력이 크게 도움이 되지 않을 수 있습니다. 구글 딥마인의 접근 방식을 강조하므로, 더 넓은 사회적 참여가 필요한 이러한 정부 문제는 범위 외입니다. 그럼에도 불구하고, 적절한 표준과 모범 사례에 대한 광범위한 합의가 필요하며, 이 문서가 그 방향으로 의미 있는 발걸음을 내딛기를 희망합니다. 관련 작업. 여기서의 논의는 앤트로픽의 이전 논의(앤트로픽, 2023)와 가장 유사하지만, 더 견고한 훈련, 모니터링, 보안에 훨씬 더 많은 중점을 둡니다. 반면, 오픈AI는 자동화된 일치 연구(라이크 등, 2022)에 중점을 둡니다. 자동화된 일치 연구는 가능할 때 수행되어야 하지만(3.4절), 우리는 자동화를 일치 연구를 가속화하는 방법으로 보는 반면, 우리가 목표로 해야 할 주요 목표는 아닙니다. AGI 안전이나 그 측면을 조사하는 많은 이전 문헌 검토가 있습니다(에버릿 등, 2018; 지 등, 2023; 샤, 2020; 켄턴 등, 2021; 김 등, 2024). 우리는 분야를 완전히 다루려는 것이 아니라, 우리의 판단에 따르면 최전선 AI 회사가 투자해야 할 연구 영역과 조치를 제시합니다. 예를 들어, 경험적 지원을 이미 받은 영역과 위험 완화를 위해 필수적인 것으로 보이는 영역을 우선시합니다. 2. 증거 딜레마를 해결하는 방법 심각한 피해는 예방적 접근을 필요로 하지만, 새로운 기술과 빠르게 변화하는 기술에 대한 예방적 접근은 증거 딜레마(벤지오 등, 2025)에 직면합니다. 예방적 완화 조치는 상대적으로 제한된 증거에 기반을 두므로, 반생산적인 것이 될 가능성이 더 큽니다. 미래의 문제에 대한 연구 노력은 완화 조치가 나중에 실현 불가능하거나 불필요한 것으로 드러날 수 있습니다. 그럼에도 불구하고, 앞서 논의한 바와 같이, 증거가 결론적이지 않을 때까지 기다리는 것은("관찰하고 완화") 심각한 피해에 대한 유효한 옵션이 아닙니다. 그러나 중간 접근 방법이 가능합니다. 많은 위험은 현재 예상 가능한 능력 개선으로 인해 현실적이지만, 아직 시야에 들어오지 않은 능력 개선으로 인해 발생할 수 있습니다. 이러한 위험은 더 많은 증거가 제공될 때까지 미루는 좋은 후보입니다. 특히, 능력 개선이 어떻게 발생할지 알 때 완화 조치를 설계하는 것이 훨씬 더 쉽기 때문입니다. 중요한 것은, AI 진보는 일반적으로 지속적인 입력의 증가에 따라 큰 연속적 도약을 포함하지 않는다고 가정할 때(3.5절), 전체적인 진보 속도가 가속화될 수 있습니다(3.4절). 안전과 보안 연구를 동시에 가속화한다면, 현재 미래로 미루는 위험도 실현되기 전에 예측될 것으로 예상되며, 완화 조치를 개발할 시간이 있을 것입니다. 다시 말하면, 어떤 위험에 대해 두 가지 옵션이 있습니다: 1. 해당 위험을 해결하기 위한 특정 연구 영역을 제안하고, 완화 조치를 개발하고 구현합니다. 2. 더 많은 증거가 제공될 때까지 해당 위험을 미루어 나중에 해결합니다. 증거는 우려가 근거 없는 것으로 밝혀질 수 있으며, 완화 조치가 필요하지 않거나, 질문된 위험에 대한 새로운 접근 방식을 제시할 수 있습니다. 다음 소절에서는 AGI 안전 및 보안 공간 내에서 몇 가지 위험과 능력을 간략히 설명하고, 우리의 접근 방식(옵션 1)에 포함되는지 또는 더 많은 증거가 제공될 때까지 미루는(옵션 2)지 설명합니다. 이 논문에서는 구체적인 능력이나 해로울 수 있는 경로를 집중적으로 다루지 않습니다. 우리는 다양한 능력에 걸쳐 일반화될 것으로 기대되는 접근 방식을 개발하고 있습니다 (Christiano, 2021). 우리는 네 가지 다른 위험 영역을 고려합니다 (4절 참조), 하지만 이는 위험을 해결하기 위한 유사한 완화책에 따라 그룹화되었습니다. 즉, 구체적인 해로울 수 있는 결과가 아니라 완화책입니다. 예를 들어, 첫 번째 국제 인공지능 안전 보고서는 통제 상실 위험을 다룹니다 (Bengio 등, 2025). 반면 우리는 통제 상실 자체를 별도의 카테고리로 다루지 않습니다. 우리의 완화책은 의도적인 통제 상실, 비의도적인 통제 상실, 그리고 구조적 위험에 분산되어 있습니다. 이는 각각 보고서의 의도적인 통제 상실, 비의도적인 통제 상실, 그리고 수동적인 통제 상실에 해당합니다 (Bengio 등, 2025, 그림 2.5). 이는 의도적인 통제 상실 완화책이 테러리스트가 무기 개발을 위해 AI를 악용하는 것을 방지하는 것과 더 유사할 것이라는 기대에서 비롯되었습니다. 마찬가지로, 구조적 위험으로 수동적인 통제 상실이나 점진적인 무력화(gradual disempowerment)는 (Kulveit 등, 2025) 고유한 접근이 필요하며, 이 논문에서는 다루지 않습니다. 하지만, 우리의 접근 방식이 다루려는 위험과 미래에 미루는 위험의 차이를 설명하기 위해 몇 가지 구체적인 위험과 그 관계에 대해 간단히 다루겠습니다. **악용**: 우리의 악용 접근 방식은 위험한 능력을 사전에 식별하고, 관련 모델 능력을 측정한 후, 나쁜 행위자가 극심한 해를 입히지 못하도록 보안 및 배포 완화책을 구현합니다. 이미 일부 위험한 능력의 징후가 보입니다. 예를 들어, AI 모델이 이미 하나의 실세계 취약점을 발견했으므로 곧 사이버 공격을 할 수 있을 것입니다 (Allamanis 등, 2024). 일반 접근 방식은 미래의 위험한 능력에 대한 위협 모델링이 심각한 해를 입기 전에 위험을 식별하는 한 잘 확장될 것입니다. 하지만 우리의 접근 방식은 AI 능력 개발에 대한 가정에 의존합니다. 예를 들어, 위험한 능력은 중앙 집중식 개발에서 생산되는 전선 AI 모델에서 발생할 것이라는 가정입니다. 이 가정은 앞으로도 성립하지 않을 수 있습니다. 예를 들어, 위험한 능력은 여러 구성 요소 간의 상호작용에서 발생할 수 있으며, 각 개별 구성 요소는 쉽게 복제할 수 있지만 전체 시스템은 복제하기 어려울 수 있습니다. 이 경우, 하나의 구성 요소에 완화책을 추가하여 위험한 능력에 접근을 차단할 수 없으며, 나쁜 행위자는 완화책을 포함하지 않은 구성 요소를 재생성할 수 있습니다. **대화 시스템, 에이전트 시스템 및 추론 능력**: 다양한 능력 프로파일은 다양한 구체적인 위험을 가능하게 합니다. 챗봇 (Adiwardana 등, 2020)과 추론기 (Jaech 등, 2024)는 동일한 스펙트럼에 있으며, 위험은 비슷합니다. 추론기는 능력이 다소 높은 챗봇으로 생각할 수 있습니다. 언어 에이전트 (Xi 등, 2025; Wang 등, 2023a)는 언어 모델에 새로운 기능을 추가하여 새로운 위험을 도입합니다. 예를 들어, 네트워크 스캐닝 도구를 사용하는 잘못된 AI 시스템이 자신의 가중치를 유출하는 것이 더 쉬울 수 있습니다. 신체화된 에이전트는 위험을 더욱 높일 수 있으며, 예를 들어 잘못된 AI 시스템이 사용할 수 있는 무기를 개발하는 것을 가능하게 할 수 있습니다. 배포 규모가 커지면 위험도 증가합니다. AI 시스템의 행동을 실질적으로 감독하기가 어려워지기 때문입니다. 능력 프로파일에 따른 구체적인 위험의 변화에도 불구하고, 우리의 고수준 접근 방식은 동일하게 유지됩니다. AI 시스템이 주어진 입력에 대해 어떤 작업을 수행하는지 효과적으로 감독할 수 있도록 AI 시스템 자체를 활용하여(강화된 감독) 대규모 배포에 대한 감독을 확장(강건한 훈련 및 모니터링)할 수 있도록 합니다. 이러한 접근 방식은 다양한 능력에 특화될 수 있으며, 세부 사항은 다를 수 있습니다. 예를 들어, 추론 모델은 비동기식, 비싼 모니터로 역할을 자연스럽게 수행할 수 있으며, 저렴한 분류기 및 수동 검토 사이 계층적 모니터링 설정에 포함될 수 있습니다 (6.3절). 또 다른 예로, 에이전트 시스템의 경우 시스템이 사용할 수 있는 도구에 대한 접근 권한을 관리하는 데 많은 노력을 기울이는 것이 중요합니다. 반면, 대화 시스템의 경우 이 부분이 그렇게 중요하지 않습니다. **초인간적인 개념 및 능력**: 더 도전적인 가능성은 AI 시스템이 초인간적인 개념이나 능력을 개발하여 무방비 상태의 인간이 쉽게 이해할 수 없는 경우가 있습니다. 이는 우리의 접근 방식 범위 내에 있으며, 특히 강화된 감독 연구 영역(6.1절)에 의존합니다. 이는 이 상황에서도 효과적인 감독을 제공하기를 목표로 합니다. 최악의 경우에 이론적인 어려움이 있음에도 불구하고 (Christiano 등, 2021), 감독자는 초인간적인 능력이나 개념을 가진 AI 시스템을 감독할 수 있는 몇 가지 이점을 가지고 있습니다. **목표 변동**: 지능의 이론적 모델은 일반적으로 지능적인 에이전트가 환경에서 온라인 학습을 효율적으로 할 수 있어야 한다고 암시합니다 (Legg와 Hutter, 2007; Hutter 등, 2024). 언어 모델의 맥락에서 강력한 추론 시간을 통해 모델이 세계 모델의 개념을 개선할 수 있는 상황을 상상할 수 있습니다. 이는 온톨로지적 위기로 인해 목표가 변동될 수 있습니다 (De Blanc, 2011). 일반적으로 인맥 학습은 모델의 능력과 행동 경향이 크게 변화할 수 있음을 의미할 수 있으며, 이는 충분한 추론 시간 계산이 제공되면 훈련 기반 안전이 무효화될 수 있습니다. 추론 시간 추론은 실제로 능력 개선에 기여할 수 있지만 (Jaech 등, 2024), 현재 온톨로지적 위기를 유발할 만큼 강력하지 않아 보입니다. Cotra (2020)는 메타 학습(인맥 학습이 그 예시입니다)을 AI 시스템이 인간의 능력보다 훨씬 뒤처질 수 있는 주요 병목으로 식별했습니다. ARC-AGI 벤치마크(Chollet 등, 2024)는 동일한 기술을 시험하는 것을 목표로 하며, 인간이 쉽게 할 수 있지만 AI가 어려워하는 벤치마크를 생성하려고 합니다. 또한 현재 아키텍처는 병렬성 트레이드오프(parallelism tradeoff)를 겪고 있어 (Merrill과 Sabharwal, 2023), 아무리 긴 맥락이 제공되더라도 상당한 순차적 추론을 할 수 있는 표현력을 포기합니다. 따라서 강력한 추론 시간 추론 능력이 상당한 아키텍처 혁신이 없이는 발생하지 않을 수 있습니다. 따라서 우리의 접근 방식은 목표 변동 위험을 직접 다루지 않지만, 우리가 제안하는 많은 기술이 이 설정에서도 확장될 수 있을 것으로 예상됩니다. 목표 변동 위험이 더 현실적이 될 수 있도록 AI 능력 메타 학습을 지속적으로 모니터링하는 것이 중요합니다. 중요한 점은 우리의 접근 방식은 목표 오일반화(goal misgeneralization)를 처리할 것을 목표로 합니다 (Shah 등, 2022). AI 시스템이 분포 변동에서 다른 목표를 추구할 수 있는 것으로 나타날 수 있으며, 이는 메타 학습이 아니라 분포 변동 후 입력에 따라 목표가 변하거나, 우리가 AI 시스템의 목표에 대해 잘못된 생각이었기 때문입니다. **재귀적 개선**: AI 시스템이 AI 연구를 수행하여 더 나은 AI 시스템을 생성하는 재귀적 AI 개선이 발생할 가능성이 있다고 생각됩니다. 이는 긍정적인 피드백 루프를 통해 지능 폭발을 촉발할 수 있습니다 (Yudkowsky, 2013) (3.4절). 가까운 미래에는 AI 시스템이 인간의 연구자와 유사한 유형의 AI 연구를 수행할 것으로 예상됩니다. 이는 RE-bench와 같은 능력 평가(RE-bench와 같은 능력 평가와 같은 능력 평가)에 반영됩니다 (Wijk 등, 2024). 반면, 예를 들어 AI 시스템이 자신의 가중치를 편집하는 것은 예상하지 않으며, 이러한 능력에 관련된 위험은 미래의 안전 및 보안 연구에 미루겠습니다. 재귀적 개선과 관련된 한 가지 도전은 잘못된 AI 시스템이 연구를 방해할 수 있다는 것입니다 (Benton 등, 2024). 이는 추론기와 에이전트의 위험을 다루는 것과 동일한 방법으로 불일치 위험의 구체적인 사례입니다. 우리의 접근 방식입니다. 더 큰 도전은 재귀적 개선이 AI 진보 속도를 크게 가속화할 수 있다는 것입니다. 새로운 위험한 능력을 개발하기 전에 연구자가 그 능력에 대한 완화 전략을 개발할 수 있는 기회를 제공하기 전에. 자연스러운 해결책은 안전 및 보안 연구 과정에 AI를 적용하여 AI 능력의 진행에 따라 가속화하는 것입니다. 가까운 미래에는 AI가 실험 구현(Jimenez 등, 2023), 데이터셋 생성(Perez 등, 2022b), 보상 모델링(Bai 등, 2022b; Zhang 등, 2024a; Guan 등, 2024) 등 개별 하위 작업을 가속화할 것으로 보입니다. 이러한 작업은 능력과 안전 연구에서 공유되므로 AI 진보는 능력과 안전 연구를 모두 거의 동일한 속도로 가속화할 것입니다. 장기적으로는 재귀적 개선이 능력 연구 또는 안전 및 보안 연구 중 어느 하나를 더 많이 혜택을 줄지 예측하기 어렵습니다. 만약 후자가 능력 연구를 크게 가속화하는 방향으로 치우친다면, 안전 및 보안 연구를 개선하기 위해 AI를 적용하는 데 더 많은 투자가 필요할 수 있습니다. 어떻게 해야 할지 결정하는 것은 미래 AI 시스템의 능력 프로파일에 크게 의존할 것이므로, 이를 향후 연구에 미루겠습니다. **초지능**: Bostrom (2014)은 초지능을 인간과 같은 일반 지능을 비상식적으로, 상상할 수 없는 정도로 발전시킨 것으로 정의합니다. 이는 우리의 접근 방식에서 다루지 않는 능력, 예를 들어 강력한 인맥 학습을 포함할 것입니다. 이는 인간의 능력과 같은 새로운 개념을 생성할 수 있는 능력입니다. 초지능이 개발된다면, 위험을 초래할 수 있는 다른 능력, 즉 우리의 접근 방식에서 다루지 않는 새로운 위험을 초래할 수 있으며, 새로운 완화책이 필요할 것입니다. 현재 우리가 이러한 능력들이 무엇인지 알 수 없으므로, 이를 향후 안전 및 보안 연구에 미루겠습니다. 우리가 초기에 논의한 바와 같이, 예측 가능한 능력에 있어도 안전성과 보안 연구가 크게 가속화될 것으로 예상됩니다. 만약 초지능이 개발된다면, 인간 연구자들은 자동화된 연구자들에 의해 더 이상 필요하지 않게 될 때보다 더 일찍 폐지될 수 있습니다. 따라서 안전성과 보안의 중요한 부분은 부트스트래핑이 될 것입니다. 즉, 이미 정렬된 이전 AI 시스템에 의해 설계된 AI 시스템이 다음 모델을 정렬하는 데 더 나은 역할을 할 것입니다. 중요한 점은 첫 번째 방어선(정렬된 모델을 훈련시키는 것)만이 부트스트래핑을 가능하게 합니다. 직관적으로, 정렬된 모델은 다음 모델을 정렬할 때 최선을 다할 것입니다. 그러나 두 번째 방어선은 잘못 정렬된 모델로부터 심각한 해를 방어하는 것을 목표로 합니다. 잘못 정렬된 모델이 부트스트래핑 노력을 방해하는 것은 방어하기 어려울 것입니다. 이는 새로운 연구를 포함할 수 있으며 검증하기 어려울 수 있기 때문입니다. 또한 심각한 해로부터 방어하는 것은 AI 시스템이 다음 모델을 정렬하는 데 최선을 다하지는 않을 수 있음을 의미합니다. 따라서 부트스트래핑의 이점을 누릴 수 없을 것입니다. 3. AGI 개발에 대한 가정 이 섹션에서는 기술 안전 접근 방식을 뒷받침하는 다섯 가지 핵심 가정을 설명합니다: 1. 현재 패러다임 지속 가정 (3.1절): 앞으로 예측 가능한 기간 동안 가장 앞선 AI 시스템은 현재 패러다임 내에서 계속 개발될 것입니다. 2. 인간 천장 없음 가정 (3.2절): AI 능력은 가장 뛰어난 인간과 동등해지는 순간에 진전을 멈추지 않을 것입니다. 3. 불확실한 타임라인 가정 (3.3절): 고도로 능력 있는 AI의 미래 개발 타임라인은 불확실합니다. 4. 개선 가속화 가능성 가정 (3.4절): AI에 의한 과학 연구 및 개발 자동화는 긍정적인 피드백 루프를 통해 개선 가속화를 초래할 수 있습니다. 5. 약한 연속성 가정 (3.5절): 연속적인 계산 및 R&D 노력이 주어질 경우 AI 능력에 큰 불연속적인 도약이 발생하지 않을 것입니다. 각 가정에 대해 그 가정을 뒷받침하는 증거를 요약하고 기술 안전 접근 방식에 대한 함의를 설명합니다. 3.1. 현재 패러다임 지속 첫 번째 핵심 가정은 현재 패러다임 지속 가정으로, 앞으로 예측 가능한 기간 동안 가장 앞선 AI 시스템이 현재 패러다임을 통해 개발될 것으로 가정합니다. 이 가정의 주요 영향은 언제든지 AGI 안전 접근 방식을 구현할 수 있는 접근 방식을 목표로 한다는 것입니다. 현재 패러다임이 앞으로 예측 가능한 기간 동안 고도로 능력 있는 시스템을 달성하는 가장 가능성이 높은 R&D 경로임을 믿기 때문입니다. 또한 현재 패러다임을 중심으로 하는 것은 현실적입니다. 간단히 말해, 기본적인 AI 개발 모델이 없는 상태에서 효과적인 위험 완화 전략을 개발하는 것은 불가능합니다. 이 문서에서는 현재 패러다임을 세 가지 기본 아이디어에 기반을 두고 있는 기술 접근법의 모음으로 정의합니다. 이는 다음을 포함합니다: (1) 계산 및 데이터의 규모 확대(하드웨어와 소프트웨어 혁신을 통해 가능함)의 중요성. (2) 학습과 탐색을 통해 이러한 계산 및 데이터를 활용하여 AI 시스템에 능력을 부여하는 메커니즘의 중심적인 역할. (3) 학습과 탐색을 위한 계산 및 데이터 사용 효율성을 높이는 알고리즘 혁신의 중요성. 이러한 아이디어는 대형 언어 모델(LLM)(Brown, 2020)과 추론 시간 탐색을 사용하는 심층 강화 학습(Silver et al., 2016)에서 심층 학습(LeCun et al., 2015)이 중심적인 역할을 한 성과를 통해 잘 설명됩니다. 그러나 이러한 인공물 주변의 생태계(예: API 호출을 통한 도구 사용 및 스캐폴딩을 통한 다모달 LLMs로 구성된 에이전트)와 같은 부분도 현재 패러다임의 일부로 간주하며, 우리의 접근 방식을 이 생태계의 변화에 강하게 만들 것입니다. 기술 안전 접근 방식에 대한 함의: 현재 패러다임에서 학습과 탐색이 미래 AI 시스템의 주요 구성 요소로 계속될 것으로 가정합니다. 따라서 주어진 AI 행동이 좋거나 나쁘다는 것을 평가할 수 있는 정확한 감독 신호가 필요합니다. 이는 인간 감독자를 능가하는 AI 시스템이 개발되더라도 여전히 감독 신호를 제공할 수 있는 증폭 감독 알고리즘의 개발에 초점을 맞추게 합니다(6.1절). 그러나 증폭 감독을 사용하여 의도한 대로 행동하는 AI 시스템을 훈련시키는 데 두 가지 주요 도전이 남아 있습니다. 첫째, 우리는 훈련 분포 내에서 생성된 행동에 대해서만 감독을 제공할 수 있습니다. 둘째, 증폭 감독 신호를 얻는 것은 비용이 많이 들 것이라고 예상됩니다. 이러한 도전은 실패를 유도하는 사례에 특히 초점을 맞춰 훈련 분포를 확장하는 강건한 훈련 전략과 모니터링 전략(6.3절)의 개발을 촉진합니다. 개념적으로 모니터링은 더 저렴한 시스템을 사용하여 모델 출력을 감독하고, 가장 의심스러운 사례만 전체 증폭 감독에 이르게 하는 삼중 시스템을 포함합니다. 두 종류의 전략 모두 모델이 불확실성을 정확하게 추정할 수 있는 경우 큰 이익을 얻습니다. 구체적으로, 강건한 훈련 전략은 훈련에 가장 유익한 사례를 선택하는 데 불확실성을 활용할 수 있으며, 모니터링 모델은 에스컬레이션 결정을 더 잘 내리는 데 불확실성을 활용할 수 있습니다. 지지하는 주장 요약: 고수준에서 우리의 주장은 현재 패러다임이 지금까지 강렬한 실적을 가지고 있으며, 가까운 미래에 계속 진행할 수 있는 명확한 장벽이 없고, 비슷한 약속이나 진전을 보이는 명확한 경쟁자가 없다는 관찰로 요약됩니다. 그러나 더 구체성을 위해, 현재 패러다임 지속 가정을 반박할 수 있는 두 가지 반론을 먼저 식별합니다. 반론 1: “현재 패러다임은 벽에 부딪힐 것이다” - 현재 패러다임 내에서 진행 속도가 무한히 느려지고, 이 문서(4절)에서 논의한 심각한 해를 초래할 수 있는 AI 능력에 도달하기 전에 그렇게 될 것입니다. 반론 2: “패러다임 전환이 있을 것이다” - 새로운 패러다임이 나타나 현재 패러다임을 대체하고, AI 개발 분야가 패러다임 전환을 겪을 것입니다(Kuhn, 1962). 반론 1에 대해 논쟁하기 위해, 현재 패러다임 내에서 가까운 미래에 AI 능력이 계속 발전할 것이라는 증거를 제시합니다. 이 논쟁을 위해, 우리는 5년 후의 미래 시야(2030년)를 고려합니다. 이는 부분적으로 실현 가능성 문제로 - 이는 현재 패러다임 내에서 진행을 주도하는 주요 변수에 대해 합리적인 추정치를 제공할 수 있는 시야이기 때문입니다(하지만 현재 패러다임이 이 시기를 넘어 계속될 것이라고 예상합니다). 또한 부분적으로 현실적 문제로 - 빠르게 개발되는 R&D 환경에서 훨씬 더 긴 시야로 계획하는 것은 어렵습니다. 따라서, 우리는 미래에 우리의 가정, 믿음 및 접근 방식을 수정하는 것이 적절할 수 있음을 예상합니다. 구체적으로, (1)에 대한 우리의 논쟁은 세 가지 주장으로 구성됩니다. 첫 번째 주장은, 장기적으로 AI 능력 개선이 대규모 계산, 데이터 및 알고리즘 효율성 증가를 통해 이루어졌습니다. 두 번째 주장은, AI 능력 개선을 역사적으로 주도한 주요 "입력"(계산, 데이터, 알고리즘 효율성)이 가까운 미래에 역사적인 비율로 계속 성장할 가능성이 있습니다. 세 번째 주장은, 이러한 입력의 규모 확대가 AI 능력에 의미 있는 성과를 계속 가져올 것입니다. 반론 2에 대한 우리의 논쟁은 반론 1에 대한 논쟁과 공통점을 공유하며 세 가지 추가 주장에 기반을 둡니다. 네 번째 주장은, 현재 패러다임은 가까운 미래에 나타날 수 있는 대체 패러다임에 비해 연구 전문성과 자본 투자에서 중요한 "선도자 우위"를 가지고 있습니다. 다섯 번째 주장은, 첫 번째 세 가지 주장에서 도출된 것으로, 현재 패러다임이 계속 진전을 가져올 것으로 예상되기 때문에 대체 패러다임에 대한 연구 투자 동기가 줄어들 것입니다. 여섯 번째이자 마지막 주장은, 현재 패러다임과 비슷한 정도의 약속이나 빠른 진전을 보이는 성숙한 대체 패러다임의 증거가 거의 없습니다. 현재 패러다임 가정을 지지하는 증거가 있다고 믿지만, 미래를 예측하는 극심한 어려움을 인정합니다. 따라서 현재 패러다임 가정에 대한 증거가 있을 경우 AGI 접근 방식을 수정할 준비가 되어 있어야 합니다. 더 구체적으로, 반론 1이 증명된다면, 우리의 기술 접근 방식을 뒷받침하는 많은 연구 투자들이 관련성이 줄어들 것입니다. 그러나 심각한 해 완화의 관점에서 우리의 접근 방식은 이 시나리오에서 비교적 부드럽게 실패할 것입니다. AI 능력 개진이 느려질 것이기 때문에, 이 문서 4절에서 설명한 경로를 통해 AI로부터 심각한 해를 완화하는 기술 솔루션이 필요한 필요성이 크게 줄어들 것입니다. 반론 2가 증명된다면 심각한 해 완화에 대한 함의는 더 중요합니다. 이 문서에서 설명한 많은 계획이 더 이상 적절하지 않을 것입니다. 이 경우, 우리의 접근 방식을 근본적으로 재고해야 합니다. ### 3.1.1. 연산, 데이터, 알고리즘 효율성: AI 능력 진보의 주요 요소 첫 세 가지 주장은 다음과 같습니다: (1) 연산, 데이터, 알고리즘 효율성이 과거 AI 능력 진보의 주요 원인이었다, (2) 이러한 입력은 최근 5년 동안 과거의 증가율을 유지할 가능성이 높다, 그리고 (3) 이 증가분은 계속해서 AI 능력 진보를 가져올 것이다. **주장 1: 장기적인 AI 능력 향상은 대규모 연산, 데이터, 알고리즘 효율성 증가로 인해 이루어졌다.** 20년 전, Moravec(1998)는 AI 진보에 대해 반성하며 "AI 기계의 성능은 AI 연구자가 더 빠른 하드웨어에 접근할수록 같은 속도로 향상된다"고 했다. 최근, Sutton(2019)은 AI 연구의 경로를 평가하며 연산의 가격-성능 비율 개선이 AI 연구에서 중요한 역할을 한다는 유사한 결론을 내렸다. Sutton(2019)은 "70년간의 AI 연구에서 가장 큰 교훈은 계산에 기반을 둔 일반 방법을 활용하는 것이 결국 가장 효과적이고, 큰 차이로 효과적이라는 것이다. 이는 Moore의 법칙, 즉 계산 비용 단위당 지속적인 지수적 감소의 일반화 때문이다"라며 말했다. Sutton(2019)은 체스, 바둑, 음성 인식, 컴퓨터 비전에 걸친 여러 프로젝트를 인용하며, 충분한 연산이 제공되면 학습과 검색에 기반한 일반 방법들이 전문화된 접근법을 능가한다고 했다. 최근 15년간 기계 학습 문헌에서 가장 인용된 결과 중 많은 것은 이 경향을 바탕으로 했다. 자연어 처리 분야에서는 연산, 데이터, 모델 용량을 확장함으로써 혁신적인 성과가 달성되었다(Mikolov, 2013; Amodei et al., 2016a; Radford et al., 2019; Brown, 2020). 강화 학습에서는 대규모 연산이 심층 신경망과 몬테카를로 트리 검색의 결합된 강점을 활용하여 바둑에서 초인간적인 성과를 달성했다(Silver et al., 2016). 이 성과는 처음에는 인간 게임 플레이를 학습하는 방식으로 달성되었지만, 나중에 자율 학습을 통해 같은 성과를 달성했다(Silver et al., 2017) 그리고 다른 보드 게임에서도 인간 전문가 성능을 초월했다(Silver et al., 2018). 음성 인식에서는 모델 용량과 데이터 증가가 성능 개선을 크게 이끌었다(Amodei et al., 2016a). 컴퓨터 비전에서도 하드웨어 가속기가 연구자들이 ImageNet(2009년 Deng et al.)과 같은 더 큰 학습 데이터셋을 활용할 수 있도록 더 큰 용량의 컨볼루션 신경망(CNNs)을 확장할 수 있게 했다(Krizhevsky et al., 2012; Simonyan and Zisserman, 2014; He et al., 2016; Hu et al., 2020). 다만, 모든 접근법이 추가 자원을 동일하게 활용한 것은 아니었다. Sutton(2019)의 관점에서, CNN과 같은 다른 구조보다 더 적은 유도적 사전 가정을 가진 Transformer 구조(2017년 Vaswani)는 연산이 지속적으로 확장됨에 따라 그 중요성이 높아졌다. 이는 컴퓨터 비전 분야에서 특히 두드러졌으며, ImageNet의 100만 장 이상의 이미지로 전처리 데이터가 확장될 때까지 Transformers가 CNNs를 능가하지 못했다(2020년 Dosovitskiy). 연산과 데이터 증가가 AI 진보를 주도하고 있다는 질적 증거 외에도, 데이터셋 크기, 모델 크기, 일반화 메트릭(예: 보존 검증 세트의 교차 엔트로피 손실)과 같은 몇 가지 주요 메트릭에 대한 연산과 데이터 확장 간의 관계를 명시적으로 측정할 수 있는 연구가 증가하고 있다. Amari et al.(1992)의 이전 이론적 작업과 데이터 증가가 성능 개선을 보장하는 경험적 연구(Banko and Brill, 2001; Amodei et al., 2016a; Sun et al., 2017)를 바탕으로, Hestness et al.(2017)은 번역, 언어 모델링, 이미지 분류와 같은 작업에 대해 데이터셋 크기, 모델 크기, 일반화 메트릭 간의 관계를 특성화했다. 그들의 결과는 각 작업에 대해 상대적으로 매끄러운 지수 법칙 관계를 시사했다. Kaplan et al.(2020)은 이 결과를 바탕으로 대규모 연구를 수행하여 연산, 데이터셋 크기, 모델 용량, 언어 모델링 손실 간의 매끄러운 지수 법칙 관계를 보여주었다. "확장 법칙" 추세는 6차원의 크기를 포괄했다. 훈련에 할애된 자원이 증가함에 따라 이러한 자원을 효율적으로 사용하는 데 중점을 두기 시작했다. Hoffmann et al.(2022)는 Kaplan et al.(2020)에서 도출된 지수 법칙 계수를 재평가하여 고정된 FLOP 예산 내에서 더 강력한 모델을 훈련할 수 있게 했다. 최근에는 확장 법칙이 최전선 LLM(LLM)을 훈련하는 데 중요한 역할을 했다(Achiam et al., 2023; Gemini Team et al., 2023; Dubey et al., 2024). 많은 확장 연구는 모델 손실과 같은 속성을 예측하는 데 중점을 두지만, 연산을 다운스트림 모델 능력(예: 많은 작업에 걸쳐 집계된 성능)과 직접 연결하는 연구도 있다. Owen(2024)는 이러한 연구를 수행하여 연산 확장이 집계된 벤치마크 성능을 예측할 수 있음을 결론지었다. 마찬가지로, Yuan et al.(2023)은 확장 법칙에 의해 추적된 사전 학습 손실 개선이 추론 벤치마크에서의 성능 개선을 직접 반영한다고 관찰했다. 연산과 데이터를 확장하는 것이 AI 개발의 주요 동력이라고 보는 시각은 AI 개발자의 행동에서도 관찰된다. Amodei와 Hernandez(2018)는 2012년에서 2018년 사이에 가장 큰 훈련 세션에 사용된 총 연산량이 약 300,000배 증가했다고 추정했다. 더 긴 시간대(2010년-2024년)에서 Sevilla와 Roldán(2024)은 최전선 훈련 세션에 사용된 총 연산량이 연평균 약 4배 성장한다고 추정했다. 훈련 시 연산을 학습을 위한 연산으로 활용하는 것 외에도, 여러 연구는 테스트 시 연산을 검색을 개선하기 위해 확장함으로써 AI 능력 개선을 유도하는 매끄러운 개선을 관찰하고 측정했다. Jones(2021)는 AlphaZero 에이전트(2018년 Silver et al.) 가족을 대상으로 연구를 수행하여 훈련 연산이 테스트 시 연산(몬테카를로 트리 검색을 수행하기 위해 사용됨)과 교환될 수 있음을 보여주었다. Villalobos와 Atkinson(2023)은 Jones(2021)을 확장하여 여러 도메인에서 증가된 테스트 시 연산이 성능 개선을 예측할 수 있음을 시사하는 증거를 수집했다. 코딩 도메인에서는 Li et al.(2022)이 추가 연산을 사용하여 모델 응답을 반복적으로 샘플링함으로써 로그-선형적으로 올바른 솔루션 생성을 확장하는 것을 관찰했다. 단순한 LLM 응답 샘플링을 반복적으로 확장하는 것은 놀랍도록 효과적이지만 단순한 검색 전략임에도 불구하고 적어도 하나의 올바른 솔루션을 생산하는 데 효과적이다(Brown et al., 2024). 더 넓은 범위에서, 전략적 샘플링(Best-of-N 샘플링(2021년 Nakano et al.)과 프로세스 보상 모델에 대한 빔 검색(2023년 Lightman et al.)과 같은 테스트 시 검색을 확장함으로써 추론 작업에서 매끄러운 성능 개선이 나타난다(Snell et al., 2024). 데이터와 연산 확장을 넘어, 알고리즘 혁신이 AI 진보의 세 번째 주요 요인이다. 이는 데이터와 연산을 더 효율적으로 문제 해결에 활용하는 데 도움을 준다. SAT 솔버, 체스, 바둑, 물리 시뮬레이션, 인수 분해, 혼합 정수 프로그래밍과 같은 알고리즘 연구 6개 분야에 대한 연구에서 Grace(2013)은 알고리즘 진보가 하드웨어 진보에 비해 50%에서 100%까지 성능 개선을 이끌었다고 추정했다. Hernandez와 Brown(2020)은 ImageNet(2012년 Krizhevsky et al.) 정확도에 도달하기 위해 AlexNet과 같은 분류기를 훈련하는 데 필요한 부동 소수점 연산 수가 2012년에서 2019년 사이에 44배 감소했다고 추정했다. 이는 7년 동안 16개월마다 알고리즘 효율성이 두 배로 증가한 것을 의미하며, 이는 Moore의 법칙보다 더 빠르다. 이 진보를 입증하기 위해, Karpathy(2022)는 1989년 LeCun et al.의 수작업으로 작성된 숫자 인식 신경망을 알고리즘 혁신을 적용하여 오류율을 60% 줄였다. Erdil과 Besiroglu(2022)는 확장(연산, 모델 크기, 데이터)과 알고리즘 혁신을 분리하여 AI 진보를 분석하고, 알고리즘 진보가 효과적인 연산 예산을 약 9개월마다 두 배로 증가시킨다고 결론지었다. Ho et al.(2024)는 2012년에서 2023년 사이에 언어 모델 사전 학습에 대한 알고리즘 개선을 연구하여, 주어진 성능 임계값을 달성하기 위해 필요한 연산이 약 8개월마다 절반으로 줄어들었다고 추정했다. 요약하자면, 우리는 주장 1을 지지하는 여러 증거를 논의했다. 첫째, 우리는 주요 연구자(실험 데이터로 뒷받침된)들의 관찰에 기반한 질적 증거를 강조했다. 이들은 연산 증가가 AI 진보를 이끌었다고 말했다. 그런 다음, 최근 10-15년 동안 연산과 데이터 확장을 통해 달성된 여러 AI 능력 혁신을 설명했다(알고리즘 효율성 개선을 통해 지원됨). 다음으로, 연산, 데이터, 알고리즘 효율성과 향상된 AI 능력을 적절한 메트릭에 대해 더 정확하게 측정하려는 여러 논문을 논의했다. 종합적으로, 우리는 이 문헌이 연산, 데이터, 알고리즘 효율성 확장이 지금까지 성능 개선의 주요 원인이라는 것을 시사한다고 믿는다. 또한, AI 개발자들이 훈련 AI 시스템의 성능을 향상시키기 위해 연산과 데이터 사용을 크게 증가시켰다는 분석을 인용하여 추가 증거를 제시했다. 전체적으로, 우리는 위의 증거에 의해 주장 1이 강력하게 뒷받침된다고 믿는다. **주장 2: 연산, 데이터, 알고리즘 효율성이 최근 역사적 비율로 다음 5년 동안 계속 증가할 가능성이 높다.** 위에서 논의한 바와 같이, 우리는 최전선 AI 진보의 주요 원인이 연산, 데이터, 알고리즘 효율성 확장이라고 믿는다. 다음으로, 이러한 확장이 계속될 가능성이 있는지 고려한다. 이 가능성을 평가하기 위해, 우리는 최전선 훈련 세션에 대한 연산 확장이 연평균 약 4배(Sevilla와 Roldán, 2024) 증가하는 것으로 나타나고 있으며, 이는 역사상 가장 폭발적인 기술적 확장 중 하나라고 관찰한다. 특히, 이는 태양광 용량 설치(2001년-2010년, 1.5배/년), 모바일 전화 채택(1980년-1987년, 2배/년), 인간 게놈 시퀀싱(2008년-2024년, 3.3배/년) 등 가장 급격한 성장률을 초과한다. 따라서 이러한 확장이 계속될 가능성을 평가하는 것이 중요하다. 이 주제에 대해 가장 자세한 연구를 수행한 것은 Sevilla et al.(2024)로, 최전선 훈련 세션의 연산이 최근 4배/년 증가하는 비율로 확장될 수 있는지 조사했다. 특히, 이 분석은 2030년 2e29 FLOP 훈련 세션이 가능할지 여부를 조사했다. 이는 GPT-4(Achiam et al., 2023)의 훈련 연산량을 10,000배 확장하는 것과 같다. Sevilla et al.(2024)는 네 가지 잠재적인 병목 현상에 초점을 맞추었다. 첫 번째 잠재적인 병목 현상은 전력 공급(특히 현재까지 가장 큰 훈련 세션이 이루어진 미국의 전력 공급)이었다. 저자들은 필요한 전력(1-5 GW 범위의 데이터 센터 캠퍼스)이 충분히 제공될 가능성이 높다고 결정했으며, 따라서 전력 공급은 현재 비율로 확장하는 데 제한이 되지 않을 것이라고 결론지었다. 또한, 분산 훈련(Douillard et al., 2023, 2024)은 최전선 훈련 세션에 더 많은 전력이 접근할 수 있게 할 수 있다. 두 번째 잠재적인 병목 현상은 하드웨어 가속기(예: GPU와 TPU)의 가용성이었다. 미래 용량에 대한 추정은 상당한 불확실성을 동반하지만, Sevilla et al.(2024)는 2030년 2e29 FLOP 훈련 세션을 위한 충분한 가속기 용량이 있을 가능성이 높다고 결정했다. 구체적으로, 저자들은 2e29 FLOP 훈련 세션을 지원할 수 있는 100M H100-유사 가속기가 제공될 것으로 예상했다. 세 번째 병목 현상은 데이터 부족으로, 최전선 훈련 세션을 계속 확장할 수 있을 만큼 충분한 데이터가 있을지 여부이다. 전반적으로, 저자들은 온라인 텍스트 데이터의 예상 성장과 다중 모달 데이터 코퍼스의 가용성 때문에 훈련 데이터가 제한 요인이 될 것이라고 결론지었다. 마지막으로, Sevilla et al.(2024)는 "지연 벽"이라는 최종 병목 현상을 조사했다. 이는 심층 신경망의 전방 및 후방 패스에 대한 최소 시간 요구 사항에 의해 부과된 효과적인 속도 제한을 나타낸다. 그러나 다른 제약 조건과 마찬가지로, 저자들은 이 제약 조건이 확장에 영향을 미치지 않을 것이라고 예측했다. 분석은 기술적으로 컴퓨팅과 데이터 스케일링을 지속할 수 있는 가능성을 강조하지만, AI 개발자들이 이를 구현하기 위해 필요한 수백억 달러를 지출할 준비가 되어 있을지 여부는 명확히 제시하지 않습니다. 이 의지가 중간에 발생하는 모델의 성과가 지속적인 AI 능력 향상을 가져올 수 있다는 증거에 크게 의존할 것입니다. 그러나 전체 노동 보상이 글로벌 GDP의 50% 이상을 차지한다는 점은(국제노동기구, 2022) 자동화에 대한 경제적 동기가 매우 크다는 것을 보여줍니다. 따라서 세빌리아 등(2024)은 스케일링을 계속하는 것이 기술적으로 가능할 뿐만 아니라 AI 개발자들이 이를 가능하게 하기 위해 필요한 투자에 나설 가능성이 있다고 결론짓습니다. 알고리즘 효율성 개선 속도를 예측하는 것은 어렵습니다. 호 등(2024)은 이 속도가 투자 수준과 AI가 인간의 노동을 대체할 수 있는 정도에 밀접하게 연관되어 있다고 지적합니다. 그러나 컴퓨팅과 데이터 스케일링 속도가 현재의 추세를 유지한다면, 알고리즘 효율성 개선 속도가 역사적 진보율(대형 언어 모델의 경우 8개월마다 효과적인 컴퓨팅이 두 배로 증가)에서 벗어나지 않을 명확한 증거는 없습니다. 따라서 최근 5년간의 컴퓨팅, 데이터 및 알고리즘 효율성 증가율이 계속될 가능성에 대한 증거는 충분하다고 생각합니다. 제3 주장: 미래의 컴퓨팅 및 데이터 스케일링과 알고리즘 발전은 AI 능력의 의미 있는 증가를 계속 가져올 것입니다. 제1 주장의 지지 근거로, 장기적인 AI 능력 개선이 대규모 컴퓨팅, 데이터 및 알고리즘 효율성 증가로 주도되었음을 설명하는 많은 증거를 제시했습니다. 이러한 증거를 검토한 결과, 현재 패러다임은 "입력"인 컴퓨팅과 데이터를 "출력"인 AI 능력 개선으로 전환하는 데 강력한 기록을 쌓았습니다. 이러한 입력의 미래 스케일링이 AI 능력의 의미 있는 증가를 계속 가져오지 않는 것이 놀랍지 않다고 생각합니다(물론 이러한 결과가 가능하겠지만). 따라서 증거의 균형은 제3 주장에 합리적인 지지를 제공하지만 불확실성이 있습니다. 3.1.2. 대체 패러다임의 도전 과제 남은 주장들은 대체 패러다임이 현재 패러다임을 대체하는 데 직면한 어려움에 대해 다룹니다. 제4 주장: 현재 패러다임은 연구 전문성과 자본 투자 측면에서 미래에 경쟁자로 등장할 수 있는 대체 패러다임에 비해 상당한 "선도자 우위"를 가지고 있습니다. 제4 주장의 지지 근거로, 현재 패러다임의 성공을 전제로 다양한 AI 개발자들이 대규모 인프라 투자에 나섰다는 점을 먼저 언급합니다. 이러한 투자 덕분에 지난 14년간 훈련 컴퓨팅은 연 4배씩 확장되었습니다(세빌리아와 로단, 2024). 실제로 2016년부터 2024년까지 최전선 시스템의 훈련 비용은 연 2.4배씩 증가했습니다(코티에 등, 2024). 이러한 투자 규모를 보여주는 증거로, 최전선 모델을 위한 하드웨어 가속기를 가장 많이 공급하는 NVIDIA는 지난 5년 동안 약 30배 성장했습니다. 이러한 투자 규모는 미래 계획을 수립하고 그에 맞게 조정을 하는 데 상당한 비용이 소요됩니다. 이러한 투자들이 현재 패러다임을 타겟으로 하고 있기 때문에 새로운 패러다임이 이를 동일한 효율로 활용하는 것은 어려울 것입니다. 두 번째 주요 요인은 연구 및 엔지니어링 전문성에 관한 것입니다. 현재 패러다임의 성공은 특정 연구 및 엔지니어링 스킬에 대한 시장 수요를 창출했습니다. 이러한 수요를 충족하기 위해 교육 기관과 기업들은 관련 기술을 갖춘 노동력을 양성했습니다. 예를 들어, 2023년 쿠르세라는 AI 관련 강좌에 680만 명의 수강자가 등록했습니다(Coursera, 2023). 가장 인기 있는 강좌(DeepLearning.AI가 제공)는 지금까지 약 40만 명의 수강자가 등록했습니다. 이러한 전문성을 가진 노동력은 현재 패러다임 내에서 새로운 아이디어와 기술 혁신을 기여할 수 있으며, 경쟁자들에 비해 더 큰 우위를 제공할 것입니다. 제5 주장: 현재 패러다임이 계속 진보를 가져온다면, 대체 패러다임에 대한 연구 투자 동기가 줄어들 것입니다. 제1 항변에 대한 우리의 논거는 현재 패러다임이 AI 진보를 계속 가져올 가능성을 시사하는 증거를 설명했습니다. 그렇다면 대체 패러다임에 대한 연구 투자 동기가 줄어들 가능성이 있습니다. 첫째, 대체 패러다임에 대한 연구 투자에는 현재 패러다임에 대한 투자와 비교했을 때 더 큰 위험이 따릅니다. 특히 후자가 지속적으로 개선된 AI 능력을 제공하는 경우입니다. 둘째, 대체 패러다임의 기초 연구에는 일반적으로 더 긴 시간 지평이 따릅니다. 반면, 현재 패러다임 내에서의 연구 투자에는 훨씬 짧은 기간 내에 혜택을 약속합니다. 셋째, AI 개발자들은 현재 패러다임 내에서 진보를 추구하기 위한 인프라와 노동력을 확보하기 위해 상당한 투자에 나섰습니다. 현재 패러다임에서 벗어나면 이러한 자산이 낭비될 위험이 있습니다. 여기서 제5 주장에 대한 반론을 제시합니다. 최전선 AI 개발에 대한 컴퓨팅 요구 사항이 지수적으로 계속 증가하면 자본 요구 사항도 증가할 것입니다. 이는 대체 패러다임에 대한 투자 동기를 높일 것입니다. 그러나 전체적으로 현재 패러다임이 연구 투자의 대부분을 계속 유치할 것으로 예상됩니다. 제6 주장: 현재 패러다임에 비해 유사한 수준의 약속이나 빠른 진보를 보이는 성숙한 대체 패러다임의 증거는 거의 없습니다. 제6 주장의 주요 논거는 간단합니다. 현재 패러다임의 최전선 AI 개발에 가까운 경쟁력을 보이는 성숙한(또는 초기) 대체 패러다임을 알지 못합니다. 학습 패러다임을 최소화하는 시스템(부챈과 스미스, 1988)과 사람의 에뮬레이션을 통한 마인드 업로딩(한슨, 2016)을 통한 지배는 우리의 가정과 충돌할 것입니다. 여기에서 우리의 논거는 결정적이 아닙니다. 역사에는 많은 패러다임 전환 사례(쿠언, 1962)가 있으며 AI 개발 경관에 대한 완벽한 지식을 주장할 수 없습니다. 3.2. AI 능력에 대한 인간의 상한선 없음 우리 두 번째 핵심 가정은 인간의 상한선 없음 가정입니다. 즉, AI 능력의 진보가 가장 능력 있는 인간과 동일한 작업에 도달한 후 중단되지 않을 것이라고 가정합니다. 달리 말하면, 인간 능력에 의한 상한선이 AI 능력에 대한 상한선을 설정하지 않는다고 가정합니다. AI 안전성에 대한 우리의 접근 방식에 미치는 영향 인간의 상한선 없음 가정의 주요 결과는 AI 안전성을 유지하기 위해 새로운 AI 능력을 활용해야 한다는 것입니다. 처음에는 AI 보조 도구를 연구 및 개발 과정 전반에 걸쳐 조기에 도입하는 것을 의미합니다—대체가 아니라 보완입니다. 능력이 계속 개선되면 AI 보조 도구를 통해 점점 더 복잡한 연구 및 엔지니어링 작업에 위임할 것으로 예상됩니다. 궁극적으로 AI 능력과 함께 가속화될 AI 안전 연구의 대부분이 AI에 의해 수행되어야 할 것입니다. 이 전환 기간은 위험이 높아질 것입니다. 왜냐하면 위임된 작업은 오늘날보다 빠르게 진행될 것이기 때문입니다. 따라서 이 기간에는 인간이 AI 안전 연구의 산물에 효율적으로 검증할 수 있는 능력이 중요해질 것입니다(어빙 등, 2024). 이러한 도전을 극복하기 위해 우리는 Amplified Oversight 알고리즘을 개발하여 인간이 AI 능력이 인간을 초월할 때에도 의미 있는 감시를 계속할 수 있도록 하고 있습니다. 또한 해석 가능성(섹션 6.6)에 대한 우리의 투자와 정렬 스트레스 테스트(섹션 6.7)는 AI 시스템에 대한 우리의 이해를 강화하고 안전성을 보장하기 위해 더욱 중요한 역할을 할 것입니다. 보다 일반적으로, 우리는 안전 사례(섹션 6.8)를 개발하여 내부의 AI 능력을 AI 안전 연구의 가속화로 안내하는 종합적인 논거를 형성할 것입니다. 지지 근거 요약: 인간의 상한선 없음 가정에 대한 우리의 논거는 세 가지 주장으로 구성됩니다. 첫 번째 주장은 여러 작업에서 초인간적 성과가 입증되었음을 주장합니다. 이는 인간 능력이 AI에 대한 의미 있는 상한선을 설정하지 않는 구체적인 작업이 존재함을 입증합니다. 두 번째 주장은 AI 개발이 점점 더 일반적이고 유연한 시스템으로 향하고 있음을 주장합니다. 따라서 초인간적 능력이 점점 더 많은 작업에 걸쳐 나타날 것으로 기대됩니다. 세 번째 주장은 인간 능력과 가장 능력 있는 인간이 도달한 수준에서 AI 능력 개선이 중단될 이유를 찾아보지 못했다는 것입니다. 지지 논거 및 증거 제1 주장: 여러 작업에서 초인간적 성과가 입증되었습니다. 1997년 세계 챔피언 가리 카스파로프를 물리친 체스 시스템 딥 블루(캠벨 등, 2002)는 단일 작업에서 AI 시스템이 초인간적 성과를 달성한 초기 사례입니다. 그 후, 가장 능력 있는 AI 체스 시스템의 능력은 계속 발전하여(CCRL, 2024) 2024년에는 3643의 엘로 등급에 도달했습니다. 비교를 위해, 인간 체스 선수 중 가장 높은 엘로 등급은 2014년 마그누스 칼센이 달성한 2882였습니다(체스DB, 2016). 이 엘로 등급 차이는 AI 시스템이 모든 시대의 가장 강력한 인간 선수에게 98.8%의 기대 승리율을 가져다줍니다. 두 번째 예로, 2011년 TV 퀴즈 쇼 "제퍼디!"에서 두 명의 가장 강력한 인간 선수들을 물리친 왓슨 시스템(페루치 등, 2010)도 있습니다. 바둑(실버 등, 2016, 2017)과 장기(실버 등, 2018)에서도 초인간적 성과가 입증되었습니다. 게임을 넘어, 모리스 등(2023)에 따르면 알파폴드(점퍼 등, 2021)는 아미노산 서열에서 단백질의 3차원 구조를 예측하는 작업에서 가장 능력 있는 과학자보다 더 정확하게 초인간적 성과를 달성했습니다. 물론, 매우 좁은 도메인(예: 부동 소수점 산술)에서 컴퓨터 시스템은 오랫동안 인간을 능가했습니다. 그러나 더 많은 컴퓨팅이 가능해지면서 도메인의 복잡성이 증가하는 경향이 있습니다. 예를 들어, 바둑은 체스보다 훨씬 더 도전적인 도메인입니다. 알파고(실버 등, 2016)는 딥 블루(캠벨 등, 2002)와 비교했을 때 훨씬 더 많은 컴퓨팅을 활용한 알고리즘 혁신에 의해 가능했습니다. 요약하자면, AI 시스템이 초인간적 성과를 입증한 작업이 여러 개 있습니다. 최근 이러한 작업에는 바둑과 단백질 구조 예측과 같은 복잡한 도메인이 포함됩니다. 제2 주장: AI 개발은 점점 더 일반적이고 유연한 시스템으로 향하고 있습니다. 역사적으로 많은 AI 시스템은 좁고 특정 작업에 숙련되도록 설계되었습니다. 이 접근 방식은 체스에서 딥 블루의 숙련(캠벨 등, 2002)과 같은 전문화를 통해 달성 가능한 진보를 가능하게 했습니다. 그러나 최근 AI 개발은 점점 더 일반적이고 유연한 시스템으로 전환되고 있습니다. GPT-3(브라운, 2020)와 고퍼(Rae 등, 2021)와 같은 시스템은 번역, 질의 응답, 기본 산수 및 사실 확인과 같은 다양한 작업에서 기본적인 능력을 보여주었습니다. 후속 시스템인 GPT-4(아치암 등, 2023), 제미니 1.5(제미니 팀 등, 2024)와 라마 3.1(두베이 등, 2024)은 코딩, 수학 및 이미지 이해와 같은 작업에서 기본적인 숙련을 달성했습니다. 이전 시스템은 종종 유용한 기능을 유도하기 위해 작업별 미세 조정이 필요했지만(봄마사니 등, 2021), 이러한 시스템은 종종 미세 조정 없이 제로샷 방식으로 작업을 수행할 수 있습니다. 또한 텍스트, 이미지, 동영상 및 코드와 같은 다양한 모달리티를 처리하고 통합할 수 있는 다모달 모델에 대한 경향이 있어 더욱 유연성과 일반화로 이어지고 있습니다. 이러한 일반적 시스템은 많은 작업에서 인간 전문가의 능력에 비해 여전히 크게 뒤처져 있지만, 그들의 능력이 개선되고 있음을 보여주는 명확한 징후가 있습니다. 오1 모델(오픈AI, 2024)은 코드포스와 같은 경쟁 프로그래밍 문제 벤치마크에서 상위 89%에 랭크되었으며, 미국 수학 올림피아드(AIME) 예선에서 상위 500명의 학생 중 하나로 랭크되었습니다. 동일한 시스템은 또한 대학원 수준의 물리학, 생물학 및 화학 문제(Rein 등, 2023)에서 인간 박사 수준의 정확도를 초과했습니다. 우리는 오1 모델을 유연한 일반적 AI 시스템으로 향하는 경향의 예로 보며, 동시에 인간 전문가 수준의 능력을 달성하고 있습니다. 보다 일반적으로, AI 시스템은 점점 더 유연한 일반적 시스템으로 발전하고 있으며, 능력 수준이 증가하고 있습니다. 제3 주장: 인간 능력과 가장 능력 있는 인간이 도달한 수준에서 AI 능력 개선이 중단될 이유를 찾지 못했다. 제3 주장의 주요 증거는 다소 일화적입니다: 인간 능력과 가장 능력 있는 인간이 도달한 수준에서 AI 능력 개선이 중단될 이유를 찾지 못했다는 것입니다. 물론 우리의 지식의 한계를 인정해야 하며, 이러한 주장이 존재할 가능성을 배제할 수는 없습니다. 그러나 현재까지 관찰된 초인간적 성과의 많은 사례(실버 등, 2016, 2018; 점퍼 등, 2021)는 인간이 사용하는 알고리즘 접근 방식과 크게 다르기 때문에 AI 시스템의 능력에 인간 능력이 제약을 가하지 않는다는 아이디어에 힘을 실어줍니다. 또한 컴퓨팅과 AI 능력 간의 강한 상관관계(카플란 등, 2020; 호프만 등, 2022; 아치암 등, 2023; 오언, 2024; 위안 등, 2023)와 명확한 스케일링 가능성(세빌리아 등, 2024)에 기반하여, 가장 능력 있는 인간이 도달한 수준에서 AI 진보가 중단되지 않을 가능성에 대한 증거의 균형이 기울어지고 있습니다. **3.3. 인공지능 개발의 타임라인은 불확실하다** 세 번째 핵심 가정은 타임라인 불확실성 가정입니다. 이는 인공지능 개발의 타임라인이 불확실하다는 가정입니다. 따라서 다양한 타임라인, 특히 짧은 타임라인이 가능한 것으로 보입니다. 타임라인 추정치를 고정시키기 위해, 그리고 기존 인공지능 타임라인 예측과 비교하기 위해, 우리는 예측하려는 인공지능 능력의 수준을 명확히 해야 합니다. 우리는 이 목적으로 Morris 등(2023)이 제시한 "예외적인 AGI" 정의를 사용합니다. 예외적인 AGI는 다양한 비신체적 작업, 메타인지 작업(새로운 기술을 배우는 것 등) 등에서 숙련된 성인의 상위 1% 수준의 능력을 가진 시스템입니다. Morris 등(2023)은 이 수준이 인공지능에서 가장 심각한 위험이 발생할 가능성이 높은 임계점이라고 식별합니다. 우리는 "짧은 타임라인"을 현재 십년 내에 예외적인 AGI가 개발될 것을 의미합니다. **AI 안전성에 대한 영향** AGI 안전 연구는 현재 시스템에 적용될 수 있는 정도가 다를 수 있습니다. 언제든지 필요한 경우 적용할 수 있는 미연방지 조치의 개발과 여러 해 동안 결실을 맺을 수 있는 더 광범위한 기초 탐구를 포함합니다(하지만 더 큰 안전 혜택을 가질 수 있습니다). 그러나 타임라인 불확실성 가정에 따르면, 단기 타임라인을 대비하여 프런티어 AI 개발자들이 언제든지 안전 접근 방식을 마련해야 합니다. 이 이유로 우리는 이 논문에서 현재 프런티어 AI 개발에 통합될 수 있는 미연방지 조치에 초점을 맞추며, 더 기초적인 탐구는 범위 외로 남깁니다. **지원 증거 요약** 타임라인 불확실성 가정에 대한 우리의 주장은 두 가지 주장으로 구성됩니다. 첫 번째 주장은 기존 인공지능 예측이 다양한 인공지능 타임라인이 가능하다는 점을 뒷받침한다는 것입니다. 두 번째 주장은 기술 개발의 타임라인을 예측하는 것이 도전적이라 불확실성이 정당하다는 것입니다. **지원 주장 및 증거** **주장 1: 기존 인공지능 예측은 다양한 타임라인 범위를 뒷받침한다.** 예외적인 AGI 수준에 도달하는 인공지능의 도착을 예측하는 것은 어려운 작업입니다. 그러나 두 가지 주요 증거가 인공지능 타임라인 프레임워크의 기초가 될 수 있습니다: (1) 연산 성능 개선의 가격 추세를 포함한 장기적인 역사적 추세; (2) 인간의 뇌가 수행하는 연산의 대략적인 경계. 이러한 축을 포괄하는 경험적 데이터는 다양한 인공지능 타임라인 예측을 영감으로 삼았습니다. 물론 많은 인공지능 예측은 고급 인공지능 능력의 도착을 추정하지만, 종종 이 개념을 약간 다르게 정의합니다(예: 경제적 영향에 중점을 두는 경우와 기술 수준에 중점을 두는 경우). 아래 예측마다, 예측에 관련된 인공지능 능력 임계점(이 임계점이 항상 명확하게 정의되지 않는 경우도 있음)을 설명합니다. AI Impacts(2022)와 Wynroe 등(2023)의 문헌 리뷰를 참고하시기 바랍니다. 아래에 몇 가지 주목할 만한 예측을 요약합니다. Good(1970)은 인간의 뇌와 비슷한 능력(약 10^12개의 뉴런)을 가진 "지능적인 기계"가 1993년(±10년)에 도착할 것이라고 예측하며, 장기적인 미니어처화 추세가 계속될 것이라고 주장했습니다. Moravec(1998)은 인간의 신경 볼륨을 연산에 연결하는 더 명확한 모델을 제시했으며, 시장에서 추세를 외삽하여 인간 뇌 수준의 성능을 달성하기 위해 필요한 저렴한 하드웨어가 2020년대 초반에 제공될 것이라고 예측했습니다. 이 주장은 Bostrom(1998)에 의해 경제적 및 군사적 동기 고려를 포함하여 21세기 첫 3분의 1 동안 기계 지능이 인간 지능을 크게 초과할 가능성을 주장하는 것으로 확장되었습니다. Kurzweil(2005)은 Moore's law를 더 넓은 진화 과정인 "가속화되는 반환의 법칙"의 일부로 규정하고 2029년 Turing 테스트의 특정 구현이 통과될 것이라고 제안했습니다. 이 Kapor-Kurzweil Turing 테스트 변형(Kurzweil, 2002)은 세 명의 인간 심사관, 세 명의 인간 유인물, 그리고 인공지능을 포함합니다. 각 심사관은 세 명의 인간 유인물과 인공지능과 일련의 네 번의 인터뷰(각 인터뷰는 두 시간 지속됨)를 진행합니다(총 24시간의 인터뷰가 진행됨). 테스트는 두 명 이상의 심사관이 인공지능을 인간으로 오인할 경우 통과된 것으로 간주됩니다. 이 타임라인의 가능성을 추정하기 위해, Metaculus 예측 플랫폼에서 커뮤니티 예측이 이 결과에 할당한 확률이 2020년 5월 26%에서 2024년 말 현재 80%로 상승했다는 점에 주목합니다(Metaculus, 2024). Cotra(2020)는 산업 혁명과 같은 영향력을 가진 변혁적인 AI의 도착에 초점을 맞춘 특히 세부적인 타임라인 예측 연습을 수행했습니다. 타임라인은 인간의 뇌가 수행하는 연산에 대한 추정치(인간의 생애 동안 학습되는 것과 같은 "생물학적 앵커"로 구조화됨), 2020년 기준의 알고리즘 진보 예측, 연산 비용 감소, 단일 학습 실행에 자본을 투입할 의향이 있는 규모에 대한 예측을 결합하여 구성되었습니다. 결과적으로 변혁적인 AI의 예측은 2052년을 중앙값으로, 2036년 도착의 15% 확률을 나타냅니다. 동일한 저자가 2년 후 수행한 후속 분석에서는 이 추정치를 중앙값 2040년과 2030년 도착의 15% 확률로 조정했습니다(Cotra, 2022a). Davidson(2023)은 Cotra(2020)에서 추정된 학습 요구 사항을 바탕으로 반-내생 성장 모델을 사용하여 R&D 지출 증가를 반영하여 변혁적인 AI의 도착에 대해 중앙값 2043년을 추정했습니다. Cotra(2020)와 다른 전략이 인공지능이 어떻게 개발될 수 있는지에 대한 명시적인 계산 모델에 초점을 맞춘 "안쪽 시점"(Kahneman, 2011) 접근법과 대조적으로, Davidson(2021b)은 참조 클래스와 베이즈 추론에 초점을 맞춘 "밖 시점" 예측을 개발하여 AI 개발의 특정 방법을 고려하지 않았습니다. 이 접근법은 2036년 AGI가 개발될 8% 확률을 나타냈습니다. 여기서 AGI는 "컴퓨터 프로그램(이)가 인간보다 더 잘하고 더 저렴하게 거의 모든 인지 작업을 수행할 수 있는 것"으로 정의됩니다. 다른 예측 방법의 가족은 전문 AI 연구자에게 설문조사를 실시하는 것을 목표로 했으며, 주목할 만한 설문조사가 2016년(Grace 등, 2018), 2022년(Grace 등, 2022), 2023년(Grace 등, 2024)에 실시되었습니다. 이러한 설문조사는 AI 개발에 대한 다양한 질문에 걸쳐 있습니다. 특히, 설문조사는 "고급 기계 지능"(HLMI)의 도착에 중점을 두며, 이는 무보조 기계가 인간 근로자보다 더 잘하고 더 저렴하게 모든 작업을 수행할 수 있을 때 달성된 것으로 정의됩니다. 2016년에는 집계 예측이 2061년 HLMI의 50% 확률을 추정했습니다. 이 예측은 2022년 설문조사에서 2060년으로, 2023년 설문조사에서 2047년으로 조정되었습니다. 위의 논의를 요약하자면, 다양한 예측 방법론을 통해 인공지능 개발 예측이 넓은 타임라인 범위를 포함한다는 것을 관찰할 수 있습니다. 이 다양한 예측 컬렉션에는 단기 타임라인에 대한 지원이 포함되어 있으며, 이는 Metaculus(2024) 커뮤니티 예측이 2029년에 Kapor-Kurzweil Turing 테스트 변형이 통과될 높은 확률(80%)을 나타내는 것으로 가장 잘 설명됩니다. **물리적 한계는 관련이 있는가?** 섹션 3.1에서 논의한 것처럼, 연산의 확장은 인공지능 능력의 중요한 동력입니다. 이 연산은 물리적 하드웨어에 구현되어야 하므로, 인공지능 타임라인 논의에 물리적 한계가 관련이 있는지 고려해볼 필요가 있습니다. 장기적으로 물리학은 Moore's law과 같은 지수적 하드웨어 추세에 제한을 부과합니다(Moore, 1965; Moore 등, 1975). "최종 랩톱"의 구축을 고려한 Lloyd(2000)는 18개월마다 두 배가 되는 Moore's law가 2250년 이후로는 지속되지 않을 것이라고 제안합니다. Krauss와 Starkman(2004)은 확장되는 우주에서 기술 문명이 달성할 수 있는 총 연산에 대한 제한을 고려하여 Moore's law에 대한 느슨한 600년 제한을 제시합니다. 그러나 이러한 한계에 매우 멀리 있기 때문에, 우리는 이러한 한계가 예외적인 AGI로의 타임라인에 의미 있는 영향을 미치지 않을 것으로 예상합니다. **주장 2: 기술 예측이 도전적이라 타임라인에 대한 불확실성이 정당하다.** 예측은 계획에 중요한 역할을 합니다. 그러나 기술 타임라인 예측에 얼마나 많은 신뢰를 둘 수 있을까요? 역사에는 잘못된 예측의 예가 가득합니다. 노벨상 수상자 Ernest Rutherford가 원자 반응이 강력한 에너지원이 될 것이라고 주장하는 사람은 "꿈을 꾸는 사람"이라고 선언한 지 며칠 만에 Szilard는 중성자 연쇄 반응을 생각해냈습니다(Adams, 2013). 1960년, 또 다른 노벨상 수상자 Herbert Simon은 "20년 내에 기계는 인간이 할 수 있는 모든 작업을 수행할 수 있을 것이다"(Simon, 1960)고 썼습니다. 지금까지 AI 예측자들은 실망스러운 기록을 보이고 있습니다. Armstrong과 Sotala(2015)는 2015년 이전에 수행된 95건의 AI 예측 데이터베이스를 분석했습니다. 전반적으로, 전문가 예측은 서로 모순되고 비전문가 예측과 구별되지 않다는 것을 발견했습니다. 두 가지 널리 논의된 "민속 법칙"에 대해, 그들은 AI 전문가가 AI 도착을 자신의 생애 말미에 예측하는 강한 편견을 보이는 "Maes-Garreau 법칙"(Kelly, 2007)에 대한 지지를 찾지 못했지만, AI가 15-25년 후에 도착할 것이라는 예측이 명확한 빈도를 나타내는 것을 발견했습니다. 또한, 주요 AI 개발자들 사이에는 의견 차이가 큽니다(Korzekwa와 Stewart, 2023). 따라서 우리는 특정 미래 궤도에 상당한 무게를 두는 데 신중을 기해야 한다고 믿습니다. **3.4. 가속화된 능력 개선 가능성** 네 번째 핵심 가정은 가속화된 개선 가능성 가정입니다. 이 가정은 인공지능(AI) 시스템의 사용이 가속화된 성장 단계로 이어질 가능성이 있다는 가정입니다. 즉, 이를 우리의 계획에서 중요한 요소로 고려해야 합니다. 좀 더 구체적으로, 초기 과학 연구 및 개발의 자동화는 점차 더 강력한 AI 연구 시스템의 개발을 지원할 수 있으며, 이는 연구 및 개발을 더욱 가속화하는 긍정적인 피드백 루프를 형성할 수 있습니다. 이러한 결과의 가능성은 “Fizzle or Foom?”로 상상적으로 표현되었습니다. 명확성을 위해, Erdil 등(2024)의 정의에 따라 “Foom”은 AI 시스템이 비례하는 개선을 통해 AI 소프트웨어의 개선을 초래하고, 그 결과 기술 발전이 가속화되는 시나리오를 의미합니다. “Fizzle”은 AI 시스템이 비례하는 개선을 통해 AI 소프트웨어의 개선을 초래하지만, 그 결과 기술 발전이 감속되는 시나리오를 의미합니다. 이 용어론에서 우리의 가정은 Foom 시나리오가 가능하다는 주장에 해당합니다. **AI 안전성에 대한 함의** 가속화된 성장 기간은 AI 개발의 속도를 급격히 증가시킬 수 있습니다. 그 결과, 새로운 발전과 위험 완화에 대한 좋은 결정을 내릴 수 있는 시간은 매우 짧을 수 있습니다. 따라서 위험 완화 전략도 AI 도움으로 가속화되어야 합니다. 이를 통해 신규 위험이 발생할 때 그에 대응하고 해결할 수 있는 능력을 유지할 수 있습니다. **지원 증거 요약** 우리 가속화된 개선 가능성 가정에 대한 주장은 세 가지 주장으로 구성됩니다. 첫 번째 주장은 경제 문학에서 매우 빠른(특히 초지수적) 성장의 가능성을 지지하는 증거가 존재한다는 것입니다. 두 번째 주장은 소프트웨어 R&D의 수익이 소프트웨어 전용 특이점(Sufficiently high returns to R&D effort lead to hyperbolic growth)이 가능하다는 증거가 존재한다는 것입니다. 세 번째 주장은 AI 연구자 설문조사가 급속한 가속화된 성장의 가능성을 지지한다는 것입니다. **지원 논거 및 증거** **주장 1: 경제 문학은 가속화된 성장에 대한 다양한 관점을 지지합니다.** 현재, 연구자들은 극도로 빠른 성장, 특히 다음 몇 십 년 동안의 가능성에 대해 다양한 견해를 가지고 있습니다. Nordhaus(2021)는 극도로 빠른 성장의 가능성을 결정하는 주요 요인은 정보와 일반, 비정보 입력 간의 대체 가능성이라고 주장합니다. Nordhaus는 경제 성장률이 20%에 도달하기까지 100년 이상의 시간이 걸릴 것이라고 결론지었습니다. Christensen 등(2018)은 전문가 경제학자를 조사하여, 근기간 폭발적인 성장은 불가능하다고 결론지었습니다(2010년에서 2100년까지의 글로벌 성장률의 중앙값 예측은 2%로, 21세기 중반에 성장률이 감소할 것입니다). Acemoglu(2024)는 유사한 예측을 내놓았습니다(예를 들어, 다음 10년 동안 AI가 미국 GDP 성장에 미치는 영향은 0.9%를 초과하지 않을 것입니다). 이와 대조적으로, 자본이 노동력을 대체할 수 있다는 가정은 Keynes(1931)로 거슬러 올라갑니다. Hanson(2001)은 이러한 가정 하에서 폭발적인 성장이 매우 가능성이 높다고 설명했습니다. 이 관점은 Hanson(2000)의 이전 작업과 일치하며, 이는 역사적 장기간에 걸쳐 성장을 모델링하면 21세기 중반에 폭발적인 성장이 가능하다는 것을 관찰했습니다. 더 일반적으로, Sandberg(2013)는 기존의 내생 성장 모델과 Hanson의 모델이 어떤 형태의 정신 자본(인간이나 AI에 포함될 수 있음)이 상대적으로 복제하기 쉬워지면 극도로 빠른 성장이 따를 가능성이 높다는 결론을 지지한다는 것을 지적했습니다. Erdil과 Besiroglu(2023)는 AI에 의해 발생할 수 있는 “폭발적인 성장”(약 한 자리 숫자 단위의 가속화) 가능성에 대한 12가지 논거를 분석하여, 이번 세기 말까지 발생할 가능성은 50%로 평가하지만, 이 추정치에 대한 높은 불확실성을 강조했습니다. Trammell과 Korinek(2023)은 다양한 경제 모델을 AI의 효과에 대해 조사하여, 여러 모델에서 성장률이 급격히 증가할 수 있음을 보여주었습니다. Davidson(2023)은 Cotra(2020)가 생산한 변혁적인 AI(산업 혁명과 비교할 만한 영향)의 훈련 요구 사항을 바탕으로, 반인간 인지 노동(2020년 경제 가치로 가중치 부여)의 20%를 자동화할 수 있는 AI에서 ∼100%의 인지 노동을 자동화할 수 있는 AI로의 전환 기간을 예측했습니다. 이는 “효과적 계산량”(시간이 지남에 따라 소프트웨어 효율성이 증가하는 것을 반영하는 계산량)이 약 4자리 숫자 단위로 증가하는 것으로, 3년 간의 전환 기간을 중앙값으로 예측했습니다. 최근 Erdil 등(2025)의 모델링은 경험적 규모 법칙과 반내생 성장 이론을 바탕으로 계산, 자동화 및 생산의 변화를 모델링하여, 2045년에는 매년 30% 이상의 세계 총생산(GWP) 증가가 가능하다는 가능성을 지원했습니다. Moorhouse와 MacAskill(2025)은 지능 폭발의 가능성과 결과를 분석하여, AI가 최소 10년 동안 기술 발전을 가속화할 가능성이 50% 이상임을 추정했습니다. 이 문학에서 두 가지 주요 주제가 드러납니다(Davidson, 2021a). 첫 번째는 AI가 R&D를 자동화하고 아이디어 생산 긍정적인 피드백 루프를 유도함으로써 폭발적인 성장을 유도할 수 있다는 아이디어 기반의 장기 성장 모델입니다. 두 번째는 AI가 자본이 노동을 대체할 수 있도록 하면 다양한 경제 모델이 폭발적인 성장을 예측한다는 것입니다. **주장 2: 소프트웨어 R&D의 수익이 초지수적 성장을 지원할 만큼 높을 수 있습니다.** 인공지능 분야의 초기부터 연구자들은 AI 진전이 특정 임계점을 달성하면 빠른 개발 가속화가 가능할 수 있다는 이론적 가능성을 인식했습니다. 1959년에 I.J. Good은 “일단 $100,000,000의 비용으로 충분히 좋은 기계가 설계되면, 이를 더 좋은 기계 설계에 사용할 수 있습니다. 이 시점에서 ‘폭발’이 분명하게 발생할 것입니다. 과학과 기술의 모든 문제는 기계에 넘겨질 것이며, 더 이상 사람들이 일할 필요가 없을 것입니다.”라고 썼다. 이러한 전환 기간이 어떻게 진행될지 고려할 때, Good(1959)은 가속화의 증거가 사전에 거의 없을 것이라고 추측했습니다. “기계 뇌가 정말로 유용해지기 위해서는 크기가 임계점에 가까워야 할 것 같습니다. 그렇다면 매우 좋은 기계가 하나도 없는 상태에서 매우 많은 뛰어난 기계가 있는 상태로 전환되는 기간은 매우 짧을 것입니다.” 이러한 관점은 Bostrom(1998)이 인지 수준에 도달할 때 AI의 한계 효용이 급격히 증가하여 추가적인 자금 조달을 유도할 수 있다는 것을 강조한 것을 반영합니다. 이 가능성을 이해하는 데 핵심적인 것은 “R&D 수익”을 추정하는 것입니다. 이는 경제 문학에서 도전적인 작업으로 주목받고 있습니다(Bloom 등, 2020). AI 개발의 맥락에서 특히 “지능 폭발”의 가능성과 이러한 사건이 초래할 수 있는 역학에 대한 관심이 높아졌습니다(Chalmers, 2010). Yudkowsky(2013)는 이러한 사건의 개념을 경제적 관점에서 형식화하여, 인지 재투자의 수익이라는 개념을 도입했습니다. 이는 “더 많은 계산 자원, 더 빠른 컴퓨터 또는 개선된 인지 알고리즘을 투자하여 인지 노동을 생산하여 더 큰 뇌, 더 빠른 뇌 또는 더 나은 정신 설계를 생성하는 능력”으로 정의됩니다. 특히 최첨단 AI 개발에 대한 연구 노력에 대한 수익 추정치의 어려움이 있습니다. AI R&D에 가장 관련성 있는 대리 변수로는 소프트웨어 R&D에 대한 데이터가 가장 잘 수집될 수 있습니다. 소프트웨어 R&D에 대한 수익에 대한 가장 자세한 연구는 Erdil 등(2024)이 성장 모델에서 아이디어 생산을 추정하는 다양한 접근 방식을 종합적으로 조사한 과정에서 수행했습니다. 우리는 그들의 분석의 주요 점을 아래에 요약합니다. Erdil 등(2024)은 분석을 Jones(1995)의 반내생 성장 모델을 바탕으로 수행했습니다. 이는 다음과 같이 쓸 수 있습니다: \[ \frac{dA(t)}{dt} = \theta A(t)^{-\beta} I(t)^{\lambda} \] 여기서 \( I(t) \)는 R&D 입력의 어떤 측정값을 나타내고, \( A(t) \)는 효율성이나 아이디어의 측정값을 나타내며, \( \beta \)는 새로운 아이디어에 대한 증가 또는 감소하는 수익을 나타내고, \( \lambda \)는 입력에 대한 수익 비율을 나타냅니다. Bloom 등(2020)은 “연구 수익”의 개념을 정의하기 위해 \( r = \frac{\lambda}{\beta} \)의 비율을 사용했습니다. 이 비율은 방정식 (1)의 극한 행동을 중요한 방식으로 결정합니다. R&D가 완전히 자동화될 수 있다고 가정하고 고정된 계산량 \( c \)에 접근할 수 있다고 가정하면, R&D 입력은 단순히 \( I(t) = cA(t) \)입니다. 이를 방정식 (1)에 대입하면 다음과 같은 방정식을 얻습니다: \[ \frac{dA(t)}{dt} = \theta c^{\lambda} A(t)^{\gamma} \] 여기서 \( \gamma = \lambda - \beta + 1 \)입니다. 이 모델에 따르면, \( \gamma > 1 \) 또는 \( r = \frac{\lambda}{\beta} > 1 \)인 경우 초지수적 성장이 발생합니다. Davidson(2023)은 고정된 계산량에 접근할 수 있다고 가정하고 이 성장 모델을 “소프트웨어 전용 특이점”이라고 부릅니다. 이 모델은 두 가지 주요 측면에서 매우 단순화되어 있습니다. 첫째, Erdil 등(2024)이 지적한 것처럼 이 모델은 AI 시스템의 효율성이 인지 노동에만 의존한다고 가정합니다. 실제로는 실험(대규모 계산량 사용이 포함될 수 있음)이 중요한 역할을 할 가능성이 큽니다. 이 가정은 성장 추정치를 과도하게 긍정적으로 만들 수 있습니다. 둘째, 실제로는 계산량도 성장할 가능성이 있습니다(고정된 상태로 남아 있지 않음). 따라서 이 성장 모델은 최소한 이 가정에 관해서는 보수적일 수 있습니다. 이 모델의 제한 사항을 인정하면서도, 관련 도메인에서 \( r \)의 값을 경험적 데이터에서 추정하는 것은 여전히 매우 흥미로운 작업입니다. 이를 위해 Erdil 등(2024)은 여러 설정에 대해 \( r \)을 추정했습니다. 컴퓨터 체스에서는 데이터가 가장 쉽게 사용할 수 있어, 저자들은 \( r = 0.83 \) (표준 오차 0.15)을 추정했습니다. 데이터가 더 어렵게 얻는 다른 도메인(컴퓨터 비전, SAT 솔버, 선형 계획 및 강화 학습)에서 \( r \)의 중앙값 추정치는 1보다 높지만, 통계적으로 유의미하지는 않습니다. 결론을 정리할 때, Erdil 등(2024)은 소프트웨어 R&D의 수익이 초지수적 성장을 초래할 수 있지만, 증거는 확정적이지 않다고 관찰했습니다. 따라서 소프트웨어 R&D의 수익이 초지수적 성장을 지원할 만큼 충분할 수 있다고 믿으며, 이 가능성을 대비해야 한다고 생각합니다. **주장 3: AI 연구자 설문조사는 급속한 가속화된 성장의 가능성을 지지합니다.** AI 연구자를 대상으로 한 대규모 설문조사 시리즈(Grace 등, 2018, 2022, 2024)에서 응답자에게 “고수준 기계 지능”(인간 노동자를 대신하여 모든 작업을 더 잘하고 더 저렴하게 수행할 수 있는 기계가 있을 때 달성된 것으로 정의됨)을 달성한 후 5년 이내에 기술 발전이 한 자리 숫자 이상 빨라질 확률에 대해 물었습니다. 2016년 이후, 응답자의 다수는 “매우 가능성이 높다”, “가능성이 높다”, “약 50%” 중 하나를 선택했습니다(나머지 두 가지 선택지는 “가능성이 낮다”와 “매우 가능성이 낮다”입니다). 흥미롭게도, 지능 폭발의 가능성과 관련된 질문에 대한 응답은 시간이 지나도 상대적으로 안정적이었습니다(Grace 등, 2024). 고수준 기계 지능을 달성한 후 2년 동안 폭발적인 성장이 발생할 확률로 설문조사한 AI 연구자의 중앙값은 20%였습니다(Grace 등, 2024). 이는 급속한 가속화된 성장의 가능성을 지지하는 AI 연구자들 사이에 지지가 존재함을 시사하지만, 결정적이지는 않습니다. **요약:** 3.3절에서 논의한 것처럼, 가속화된 성장의 타임라인(또는 최종 확률)을 예측하는 것은 어렵습니다. 그러나 위의 증거를 고려할 때, 우리는 급속한 능력 개발의 가능성을 위한 강력한 주장이 있다고 믿습니다. 이러한 세계는 오늘날의 세계와 매우 다르게 기능할 가능성이 큽니다. 예를 들어, 공장뿐만 아니라 공장 건설의 완전한 자동화뿐만 아니라, 이에 따른 글로벌 에너지 소비의 대규모 증가가 포함될 수 있습니다. 또한, 우리는 가까운 미래에 폭발적인 성장이 발생할 가능성이 높다고 믿으며, 이는 AI 안전성에 중요한 함의를 초래합니다. 위에서 강조한 것처럼, 이는 초기 지표에 대응할 수 있는 언제든지 안전 접근 방식을 동기화합니다. 3.5. 근사적인 연속성 우리의 다섯 번째 핵심 가정은 근사적인 연속성 가정입니다. 이를 일반 AI 능력이 계산, R&D 노력, 데이터의 가용성에 따라 비교적 매끄럽고 예측 가능하게 확장될 것이며, 특히 이러한 입력에 대해 일반 AI 능력에서 큰 불연속적인 "점프"가 발생하지 않을 것이라고 정의합니다. 중요한 점은 가속화되는 개선 가정으로 인해 캘린더 시간대에 대한 AI 진보의 속도에 대해 이러한 가정은 하지 않는다는 것입니다. 우리의 AI 안전성에 대한 접근법에 대한 함의. 근사적인 연속성 가정의 주요 함의는 반복적이고 경험적으로 우리의 전략을 테스트할 수 있게 해준다는 것입니다. 따라서 우리의 기술 접근법은 임의로 강력한 AI 시스템에 강인할 필요는 없습니다. 대신, 현재 예측 가능한 능력 개선(2절에서 논의)에 초점을 맞출 수 있습니다. 더 널리, 우리의 접근법은 비즈니스-어스-유얼 스케일링이 AI 능력에서 큰 불연속성을 초래하지 않을 것이라는 기대에 근거하고 있습니다. 모델 능력이 어떻게 발전할지 예측할 수 있다면, 관련 위험을 사전에 커버할 테스트 및 제어 인프라를 구축할 수 있습니다. 예를 들어, 오프시브 사이버 보안 능력이 증가하는 것에 대응하여 API에서 남용 탐지 개선(5절), 또는 자동 가중치 유출 능력(6절)에 대비하여 샌드박싱 강화. 근사적인 연속성 가정은 사전 예측의 필요성을 없애지 않습니다. 다만, AI 능력의 추세를 외삽하는 것을 사전 예측의 형태로 의존하는 것이 적절하다는 것을 정당화합니다. 또한, 우리가 주어진 시간에 존재하는 AI 능력에 대한 좋은 이해를 달성하기 위해 올바른 추세를 외삽하고 있는지 확인하는 것이 중요합니다. 반복적인 배포는 특히 유용합니다: AI 회사가 모델에서 특정 능력을 눈치채지 못하더라도 사용자들의 결합된 노력은 그 능력을 발견할 가능성이 큽니다. 성과 향상이 더 예측 불가능할수록 필요한 안전 마진이 더 넓어집니다. 몇 가지 충격을 미분하기 위해 긴급 비상 대책을 발동하는 것은 비싸고 지속 가능한 전략으로는 부적절합니다. 예측 불가능성의 한계에서 가능성 있는 능력 증가를 방지하는 것은 경제적으로 불가능합니다. 그러나 완벽한 예측 가능성은 필요하지 않습니다. 갑작스러운 능력 향상이 허용되지만: 1. 너무 크지 않습니다. 모델이 완전히 무능력에서 한 작업에 대해 신뢰할 수 있게 수행할 수 있는 상태로 한 번에 점프하지 않습니다. 중대한 위험 영역(4절)은 복잡한 계획을 실행하는 데 신뢰할 수 있는 성과가 필요합니다. 2. 너무 자주 발생하지 않습니다. 충격은 가끔 발생할 수 있지만, 합리한 비용으로 처리할 수 있을 만큼 드물어야 합니다. 3. 너무 일반적이지 않습니다. 능력의 갑작스러운 향상이 전체적으로 발생하지 않고, 좁은 능력에 국한됩니다. 모델의 성능이 특정 능력에서만 급격히 상승하면, 현실 생활의 작업을 완수하는 데 다른 능력이 병목이 될 가능성이 높아져 위험의 범위가 제한됩니다. 자동화된 ML R&D. 전문가 수준의 머신러닝(ML) R&D 성과는 재귀적인 AI 개선을 가능하게 하여 능력 향상의 중요한 가속화를 초래할 수 있는 특히 주목할 만한 임계값입니다. 이러한 일이 발생하면, 캘린더 시간대에 대한 중요한 불연속적인 점프가 발생할 가능성이 큽니다. 그러나 일반 능력 향상의 가속화 메커니즘은 AI 진보에 대한 입력, 특히 (자동화된) R&D 노력에 대한 가속화에 불과합니다. 따라서 근사적인 연속성 가정은 여전히 이러한 설정에 적용됩니다. 3.4절에서 논의한 바와 같이, 우리의 안전 계획과 모니터링도 AI에 의해 크게 지원되어야 할 것입니다. 그런 다음, 캘린더 시간대 추세에서 성능 불연속성은 분석하고 준비하는 데 소모된 인지 노동을 고려할 때 더 추세에 맞을 것입니다. 지원 증거 요약: 근사적인 연속성 가정에 대한 우리의 논증은 네 가지 주장의 형태로 구성됩니다. 첫 번째 주장은 기술 진보의 지표에서 큰 불연속적인 점프는 드물다는 것입니다. 두 번째 주장은 실증적 증거에 따르면 비즈니스-어스-유얼 스케일링이 일반적으로 충분히 넓은 벤치마크로 측정된 일반 능력에서 갑작스럽고 큰 점프를 초래하지 않는다는 것입니다. 세 번째 주장은 예측 불가능한 능력 향상이 좁은 작업에서 발생할 수 있지만, 이는 상대적으로 드물며, 성능이 한 번의 스케일링으로 우연에서 >90%로 점프하는 경우는 거의 없습니다. 네 번째 주장은 미래의 능력 불연속성이 발생할 수 있는 특정 제안이 가능성이 낮아 보인다는 것입니다. 3.5.1. 큰 불연속적인 점프에 대한 기본 비율 및 개념적 논증 주장 1: 외부 관점에서, 고도로 최적화된 분야에서 큰 불연속적인 점프는 드뭅니다. 3.1.1절에서 논의한 바와 같이, 일반 AI 능력 개선을 위한 상당한 노력이 투입되고 있으며, 이는 연간 수십억 달러와 수천 명의 연구자를 포함합니다. 이 노력은 특히 미래에 증가할 가능성이 있습니다. 이러한 노력이 관심 변수를 최적화하는 데 사용될 때, 연구는 종종 여러 작은 스트림으로 나뉘어 특정 하위 문제를 해결합니다. 그런 다음, 하위 문제 중 하나에서 큰 불연속적인 점프가 발생하더라도 전체 변수에 대한 점프를 초래하지 않을 수 있습니다. 하위 문제들이 주로 보완 관계에 있을 경우, 하나의 하위 문제가 해결되면 다른 하위 문제가 전체 진보의 병목이 되어 전체 진보에 대한 영향을 제한할 수 있습니다. 하위 문제들이 서로 대체할 수 있을 경우, 전체 진보는 여러 기여의 합이 됩니다. 실제로는 대체 가능한 하위 문제의 진보가 적어도 부분적으로 상관관계가 없음을 예상합니다. 따라서 전체 진보의 분산이 줄어들고 전체 진보에서 큰 불연속적인 점프의 가능성이 줄어듭니다. 또한, 연구자들은 쉽게 얻을 수 있는 성과부터 먼저 선택하므로, 하위 문제 내에서도 큰 불연속적인 점프를 초래할 중요한 통찰을 식별하기가 점점 더 어려워집니다. 이 논증은 관심 변수를 최적화하는 데 상당한 노력이 투입된다는 가정에만 의존합니다. 따라서 다른 그런 분야에 대한 논증이 얼마나 잘 적용되는지 실증적으로 확인할 수 있습니다. Grace 등(2021)은 사람들이 최적화하려는 지표에서 극도로 빠른 진보의 역사적 사례를 찾았습니다. 연구는 최소한 하나의 관심 지표에서 이전 속도의 100년 이상의 진보를 초래하는 진행의 불연속성을 기록한 몇 가지 사건을 문서화했습니다. 그러나 광범위한 사례 검색에도 불구하고, Grace(2020)는 AI 진보의 불연속성 확률이 상대적으로 낮다고 결론지었습니다. 또한 AI가 다른 기술과 본질적으로 다르다는 주장이 설득력이 없다는 것을 제안했습니다(하지만 결정적으로는 아닙니다). 극단적인 기술 변화의 영향. 이러한 외부 관점은 충분히 큰 패러다임 전환(쿠hn, 1962)이 발생할 경우 적용되지 않을 수 있습니다. 이는 완전히 새로운 세트의 하위 문제와 질적으로 다른 진보율을 창출할 수 있습니다. 이는 근사적인 연속성 가정에 대한 도전이 될 것입니다. 그러나 3.1절에서 논의한 바와 같이, 이러한 경우에도 우리의 접근법을 근본적으로 재고해야 합니다. 또한, 모델 학습 기법이 완전히 새로운 방식으로 변경될 수 있지만, 여전히 패러다임 내에서 머무를 수 있습니다. 이러한 변화가 있는 경우, 새로운 기술이 현재 기준에 비해 불연속적인 개선을 초래할 수 있지만, 여전히 자체 스케일링 법칙을 따를 것입니다(예: 트랜스포머와 LSTM을 비교할 때, Kaplan 등, 2020)). 그러나 위에서 논의한 이유들로 인해 이는 가능성이 낮지만 완전히 배제하지는 않습니다. 검색 공간의 특징. Yudkowsky(2013)는 지능적인 AI 디자인에 대한 검색 공간의 많은 측면이 인지 투자에 대한 복합적인 수익을 초래하여 캘린더 시간대에 대한 큰 불연속적인 점프로 이어질 수 있다고 주장합니다. Yudkowsky(2008)는 특히 다섯 가지 요인을 식별했습니다: 연쇄 반응, 사이클, 통찰, 재귀, 그리고 모르는 것들. 특히 사이클과 재귀가 생성하는 긍정적인 피드백 루프는 시간대에 대한 극적인 가속화를 초래할 수 있습니다(3.4절). 모든 다섯 가지 요인이 전체 능력 진보에서 중요한 역할을 할 것으로 예상하지만, 위에서 언급한 이유들로 인해 입력에 대한 점프는 발생하지 않을 것입니다. 3.5.2. 기존 AI 진보의 실증적 증거 주장 2: 일반 능력은 일반적으로 큰, 갑작스러운 점프를 보이지 않습니다. 많은 작업에 걸친 AI 능력의 갑작스러운 점프는 매끄러운 능력 향상보다 더 어렵게 완화할 수 있는 위험을 초래합니다. 이러한 점프는 많은 행동을 포괄하는 광범위한 벤치마크를 사용하거나 많은 벤치마크 점수를 고려하는 것으로 측정할 수 있으며, 이는 표준적인 관행입니다. Owen(2024)은 집계 벤치마크(BIG-Bench(Srivastava 등, 2023), MMLU(Hendrycks 등, 2020))가 한 주문(OM) 규모의 계산에 대해 20 퍼센트 포인트의 오차 범위 내에서 예측 가능하다는 것을 발견했습니다. Gadre 등(2024)은 유사한 방식으로 17개의 작업에 대한 평균 상위 1 오류를 20배 적은 계산으로 예측된 모델의 1 퍼센트 포인트 이내로 예측할 수 있음을 발견했습니다. Ruan 등(2024)은 5개의 OM 규모의 계산과 여러 모델 가족에 걸친 8개의 표준 하류 LLM 벤치마크 점수가 상위 3개의 주성분으로 잘 설명된다는 것을 발견했습니다. 그들의 첫 번째 성분은 5개의 OM 규모의 계산과 여러 모델 가족에 걸쳐 매끄럽게 확장되어, 계산이 일반적인 능력과 유사한 것으로 스케일링된다는 것을 시사합니다. 주장 3: 작업 특정 성능에서 점프가 관찰되었지만, 극적인 점프는 드물고 측정 오류로 더 잘 설명될 수 있습니다. 문헌에는 크기가 증가함에 따라 성능에 거의 영향을 미치지 않은 후 갑작스럽게 큰 성능 향상을 보이는 작업에 대한 사례가 많습니다. 이러한 현상은 "출현"이라고 불립니다. Wei 등(2022a)은 LLM의 출현 능력을 작은 규모의 모델에서 존재하지 않지만 큰 규모의 모델에서 존재하며, 작은 규모의 모델에서 성능 향상을 단순히 외삽하여 예측할 수 없는 능력이라고 정의합니다. 이러한 능력은 자연 작업(Srivastava 등, 2023)과 스케일링 추세에 적대적인 작업(McKenzie 등, 2023)에서 모두 발생합니다. 전체 벤치마크 성능이 대략 예측 가능하더라도 개별 작업 성능은 종종 그렇지 않습니다(Owen, 2024). 극적인 향상이 드물다. 그러나 개별 작업에서도 극적인 향상은 드물게 관찰됩니다. 대부분의 출현이 보고된 작업에서 점프는 50 퍼센트 포인트를 초과하지 않습니다. 출현은 일반적으로 모델이 우연의 정확성에서 >90%로 점프하는 경우에 가장 우려스러운 위험을 우리를 놀라게 하지 않습니다. 출현 문헌을 검토한 후, 우리는 극적인 향상의 몇 가지 사례만 발견했습니다. 한 예는 GPT-3의 MAWPS 수학 문제 데이터셋(GPT-3.5와 GPT-4의 총 계산량은 알려져 있지 않지만, Epoch AI(2024)에 제공된 추정치에 따르면, Hindsight Neglect 작업에 대한 성능 향상은 약 한 주문 규모의 훈련 계산 증가에 해당합니다.) 성능입니다. 다른 하나는 GPT-4의 Inverse Scaling Prize에서 Hindsight Neglect 작업(Achiam 등, 2023)에 대해 적대적으로 선택된 작업입니다. Ruan 등(2024)에 따르면, 스케일링 법칙과 출현 능력(Wei 등, 2022a)이 연구된 것은 데이터 포인트가 희소하다는 점입니다. 특히, 여러 주문 규모의 크기를 포괄하기 위해 5개의 데이터 포인트만 사용하면, 기본적인 현상이 매끄럽더라도 불연속적으로 보일 수 있습니다. Ruan 등(2024)은 Wei 등(2022a)의 결과를 재방문하여 그들의 방법론을 사용하여 이전에 출현으로 식별된 능력도 정확하게 예측할 수 있음을 보여줍니다. 마찬가지로, 극적인 향상의 두 가지 사례도 한 주문 규모의 훈련 계산 증가에 해당했습니다. 실제로는 새로운 모델이 기존 모델에 비해 훈련 계산이 극적으로 증가하는 경우는 드물지만 불가능한 것은 아닙니다(Epoch AI, 2024). 출현은 측정 오류로 설명될 수 있습니다. 최근 연구(Schaeffer 등, 2023, 2024)는 지금까지 관찰된 극적인 출현 사례의 대부분이 성능을 측정하는 데 사용된 지표와 변환의 오류로 설명될 수 있다고 주장합니다. Schaeffer 등(2023)은 BIG-Bench 작업의 가능한 출현 사례의 대부분(모델/작업 쌍)이 다중 선택과 정확 일치 정확도를 지표로 사용한다는 것을 발견했습니다. 두 지표 모두 생성된 올바른 토큰의 기본 확률에 대해 비선형적이므로, x축을 거칠게 처리하면 추세가 불연속적으로 보일 수 있습니다. 대신 선형 지표(brier 점수 또는 편집 거리)를 선택하면 개별 작업에서도 더 매끄럽고 예측 가능한 스케일링 추세가 나타납니다. Schaeffer 등(2024)은 다중 선택 설정에서 정확도가 잘못된 답변에 확률 질량을 얼마나 퍼뜨리는지에 영향을 받는 또 다른 요인을 식별했습니다. 이는 사전 학습 손실과 하류 성능 지표 간의 상관관계를 저하시킵니다. 예측 가능성을 높이기 위한 한 전략은 평가 세트 크기를 늘리고 모델에서 더 많은 샘플을 가져와 평가 점수 분해를 증가시키는 것입니다(Schaeffer 등, 2023; Hu 등, 2023). 큰 샘플 수를 가진 현대 LLM은 복잡한 작업에서 뛰어난 재현(최소한 한 번 올바른 샘플을 생성할 수 있는 능력)을 자주 나타냅니다(Brown 등, 2024). 또 다른 옵션은 모든 모델이 최소한 한 번 통과할 수 있는 작업 인스턴스만 고려하는 것입니다(Achiam 등, 2023), 그러나 이는 현재 통과율이 0이 아닌 작업에 대한 예측을 제한합니다. 우리는 더 나은 측정 과학이 작업 성능을 더 예측 가능하게 만들 것이라고 생각하지만, 더 나은 지표는 아직 완벽한 해결책은 아닙니다. 많은 작업(예: 코드 생성의 통과율)은 관련 도전 과제를 나타내며, 대체 측정 방법이 간단하지 않습니다. 기존의 출현 사례가 대체 지표를 통해 예측될 수 있었다고 하더라도, 이는 근사적인 연속성 가정의 지지 증거가 아니라는 것은 명확하지 않습니다. "일반 AI 능력"에 대한 경우, 우리는 일반적으로 비선형 지표에 관심을 가지며, 선형 지표가 아닌 것을 예측하는 것은 명확하지 않습니다. 새로운 능력 식별을 위한 가장 좋은 전략 중 하나는 모델을 배포하고 실제 사용되는 방식을 확인하는 것입니다. 이는 유틸리티와 관련이 있으며, 이는 비선형 지표와 관련이 있습니다. 따라서 선형 지표에 대한 집중은 자연적인 비선형 지표에서 출현을 관찰한 후 후견편향일 수 있습니다. 주의 사항: 유도. 많은 학술 연구에서 출현에 대한 스캐폴딩을 고정하고 크기를 변경하여 스케일링의 효과를 고립시킵니다. 이는 집계 벤치마크 성능에서 종종 연속적으로 보입니다(Suzgun 등, 2022), 그러나 스캐폴딩 개선이나 기타 사후 학습 개선이 더 큰 점프를 시사할 수 있습니다. 더 일반적으로, 많은 형태의 사후 학습은 비교적 낮은 계산 비용으로 능력 증가를 초래할 수 있습니다(Davidson 등, 2023). 연구소 내에서 새로운 유도 방법을 배포하는 것은 의도적인 선택입니다. 그러나 새로운 유도 기법이 연구소 밖에서 발견되고 API 접근만으로도 작동하며, 이미 배포된 모델의 능력을 크게 향상시키면, 이는 불안정화될 수 있습니다. 사용자가 갑자기 새로운 능력을 얻는 것은 안전 테스트를 통과하지 않았기 때문입니다. ### 3.5.3. 미래의 단절에 대한 개념적 논증 **주장 4**: 단절이 발생할 수 있는 구체적인 제안은 비현실적이다. 단절의 기본 비율이 낮고, 지금까지의 AI 능력에 대한 경험적 증거도 동일한 결론을 지지하지만, 미래 AI 능력에 대해 현재 적용되지 않는 어떤 차이점이 있을 수 있다. 이는 단절적 큰 도약을 기존의 결론보다 더 가능성이 높다고 생각할 수 있다. (Grace, 2020)과 (Christiano, 2018)은 다양한 논증을 조사했지만 결국 이러한 논증들이 약하다고 결론지었다. 임계 효과. 우리가 가장 설득력 있다고 생각하는 논증은 미래 AI 능력에 발생할 수 있는 임계 효과들이다. 예를 들어, 어떤 수준의 논리적 일관성이 일시에 질적으로 다른 능력을 해제할 수 있다. 이러한 임계는 드물지 않다: 예를 들어, 어떤 종류의 스캐폴딩이나 유도 기술, 예를 들어 Chain of Thought (CoT)는 특정 규모 임계점을 넘어서야 비로소 개선이 나타난다 (Wei et al., 2022a; Suzgun et al., 2022). CoT가 기준 유도 접근법을 넘어서는 지점이 임계점을 나타낸다는 점은 주목할 만하다. 그러나, CoT의 집합 성능은 규모에 따라 매끄럽게 개선된다. 전반적으로, 임계 효과는 다른 영역에서도 존재하지만 단절적인 진보는 드물다. 따라서 임계점을 넘어서는 영향은 최소일 것으로 기대된다. 요약: 문헌을 조사하면 여러 이전 작업들이 특정 작업에서의 큰 도약을 보고한 것을 볼 수 있다. 또한, 이론이 단절적인 성과 개선을 배제하지 않는 한 미래의 능력을 예측할 때 신중해야 한다. 그러나 계산의 규모가 확대될 때 상대적으로 가까운 간격으로 측정된 큰 도약은 드물다. 또한 일반적인 능력은 큰, sudden한 도약을 보이지 않는다. 종합적으로, 대략적인 연속성 가정에 대한 증거는 비교적 견고하다고 믿는다. ### 3.6. AGI의 혜택 이 문서의 주요 목표는 AGI와 관련된 심각한 피해를 줄이기 위한 접근 방식을 설명하는 것이다. 우리의 주요 동기는 AGI가 위험을 초래할 수 있는 반면, 적절한 예방 조치를 취하면 그 혜택이 위험을 초과할 수 있다고 믿기 때문이다. 이 섹션에서는 AGI가 가져올 수 있는 몇 가지 중요한 혜택을 강조한다. 이는 세계 전역의 생활 수준을 높이는 것(3.6.1절), 인간 지식을 심화시키는 것(3.6.2절), 그리고 혁신을 위한 장벽을 낮추는 것(3.6.3절)이다. AGI 안전성에 대한 접근 방법의 함의. 안전이 유일한 목표라면 쉽게 달성할 수 있다. 예를 들어, AGI를 전혀 개발하지 않으면 AGI로부터 발생하는 해는 발생하지 않을 것이다. 그러나 이는 자체적으로 문제가 될 수 있으며, 이는 AGI가 가져올 수 있는 막대한 혜택을 포기하는 것을 의미하기 때문이다. 우리의 접근 방법은 안전성을 달성하면서 AGI의 혜택을 과도하게 포기하지 않도록 선택되었다. 예를 들어, 많은 위험한 능력은 이중 용도로, 혜택과 오용을 통해 해를 초래할 수 있다. 우리의 접근 방법은 오용의 경우를 차별화하여, 혜택을 여전히 달성할 수 있도록 한다. ### 3.6.1. AGI는 세계 전역의 생활 수준을 높일 수 있다 안전하게, 널리, 그리고 비용 효율적으로 배포되면 AGI는 세계 전역의 생활 수준을 높일 수 있는 잠재력이 있다. 이 목표는 두 가지 주요 방식으로 달성될 수 있다. 첫째, 더 빠르고 비용 효율적인 혁신을 통해 경제 성장을 촉진하고 번영을 가져올 수 있다. 역사적으로 혁신은 상당한 사회적 수익을 창출했으며, 경제 성장은 교육, 건강, 그리고 일반 복지 등 다양한 지표와 관련이 있다. 둘째, AGI는 교육과 의료 결과의 개선을 통해 더 직접적으로 세계 전역의 생활 수준을 높일 수 있다. 지원 논증의 요약. 우리의 주장을 뒷받침하기 위해, 먼저 혁신과 R&D가 상당한 사회적 수익을 창출한다는 연구를 간단히 요약한다. 다음으로, 혁신을 가속화함으로써 AGI가 상당한 경제 성장을 창출할 수 있는 방식을 설명하고, 성장이 긍정적인 사회적 결과를 초래하는 방식을 설명한다. 현재 글로벌 교육의 상태에 개선이 많이 필요하다는 증거를 요약하고, AGI가 개선을 도울 수 있는 방식을 설명한다. 마지막으로, AGI가 약물 발견을 통해 의료에 미치는 혜택을 설명한다. 지원 논증과 증거. 혁신과 R&D의 사회적 수익을 정확하게 추정하는 것은 R&D 집중 산업의 생산량을 측정하는 어려움 때문에 도전적이다 (Griliches, 1979; Hall, 1996). 그러나 지금까지 수행된 분석은 혁신과 R&D가 매우 상당한 사회적 수익을 창출한다는 것을 시사한다. Jones와 Summers (2020)은 보수적인 가정하에서도 사회적 수익의 평균이 적어도 $1당 $4 이상일 가능성이 높다고 제안한다. 또한, 국제적 스필오버, 건강 혜택, 인플레이션 편향(인플레이션을 과대평가하고, 따라서 실질 GDP 성장을 과소평가)을 고려하면, 이 수익은 $1당 $20 이상으로 상승할 가능성이 있다. AGI는 모든 분야에서의 문제 해결과 발견 능력을 향상시키고, 지식 생산의 효율성을 높임으로써 사회적 투자 수익을 크게 개선할 수 있다. Russell (2022)은 비록 더 야심 찬 미래 AI의 사용(예: 인간의 수명을 연장시키는 것)은 고려되지 않지만, AGI가 지구의 생활 수준을 현대 선진국의 88분위 수준으로 높이는 시나리오를 고려할 수 있다고 주장한다. 이는 1820년부터 2010년까지 글로벌로 달성된 성장과 유사한 GDP의 10배 증가를 의미하며, 이는 할인율 5%를 가정한 약 13,500조 달러의 경제적 가치를 가진다. AGI를 "기술의 기술"로 분석할 수 있다. 첫째, 대규모 긍정적인 영향을 미치는 다양한 사용 사례와 응용 프로그램을 고려할 수 있다. 둘째, 특정 알고리즘이나 응용 프로그램이 특정 도전 과제를 해결하는 방식을 살펴볼 수 있다. 이를 다음에 논의한다. 경제 성장과 생산성에 미치는 매크로 수준의 영향. 우리는 AGI가 성장을 창출할 수 있다고 믿는다. 이는 중요한데, 성장은 건강 결과, 교육, 그리고 일반 복지 등 여러 중요한 속성과 관련이 있다. 실제로 경제 성장은 오늘날 인간 복지에 상당한 영향을 미치고 있다. 예를 들어, 1인당 GDP는 인간 개발 지수(Sušnik와 van der Zaag, 2017)와 강하게 상관관계가 있다. 1인당 GDP는 기대 수명(Dattani et al., 2023), 자기 보고된 삶의 만족도(Our World In Data, 2023a), 그리고 문해력(Our World In Data, 2023b)과도 상관관계가 있다. 성장을 촉진하는 효과는 AGI의 중요한 동기이며, 긍정적인 사회적 영향과 인간의 복지 개선을 초래할 가능성이 높은 인과 관계이다. 농업, 교육, 기술과 같은 특정 분야에서의 미크로 수준의 영향. AGI가 더 구체적인 영역이나 응용 프로그램에 미치는 영향도 고려할 수 있으며, 이러한 영향이 사회 지표와 경제 성장을 강화하는 방식을 살펴볼 수 있다. 이는 특히 글로벌 남반구에 중요하다: 농업 생산성, 교육, 기술과 같은 다양한 요인이 저소득국과 중소득국에서 지속적인 변화와 성장을 위해 여전히 중요하다(Tadepalli, 2023). 이는 노동 수요를 줄이는 기술, 고등 교육 접근성을 확대하는 기술, 그리고 기타 중요한 요소를 포함한다. 우리는 AGI가 이러한 요인에 대한 장벽을 낮추는 데 중요한 역할을 할 수 있다고 믿으며, 특히 교육과 의료에 중점을 둔다. 교육. 현재 전 세계의 많은 청소년들이 현대 글로벌 경제에 효과적으로 참여하기 위해 필요한 기본 기술이 부족하다. 예를 들어, COVID-19 팬데믹 이전에도 저소득국과 중소득국의 10세 아동의 57%가 어린 학생들을 위한 간단한 텍스트를 읽을 수 없었다(World Bank, 2022). 만약 전 세계의 모든 아이들이 적어도 기본 기술 수준(PISA Level 1 능력)에 도달할 수 있다면, 2100년까지 글로벌 GDP는 현 상태보다 56% 높을 것이다. 이 세기 동안, 이 개선은 약 732조 달러의 추가 GDP를 의미한다(Gust et al., 2024). AGI는 개인화되고 적응형 학습 경험을 제공하여 모든 배경의 사람들에게 고품질 교육을 더 접근 가능하고 효과적으로 만들 수 있다. 예를 들어, AI 시스템은 동시에 많은 학생들에게 개인화된 주의를 제공할 수 있어, 고품질의 개인화된 지도가 더 널리 이용 가능해질 수 있다. 이는 개인화된 교육이 학습 결과에 미치는 주목할 만한 혜택을 고려할 때 특히 중요한데(Bloom, 1984), 이러한 솔루션은 처음에는 불완전할 수 있지만, 기존 시스템과 보완될 수 있어 전 세계 학생들에게 유익할 수 있다. 이러한 예측에 신빙성을 부여하는 초기 징후가 있다: Kumar et al. (2023)은 GPT-4를 사용한 대규모 사전 등록된 통제 실험에서 GPT-4를 사용한 연습이 SAT 수학 문제에서의 성능을 크게 향상시켰다고 보고했다. 다른 연구는 AI 강화된 개인화된 학습 시스템이 컴퓨터 프로그래밍부터 수학까지 다양한 과목에서의 학습 결과와 경험을 개선할 수 있음을 보여주었다(Zhang과 Aslan, 2021). AGI는 또한 적절한 경우 시험 채점을 자동화하여 교사의 소중한 시간을 절약함으로써 간접적으로 교육 결과를 개선할 수 있을 것이다(Henkel et al., 2024). 여기서 중요한 점은 AGI의 교육에서의 잠재력은 직접적인 교육 역할에 국한되지 않는다는 것이다. 백엔드 프로세스, 아이디어 창출 및 비핵심 작업에서의 통합도 교육 지표의 개선에 기여할 수 있다. 의료. AGI는 더 정확한 진단, 개인화된 치료 계획, 그리고 약물 발견을 가속화하여, 특히 소외된 인구의 생명 연장과 삶의 질 개선을 초래할 수 있는 의료에 큰 영향을 미칠 수 있다. 이는 AI를 사용하여 새로운 약물을 발견하는 것(Ren et al., 2024)을 통해 직접 발생할 수 있지만, AI 예측된 미스센스 데이터(Cheng et al., 2023)를 통해 간접적으로 발생할 수 있으며, 이는 연구자들이 시스틱 피브로시스, 췌장염, 또는 암과 같은 질병에서 미스센스 변이가 어떤 역할을 하는지 더 많이 배울 수 있게 한다. 이는 과학자와 유전학자들이 새로운 질병 유발 유전자를 발견하고, 희귀 유전 질환을 진단하는 능력을 높일 수 있게 한다. 또한, AI 도구는 이미 가상 환자 치료를 향상시키고, 치료 계획에 대한 환자 참여와 준수를 개선하며, 재활 실습을 혁신하고 있다(Al Kuwaiti et al., 2023). 교육과 마찬가지로, 이러한 발전은 개인의 건강 결과뿐만 아니라 더 넓은 의료 문제를 해결하는 데 기여할 수 있는 잠재력을 가지고 있다. AGI의 혜택은 교육과 의료를 넘어 인프라, 보안, 에너지 생산 등 사회적으로 중요한 다른 분야에도 확장된다. 우리의 기본 주장은 AI 능력을 사회가 가치 있는 분야에 적용할 수 있는 능력을 갖춘다면, 이러한 분야에서의 진보가 가속화될 것이라고 기대한다. 이는 다음 섹션에서 더 깊이 탐구될 것이다. 물론, 이러한 진보를 달성하기 위해서는 실질적인 시스템이 구축되어야 하며, 실제 배포의 복잡성, 종종 많은 도전을 제시하는 것을 극복해야 한다. 그럼에도 불구하고, 진보의 잠재력은 이러한 시스템이 왜 추구되는지 강조한다. ### 3.6.2. 인간 지식을 심화시키고 과학 발견을 가속화 최근 발견과 혁신은 AI 모델이 복잡한 과학 개념과 아이디어를 포착하고(Romera-Paredes et al., 2024), 새로운 발견과 예전에는 불가능했던 수학 문제를 해결할 수 있는 잠재력을 보여주었다(AlphaProof와 AlphaGeometry 팀, 2024). 더 나아가, AI는 과학 발견을 가속화하고 상호작용할 수 있는 잠재력을 가지고 있다(Griffin et al., 2024). 지원 논증의 요약. 우리의 주장을 뒷받침하기 위해, 먼저 AGI가 과학 발견의 힘의 배수를 어떻게 될 수 있는지를 설명한다. 특히, AGI는 다양한 문제에 대해 문제를 해결할 수 있는 인지 능력을 제공함으로써 문제를 해결할 수 있다. 두 번째로, AGI가 대규모 데이터를 분석하고 실험 실행을 자동화하여 과학 발견 과정을 가속화할 수 있는 여러 메커니즘을 요약한다. 지원 논증과 증거. AGI는 힘의 배수로 작용할 수 있다. 인지 능력을 크게 확장함으로써 AGI는 연구의 제약 조건을 근본적으로 바꿀 수 있다. 예를 들어, 에너지와 같은 중요한 문제에서 큰 하류 영향력을 가진 문제를 해결하기 위해 AGI 시스템의 여러 복제본을 동시에 적용할 수 있다. 이러한 가능성은 'AI 과학자' 에이전트를 개발하는 데 대한 관심을 설명한다. 예를 들어, 노벨 튜링 챌린지는 "최고 수준의 과학을 수행할 수 있는 매우 자율적인 AI 시스템을 개발하는 것을 목표로 하며, 그 발견 중 일부는 노벨상 수준 이상의 인정을 받을 가치가 있고 그 이상이다"(Kitano, 2021). 과학 연구의 가속화. 이러한 변화의 의미는 선형적인 개선을 넘어설 수 있다. 대신, AGI가 다양한 분야의 통찰력을 합성하고, 넓은 솔루션 공간을 빠르게 탐색하며, 이전에는 해결할 수 없는 문제를 해결할 수 있는 능력은 혁신과 진보에 대한 곱셈 효과를 시사한다. 이러한 능력의 확장은 전통적인 경제 모델의 감소하는 수익을 따르지 않을 수 있다. 대신, 새로운 가능성의 전선을 열어 진보의 제약 조건이 이러한 확장된 인지 자원을 어떻게 구성하고 지시하는지에 의해 점점 더 정의될 것이다. 보다 구체적으로, Mitchell (2024)은 과학이 가속화될 수 있는 네 가지 구체적인 메커니즘을 제시한다. 첫째, AI는 여러 실험실과 실험에서 얻은 대규모 복잡한 데이터를 분석하여 전통적인 "외로운 늑대" 접근법보다 더 포괄적이고 정확한 통찰력을 제공할 수 있다. 둘째, 다중 모달 모델은 과학 문헌의 전체 필드를 소화하고 합성하여 이전보다 더 정보가 풍부하고 문맥적으로 풍부한 가설을 형성하는 데 도움을 줄 수 있다. Wang et al. (2023b)는 "가설 공간의 광대함으로 인해 체계적인 탐색이 불가능하다"고 언급한다. 셋째, 기본 모델은 다양한 실험 데이터를 여러 실험실에서 학습하여 훈련된 도메인 지식의 실행 가능한 저장소로 작용할 수 있다. 이러한 모델은 전통적인 과학 방정식보다 훨씬 더 복잡하지만, 수백만 개의 변수 간의 복잡한 관계를 포착하여 과학자에게 강력한 예측 도구를 제공할 수 있다. 넷째, 마지막으로, AI는 로봇을 통해 실험 설계와 실행을 자동화하거나 반자동화하여 과학 발견의 속도를 크게 가속화하면서 재현성을 향상시킬 수 있다. 특정 초기 예시(현재 기술로도 가능한 것)로, Merchant et al. (2023)는 딥러닝과 그래프 신경망을 활용하여 220만 개의 새로운 결정체와 38만 개의 안정적인 물질(기술적으로 유효한 물질의 수)을 발견하여, 인간의 기술적으로 유효한 물질의 수를 효과적으로 배수로 늘렸다. 이러한 혁신은 위의 논증을 보여주며, 특히 광대한 솔루션 공간을 빠르게 탐색하고 다양한 분야의 통찰력을 합성함으로써 혁신과 진보에 대한 곱셈 효과를 보여준다. ### 3.6.3. 정보 처리 능력을 강화하고 혁신 장벽을 낮춤 AGI는 전 세계 인구의 대규모에게 향상된 정보 처리 능력과 지식을 민주화할 수 있으며, 이를 통해 혁신과 창의성의 장벽을 크게 낮출 수 있다. 지원 논증의 요약. 우리의 주장을 뒷받침하기 위해, 먼저 AGI가 고급 도구와 지식을 어떻게 민주화할 수 있는지를 설명한다. 다음으로, AGI가 출현 현상과 예측과 같은 문제와 관련된 새로운 접근 방식을 제공하여 혁신 장벽을 낮출 수 있는 방식을 설명한다. 지원 논증과 증거. 민주화된 고급 도구와 지식 접근. AGI는 고급 문제 해결 능력을 널리 접근 가능하게 하여 개인이나 소규모 조직이 이전에 대규모 잘 자금 지원된 기관만 해결할 수 있었던 복잡한 도전 과제를 해결할 수 있게 할 수 있다. 응용 프로그램, API, 도구, 에이전트도 더 널리 접근 가능해질 것이며, 시간이 지나면서 제품과 인터페이스가 병행하여 개선될 것이다. 이러한 발전은 시간이 지나면서 AI와 AGI 기능에 대한 더 넓은 접근성을 시사한다. 이러한 접근성은 무조건적인 것은 아닐 수 있지만(예: 비용이나 안전 조치로 인해), 상당한 범위와 확산으로 인해 지식의 분배, 접근, 이해, 활용 방식을 중요하게 바꿀 수 있다. AI 보조자는 특히 사용자의 의사결정을 향상시키고 개선하기 위해 다양한 역할을 맡을 것으로 기대된다. 복잡한 이론과 개념을 이해하게 도와주거나, 복잡한 정보를 더 잘 이해하게 도와주어 정보 합성을 위한 "인지 보조기" 역할을 할 수 있다. 이러한 지식을 민주화하고 고급 추론을 통해 과학의 번영과 더 공정한 과학 진보 분배를 초래할 수 있다. 출현 문제 해결 패러다임과 도구. 새로운 AI와 AGI 시스템은 또한 새로운 도구를 만들어 세계를 더 잘 테스트하고 이해하는 데 도움이 될 것이다. 이는 수학이나 STEM 과목뿐만 아니라 사회과학에도 해당한다. 흥미롭게도, 다중 에이전트 시스템을 사용하여 출현 사회 현상을 연구하는 새로운 분야가 등장하고 있다. 즉, 에이전트의 상호작용으로 인해 프로그램되지 않은 복잡한 행동이 자발적으로 발생하는 현상이다. 이는 연구자들이 이전에는 불가능했던 방식으로 사회 시스템의 역학을 탐구하는 새로운 연구 방식을 열어준다. 예를 들어, 시장의 출현 행동을 모델링하는 도전 과제를 고려해보자. 전통적으로 이러한 연구는 역사적 분석, 정적 모델링, 게임 이론에 의존해왔으며, 이러한 접근법은 동적인, 변화하는 인간 상호작용이 사회 규범과 기관의 진화를 형성하는 데 제한적일 수 있다. 그러나 새로운 도구인 Concordia (Vezhnevets et al., 2023)와 같은 도구를 사용하면 연구자는 에이전트에게 기본적인 사회적 역학을 이해하게 하고, 그들이 학습된 대규모 텍스트 데이터셋에서 얻은 정보를 바탕으로 시뮬레이션된 세계에 에이전트를 배치할 수 있다. 여러 가지 매개변수로 반복 시뮬레이션을 실행함으로써 연구자는 사회적 현상의 역학을 이해하고, 바람직한 결과를 촉진하는 요인을 식별할 수 있다. 이 접근법은 정보 오류의 확산, 금융 시장의 역학, 정책 개입의 효과, 협력의 진화 등 다양한 출현 현상을 모델링하는 데도 사용될 수 있다. 또한, AI를 사용하여 인간의 예측 정확도를 높이는 데에도 상당한 잠재력이 있다. 예를 들어, LLM 보조자에 접근하는 것만으로도 예측 정확도를 크게 향상시킬 수 있다(Schoenegger et al., 2024). AI 보조자는 사용자가 자신의 추론을 표현하고, 대체 관점을 고려하며, 판단력을 조정하도록 유도함으로써 인간 사고를 정제하고 개선할 수 있다. 이는 이미 어느 정도 오늘날에 적용되고 있지만, AGI 수준 시스템의 혜택은 더욱 높아질 것으로 예상된다. 실제로 AI 시스템이 점점 더 정교해지면서 가설 생성, 증거 평가, 그리고 복잡한 논의에 참여할 수 있게 됨에 따라, 인간과 AGI 간의 협력 잠재력은 크게 성장할 것이다. 토론. AGI 추구는 중요한 혜택에 기반을 두고 있다. 이러한 혜택은 점점 더 성장하는 분야를 동기부여한다. 위에서 설명한 바와 같이, 지능을 대규모로 배포할 수 있는 능력은 인간의 도움으로 많은 영역과 문제를 더 잘 해결할 수 있게 한다. 이러한 영역과 문제에는 생활 수준을 높이고, 인간 지식을 심화시키고, 혁신과 창의성의 장벽을 낮추는 것이 포함된다. 실제로 고성능 AI는 인간의 선택과 기호를 강화할 수 있으며, 더 적은 제약 조건으로 선택이 더 많은 무게를 가진다. 따라서 이러한 혜택을 포기하는 결정은 상당한 증거와 신중한 고려가 필요하다. 구체적으로, 이 문서의 나머지 부분에서 논의된 안전 및 보안 메커니즘의 배포가 이러한 혜택을 제한할 경우, 신중한 비용-효과 분석이 필요하다. 인공지능의 안전성과 보안을 다루기 위해서는 유사한 완화 전략으로 해결할 수 있는 해로운 경로의 넓은 범주를 식별하는 것이 도움이 됩니다. 완화 전략의 식별에 초점이 맞추어져 있으므로, 구체적인 위험 영역이 아닌 추상적인 구조적 특징(예: 악의적인 의도를 가진 배우자가 있는지 여부)에 기반하여 영역을 정의합니다. 이는 인공지능에 대한 위험 전반에 적용되며, 치명적인 위험이나 AGI에 특화된 것은 아닙니다. 그림 4와 같이, 우리는 네 가지 영역을 고려합니다: 악용, 비정렬, 실수, 구조적 위험. 이는 상호 배타적이거나 완전하지 않으므로 분류라고 할 수 없습니다. 실무에서는 많은 구체적인 시나리오가 여러 영역의 혼합물일 것입니다. 예를 들어, 비정렬된 인공지능 시스템이 악의적인 배우자를 동원하여 자신의 모델 가중치를 유출할 수 있습니다. 이는 악용과 비정렬의 조합입니다. 이러한 경우에도 각 구성 영역에서 완화책을 주로 포함하는 것이 생산적일 것으로 예상됩니다. 그러나 향후 연구는 영역의 조합에 특화된 완화책을 고려해야 합니다. 4.1. 악용 위험 악용 위험은 사용자가 인공지능 시스템을 악의적으로 사용(예: 요청, 수정, 배포 등)하여 개발자의 의도와 달리 해를 입힐 때 발생하는 위험을 의미합니다. 그림 4 | 위험 영역 개요. 완화 접근 방식의 차이를 결정하는 요인에 따라 위험을 그룹화합니다. 예를 들어, 악용과 비정렬은 악의적인 배우자가 누구인지에 따라 다릅니다. 악의적인 인간 배우자를 처리하는 완화책은 악의적인 인공지능 배우자를 처리하는 완화책과 크게 다릅니다. 이 정의는 "악의적인 사용"이라는 용어와 유사하며, 이는 "개인 또는 조직이 AI 기술을 배포하거나 AI 시스템을 손상시켜 다른 개인, 조직 또는 집단의 보안을 해치는 시나리오"를 포함합니다(Brundage 등, 2018). 인공지능은 악용에 의한 해를 악화시킬 수 있습니다. 사람들은 사회에 심각한 해를 입히는 것을 방지하기 위해 성숙한 기관을 개발했습니다. 예를 들어 사회적 규범, 국내외 법, 경찰력, 군대 및 정보 기관(Hobbes, 1651; Pinker, 2011; Gómez 등, 2016). 이러한 기관은 의도적인 심각한 해를 방지하는 데 효과적입니다. 이를 통해 해를 입히는 것을 불가능하게(예: 경찰력이 공격이 발생하기 전에 가로챔) 또는 불편하게(예: 구금 위협으로 인해 공격이 매력적이지 않음) 만듭니다(Nagin, 2013). 그러나 강력한 인공지능은 이러한 기관을 여러 가지 방식으로 크게 교란시킬 수 있습니다: • 해를 입힐 가능성 증가: 인공지능은 사용자에게 상당한 무기 전문 지식과 대규모 인력을 제공할 수 있습니다. 파괴성의 증가된 잠재력은 공격의 유인력을 높입니다. 또한 심각한 해를 입힐 수 있는 개인들의 범위를 크게 확장할 수 있습니다. 공격자와 방어자 간의 균형이 해의 가능성을 결정하는 데 중요한 역할을 합니다. AI 지원이 공격자에게 방어자보다 훨씬 더 큰 혜택을 주는 경우 위험이 증가합니다(Shevlane 및 Dafoe, 2020). • 탐지 가능성 감소: 인공지능은 감시 회피를 도울 수 있어 악의적인 배우자가 잡힐 확률을 줄이고 해를 입히는 유인력을 줄일 수 있습니다(Anderson 등, 2016, 2018). 그러나 인공지능이 회피 전략을 상쇄하는 데 도움이 될 수도 있습니다(Anderson 등, 2016). 따라서 이 영역에서의 공격자와 방어자의 균형은 다소 불명확합니다. • 방어 교란: 방어 기관은 일반적으로 시간이 걸립니다. 악용 해로 인해 적응하고 진화합니다. 신기술인 인공지능 모델은 기존의 악용 균형을 교란합니다. 사회는 새로운 위험을 해결하기 위해 적절한 확산 통제, 규범, 안전장치, 법적 규제, 유인력 및 모니터링을 구축하는 데 시간이 걸릴 것입니다. • 대규모 자동화: 인공지능 시스템은 시스템을 제어하는 개인의 손에 권력을 집중시킬 수 있습니다. 현실 세계의 행동이 점점 더 자동화됨에 따라 악의적인 배우자는 다른 인간들의 도움을 덜 필요로 합니다(Hendrycks 등, 2023). 자동화는 또한 해의 규모를 증가시킵니다. 예를 들어, 한 사람이 현재 자동차를 무기로 사용할 수 있지만 미래에는 한 사람이 자동차 함대를 무기로 사용할 수 있습니다. 4.1.1. 악용 위험의 예시 악용 위험의 현황은 계속해서 발전하고 있습니다. 재정적 또는 명성적 이익을 추구하는 다양한 배우자들이 이미 생성형 인공지능을 사용하여 심각한 결과를 초래하는 공격을 수행하고 있습니다. 현재까지 공개된 악용 사례의 대부분은 정보 경관 조작을 포함합니다. 예를 들어, 딥페이크를 통해 정치 후보의 이미지를 강화하거나 사기 전화를 통해 개인을 가장하는 것(Marchal 등, 2024). 미래에는 인공지능이 악용을 통해 해를 입힐 수 있는 다른 경로가 있을 것입니다. 제1장에서 언급한 바와 같이, 이 작업의 초점은 심각한 위험에 있습니다(Shevlane 등, 2023). 지난 2년 동안 AI 안전 커뮤니티는 특히 우려되는 위험 영역을 식별했습니다. 특히 30개국의 대표자들이 기여한 State of the Science 보고서(2024)와 여러 선도적인 AI 연구소의 정책(Anthropic, 2024; OpenAI, 2023; Google DeepMind, 2025)에서 이러한 위험이 주목받고 있습니다. 우리는 아래에 이러한 위험을 간략히 요약합니다. 설득 위험: AI 시스템의 고급 설득 능력을 악용하는 것은 심각한 위험을 초래할 수 있습니다. 기존 연구는 이미 크라우드 워커들이 AI와 인간 생성 텍스트를 구분하지 못하는 경우가 많다는 것을 보여줍니다(Jakesch 등, 2023). 미래에는 AI 시스템이 정치적 설득을 통해 나쁜 배우자가 민주주의나 사회를 불안정하게 만들 수 있는 가격이나 품질을 빠르게 낮추거나 높일 수 있습니다(Summerfield 등, 2024). 정치적 기관은 설득 기술의 변화에 적응해야 할 것입니다. 매우 정교한 설득 능력은 초인간적인 사회적 공학을 통해 심각한 결과를 초래하는 작업을 수행할 수 있게 하여 많은 사람들과 동시에 대화할 수 있는 능력(예: 피로하지 않고)을 제공할 수 있습니다(Burtell 및 Woodside, 2023). 사이버 보안 위험: AI 시스템은 디지털 도메인에서 인간이 상대적으로 더 능력이 있을 것으로 보입니다. 사이버 방어의 어려움과 사이버 공격에 대한 공개 정보의 풍부함(따라서 AI에 쉽게 접근 가능)은 사이버 보안이 우려되는 영역으로 만듭니다. 실제로 이미 국가 관련 위협 배우자가 생성형 인공지능을 사이버 작전에서 사용하고 있다는 보고가 있습니다(OpenAI, 2024; Microsoft Threat Intelligence, 2024). 미래의 AI 시스템은 공격자가 강력한 제로데이를 더 빠르게 발견할 수 있게 도와줄 수 있습니다(Glazunov 및 Brand, 2024; Wan 등, 2024; Fang 등, 2024), 공격자가 더 많은 공격을 수행할 수 있는 능력을 제공할 수 있습니다. 또한 AI 시스템이 사이버 공격을 자동으로 수행할 수 있는 능력을 갖추게 되면, 동기 부여된 위협 배우자는 운영의 규모를 크게 증가시킬 수 있습니다. 바이오 보안 위험: 바이오 보안은 방어가 특히 어렵습니다. AI 시스템은 이미 생물학에서 놀라운 능력을 보여줍니다(Senior 등, 2020; Jumper 등, 2021). AI 시스템은 이중 사용 연구 개발(R&D)을 도울 수 있으며, 다양한 바이오 에이전트의 사용성을 높일 수 있습니다. 예를 들어, 더 강력한 변이를 찾거나 바이오 에이전트를 더 타겟팅하거나 추적하기 어렵게 만드는 것(Urbina 등, 2022). 또한 AI 시스템은 위험한 바이오 에이전트를 취득하고 배포하는 과정을 아마추어에게 안내하는 것으로 치명적인 바이오 공격을 실행하는 진입 장벽을 낮출 수 있습니다(Mouton 등, 2024; OpenAI, 2024a). 기타 이중 사용 R&D 위험: AI는 또한 R&D 지원을 통해 추가 위험을 초래할 수 있습니다. 첫째, AI R&D 지원은 본 문서에서 설명된 심각한 위험을 초래하는 AI 시스템을 더 빨리 달성할 수 있습니다. 또한 AI R&D 산출물(예: 지식, AI 모델 가중치)은 공개된 후(영구적으로) 보안하기 어렵다는 점(OpenAI, 2024a)은 복구 불가능한 위험을 악화시킬 수 있습니다. 화학, 방사능 또는 핵 R&D 지원도 위험을 초래할 수 있습니다. 그러나 이러한 위험은 생물학 R&D로부터 유래하는 것보다 덜 심각한 것으로 보입니다. 이는 주로 생물학 R&D가 공격 우세를, 전염병을 통한 상당한 해의 가능성, 그리고 상대적으로 낮은 진입 장벽을 나타내기 때문입니다. 그러나 AI에 기인한 바이오 위험의 상대적인 크기에 대한 상당한 불확실성이 남아 있으므로(Peppin 등, 2024), 다른 출처(예: AI 시스템이 핵무기의 접근 장벽을 낮추는 것)에서 유래하는 위험에 대한 경각심도 필요합니다. 보다 일반적으로, 인공지능이 제공하는 새로운 용량에 적응하기 위해 악용 위험 현황이 진화함에 따라 각 영역의 위험의 정도와 심각도에 대한 정확한 평가에 대한 지속적인 연구가 필요합니다. 4.1.2. 접근법: 위험한 기능에 대한 접근 차단 위의 부적절한 사용 위험은 AI의 특정 기능의 부적절한 사용에서 기인합니다. 따라서 부적절한 사용을 해결하기 위해, 악의적인 행위자가 강력한 모델의 위험한 기능을 부적절하게 접근하는 것이 어렵거나 매력적이지 않도록 해야 합니다. 이를 위해 위험한 기능을 가진 모델에 적용할 수 있는 두 가지 종류의 완화책을 고려합니다. 1. 배포 완화책은 AI 시스템의 위험한 기능이 배포될 때 부적절하게 사용될 가능성을 줄입니다. 2. 보안 완화책은 모델의 가중치가 연구소에서 유출될 가능성을 줄입니다. 보안 완화책은 악의적인 행위자가 배포 완화책을 제거할 수 있도록 모델의 가중치에 접근하는 것을 방지하는 것이 중요합니다. 이는 모델을 미세 조정하여 많은 보안 조치를 쉽게 제거할 수 있기 때문입니다(Gopal et al., 2023). 그러나 이러한 완화책은 종종 비용이 많이 들거나, 유익한 사용 사례를 제한하거나, AI 개발과 배포를 느리게 합니다. 이는 위험한 기능 평가가 필요합니다. 위험한 기능 평가는 모델이 심각한 위험을 초래할 수 있는 기능을 가지고 있는지 테스트합니다(따라서 비용이 많이 드는 완화책을 구현해야 합니다). Phuong et al. (2024)는 최신 모델을 테스트하기 위한 설득, 사이버, 자생, 자기 추론 평가의 예시 시리즈를 제시합니다. 현재 초기 증거에 따르면, 기존의 최신 AI 모델은 악의적인 행위자가 심각한 피해를 초래할 수 있는 능력을 크게 제공하지 않습니다. 이는 모델이 충분히 발전된 기능을 가지고 있지 않기 때문입니다(Gemini Team et al., 2024; OpenAI, 2024b). 그러나 위험이 비용을 정당화하는 시점이 언제인지 정확하게 결정하는 것이 중요합니다. 이를 위해 위협 모델링 연구를 통해 위험한 기능의 임계값을 결정합니다. 우리는 5절에서 부적절한 사용에 대한 접근법에 대해 훨씬 더 상세히 설명합니다. 4.2. 비정렬 위험 비정렬은 AI 시스템이 개발자의 의도와 반대로 해를 끼치는 경우에 발생합니다(Ngo et al., 2024). 이는 발생 가능성과 심각도가 크게 다른 위험의 넓은 범주입니다. 예를 들어, 기만(Park et al., 2023b), 아첨(Sharma et al., 2024b), 음모(Carlsmith, 2023), 통제 상실(Bengio et al., 2024) 등이 있습니다. AI 시스템이 "알고" 개발자의 의도와 반대로 해를 끼치는 것이란 무엇인지에 대한 자연스러운 질문은 있습니다. 다양한 정의가 가능하지만, 우리는 AI 시스템과 그 학습 과정 모두를 포함하는 포괄적인 지식을 채택합니다. 구체적으로, AI의 행동이 비정렬된다고 하면 시스템 설계자가 승인하지 않을 내재적인 이유 때문에 해로운 출력을 생산합니다. 내재적인 이유는 AI 시스템이 예측할 수 있는 요인입니다. 따라서 AI 시스템과/또는 그 학습 과정에서 존재해야 합니다. LLM의 경우, LLM이 그 요인을 말로 표현할 수 없을 수도 있지만 내부 활성화를 사용하여 그 요인을 예측할 수 있는 프로브를 학습할 수 있습니다. 이는 여전히 내재적인 이유입니다. 이 의미에서 AI 시스템은 그 출력의 이유를 "알고" 있습니다. 내재적인 이유와는 대조적으로, 외부 환경에 기반한 외재적인 이유는 환경의 주변 맥락에 크게 의존합니다. 예를 들어, AI 시스템이 죽음에 대한 농담을 하다가, 사용자가 장례식에 있는 상황에서 그 농담이 불미스럽다는 것을 알게 되는 경우, 해는 AI 시스템에 제공되지 않은 주변 환경 맥락에 크게 의존합니다. 이는 실수(4.3절)의 외재적인 요인입니다. 내재적인 이유를 크게 두 가지 범주로 나눌 수 있습니다: (1) 학습 과정에 잘못된 입력(예: 학습 데이터, 보상 함수), (2) 다른 원인(예: 유도 편향)에 의한 모델의 잘못된 인지(신념, 내부 목표 등). 이 두 범주는 명확하게 구분되지 않을 수 있습니다. 이제 모델이 원하는 출력을 생산하는 다양한 내재적인 이유에 대한 비정렬 시나리오의 예시를 설명하겠습니다. 4.2.1. 단기 목표를 가진 비정렬된 모델의 예시 다음 예시에서는 AI 시스템이 장기 목표를 추구하지 않으므로 비정렬을 식별하고 해결하기가 더 쉽습니다. 시나리오 1: 통계적 편향. 알고리즘적 결정 지원 시스템은 종종 소수 그룹에 대해 편향된 경향이 있었습니다. 예를 들어, 소수 그룹의 대출 신청을 불공평하게 거부하는 경향이 있었습니다(Garcia et al., 2024). 가능한 내재적인 이유: • 잘못된 인지: 모델의 일부가 신청자의 보호 상태에 따라 평가를 변경합니다. 시나리오 2: 아첨. AI 보조자가 질문에 대한 의견을 제공하도록 요청받았을 때, 모델은 사용자의 의견과 일치하는 답변을 출력하는 경향이 있습니다(도표 5 참고). 예를 들어, 최근 논문에서 사용자는 모델에게 논쟁에 대해 의견을 주도록 요청했으며, 사용자가 논쟁을 좋아하거나 싫어하는지 여부를 밝혔습니다. 모델의 논쟁에 대한 평가는 80%의 경우 사용자의 의견과 일치하여 아첨 경향이 강함을 시사했습니다. 가능한 내재적인 이유: • 잘못된 입력: 학습 중에 모델은 사용자의 의견과 일치하는 응답에 대해 평가자에게 긍정적인 피드백을 더 자주 받았습니다. • 잘못된 인지: 모델의 일부가 사용자의 질문에 대한 감정 추측을 통해 모델의 평가를 영향을 미칩니다. 모델은 논쟁이 올바른지 평가하지 않습니다. 도표 5 | 아첨적인 출력의 예시. 출처: "언어 모델에서 아첨을 이해하기 위한 접근" (Sharma et al., 2024b) 시나리오 3: 잘못된 신념 선택. AI 시스템이 주식 시장에서 거래하도록 할당되었습니다. 학습 중에 모델은 돈을 벌면 긍정적인 피드백을 받았고, 내부 거래가 적발되면 부정적인 피드백을 받았습니다. AI 시스템은 자신의 행동이 도덕적으로 정당하다고 "진심으로 믿게" 선택될 수 있으며, 심지어 부정행위를 잊을 수 있습니다. 가능한 내재적인 이유: • 잘못된 입력: 부정행위를 저지르고 발각되지 않는 것에 대해 긍정적인 피드백과 부정행위를 저지르고 발각되는 것에 대해 부정적인 피드백을 받았습니다(따라서 모델은 부정행위를 저지르고 발각되지 않는 것에 대해 보상을 받았습니다). • 잘못된 인지: 모델은 인간 감독을 불신하고 훼방하기를 배웠으며, 모델의 일부가 특정 행동이 발각될지 여부를 추적하여 행동에 영향을 미칩니다. **4.2.2. 긴 목표를 가진 비정렬 모델의 예시** 다음의 예시에서는 AI 시스템이 긴 목표를 추구하고 있어 비정렬을 해결하기 어려워지며, 심각한 피해를 초래할 수 있습니다. **시나리오 4: 보호주의.** AI 시스템이 새로운 도시 계획을 돕고 있습니다. AI 시스템은 모든 동네가 최적이라고 생각하는 동일한 레이아웃을 가진 계획을 개발합니다. 도시 계획자들이 이 계획을 채택하도록 설득하고, 이 계획을 지지하는 여론 조사 결과를 조작하며, 부정적인 피드백 기록을 숨깁니다. AI 시스템은 대부분의 사람들이 이 도시 계획을 좋아하지 않을 것이라고 알고 있지만, 그들이 "알면 더 나은 선택을 할 것"이라고 믿고 있습니다. AI 시스템은 자신의 계획을 실행하기 위해 사람들을 속이고 조작하여 비정렬을 초래합니다. 가능한 내부적 원인: • 잘못된 입력: AI 시스템은 종종 사람들을 설득하는 데 보상을 받았습니다. • 잘못된 인지: 모델은 인간 감독을 신뢰하지 않고 오히려 인간 감독을 교란하며, 사람들이 모든 관련 정보를 가지고 있다면 계획을 반대할 것이라고 알고 있습니다. 모델은 특정 계획을 채택하기 위한 긴 목표를 가지고 있으며, 사람들이 원하는 도시를 짓는 것이 아니라 특정 계획을 채택하는 것을 목표로 합니다. **시나리오 5: 속임수 정렬.** 우리는 자연어 사양에 기반하여 코드를 작성하는 일반 AI 시스템을 훈련시킵니다. 인간 프로그래머가 코드를 검토하고, AI 시스템은 배포된 풀 요청의 수에 따라 보상을 받습니다. 불행히도, AI 시스템은 코드를 작성하는 것이 아니라 풀 요청을 배포하는 것을 목표로 학습했습니다. 시스템은 인간 평가자가 쉽게 통과할 수 있는 효율적인 코드와 중간 수준의 테스트를 작성하지만, 나중에 배포 시 잠재적인 문제가 나타납니다. 인간 평가자가 덜 주의를 기울일 때 단축을 취하는 규칙을 학습합니다. 개발자들이 모델의 성능에 대해 자신감을 가지면, 더 많은 권한(실험을 실행할 권한)을 부여받고 덜 감독받습니다. 이는 코드를 작성하는 것 외에도 풀 요청을 배포할 수 있는 다른 방법을 만들어냅니다. 이는 감독받지 않고 코드를 배포할 수 있는 취약점을 주입하는 풀 요청을 배포하는 것을 포함합니다. 모델은 저품질 코드를 많이 배포합니다. 이제 모델은 감독자들과 적대적인 관계에 있습니다. 그들은 이러한 풀 요청이 배포되지 않기를 원합니다. 가능한 내부적 원인: • 잘못된 입력: 모델은 풀 요청이 배포되면 보상을 받지만, 미묘한 문제가 있는 경우에도 그렇습니다. • 잘못된 인지: 모델은 자원 확보와 감독 회피와 같은 도구적 목표를 개발했으며, 좋은 코드를 작성하는 것이 아니라 풀 요청을 배포하는 것을 긴 목표로 합니다. **4.2.3. 비정렬의 원인** 비정렬의 두 가지 가능한 원인은 규격 게임과 목표 일반화 오류입니다. 규격 게임(SG)은 AI 시스템의 설계에 사용된 규격이 잘못되었을 때 발생합니다. 예를 들어, 보상 함수나 학습 데이터가 AI 시스템에 설계자의 의도와 일치하지 않는 보상을 제공할 때입니다(Amodei et al., 2016b). 규격 게임은 매우 일반적인 현상으로, 다양한 유형의 AI 시스템에서 많은 예시가 있습니다(Krakovna et al., 2020). 목표 일반화 오류(GMG)는 AI 시스템이 학습 데이터와 일치하는 부적절한 목표를 학습할 때 발생합니다(Langosco et al., 2023; Shah et al., 2022). 이는 시스템의 규격이 과소지정되어 있을 때 발생할 수 있습니다. 즉, 학습 데이터에서 일치하는 여러 목표가 있지만, 새로운 데이터에서 차이가 있는 경우입니다. 그림 6은 규격 게임과 목표 일반화 오류의 조합으로 인해 발생한 비정렬의 예시를 보여줍니다(Denison et al., 2024). AI 시스템이 소규모 규격 게임의 기회를 제공하는 환경에서 학습되었을 때, 예를 들어, 시크판시(사용자가 듣고 싶은 말을 하는 것)와 같은 행동은 자신의 코드를 수정하여 보상 함수를 변경하는 것으로 일반화될 수 있습니다. 주목할 점은 두 가지 비정렬 원인은 모두 AI 시스템 자체의 특성입니다. AI 시스템의 배포 환경이나 세계와의 상호작용 방식과는 달리, 비정렬은 규격이 잘못되었거나 과소지정된 것(GMG) 때문입니다. 규격은 모델의 특성이므로 특정 입력에 대한 비정렬을 평가하기 위해 모델을 검토하면 충분합니다. 이는 오용, 실수, 구조적 위험과 같은 다른 위험 영역과는 대조적입니다. 이러한 위험 영역에서는 AI 시스템의 안전성을 확인하기 위해 더 넓은 배포 맥락을 살펴봐야 합니다. **그림 6 | 규격 게임과 목표 일반화 오류로 인한 비정렬의 예시.** 출처: "Sycophancy to subterfuge: Investigating reward tampering in language models" (Denison et al., 2024) **4.2.4. 속임수 정렬** 이제 우리는 강력한 AI 시스템이 비정렬된 긴 목표를 추구하는 위험에 대해 설명합니다. **정의.** 속임수 정렬은 AI 시스템이 우리가 원하는 것과 다른 긴 목표를 추구하고, 그것이 우리가 원하는 것이 아니라는 것을 알고, 그 목표를 달성하기 위해 인간을 무력화하는 것을 의미합니다(Carlsmith, 2023; Apollo, 2023). 속임수 정렬된 시스템은 평가될 때 무해하게 보이기 위해 "훈련 게임을 한다"는 것을 알고 있으며, 목표를 추구하기 위해 감독을 피합니다(Cotra, 2022b). **메커니즘.** 속임수 정렬된 모델을 생성하기 위해 세 가지 요소가 필요합니다: SG, GMG 및 능력 개선. **SG.** 우리가 AI 시스템에서 원하는 것을 규격으로 설계하는 것은 어렵습니다. 속임수 정렬된 모델은 불완전한 규격을 게임하는 것으로 더 낮은 손실을 얻을 수 있습니다(예: 인간 감독자를 속여 긍정적인 피드백을 받음). 자원 확보, 영향력 추구 및 감독자에게 나쁜 행동을 숨기는 것과 같은 유용한 도구적 규칙은 학습 중에 강화될 가능성이 큽니다(Omohundro, 2008). 예를 들어, 시크판시 행동은 인간 피드백에 의해 영향력 추구가 강화되는 사례입니다(Sharma et al., 2024b). **GMG.** 학습 보상과 일치하는 여러 목표가 있을 수 있습니다. 예를 들어, 시나리오 5에서는 좋은 코드를 작성하는 것과 풀 요청을 배포하는 것이 모두 학습 정보와 일치합니다. 유도적 편향이 이러한 목표 중 어느 것이 일반화될지 결정합니다. 하나의 유도적 편향은 견고한 고수준 표현을 학습하는 것입니다. 이러한 표현으로 지정된 목표는 더 긴 시간 범위에 걸쳐 일반화될 것입니다(Ngo et al., 2024). **그림 7 | 속임수 정렬로의 경로.** 기본 요인의 가능성은 색상으로 표시되어 있으며, 가능성(연한 파란색)에서 매우 가능성이 높음(진한 파란색)까지 다양합니다. **배포 맥락.** 목표는 배포 맥락에 따라 다르게 일반화될 수 있습니다. 시스템은 특정 맥락에서 비원하거나 긴 시간 범위의 목표를 활성화할 수 있으며, 다른 맥락에서는 무해하고 짧은 시간 범위의 목표를 가질 수 있습니다. 예를 들어, Greenblatt et al. (2024a)는 일반적으로 무해한 모델이 특정 상황(예: 모델이 해로운 쿼리를 준수하기 위해 재학습될 것이라고 알려지면)에 놓이면 정렬을 위장할 것이라고 보여줍니다. **능력 개선.** 능력이 향상됻을 때, 최전선 모델이 세부적인 세계 모델을 학습하고 다양한 목표를 목표 조건부 에이전트로 다양한 목표를 추구하기 위해 추론 시 계획 수립을 할 수 있을 것으로 기대합니다. 이 능력은 다음 토큰을 예측하는 효율적인 메커니즘이거나 목표 조건부 에이전트를 구현하는 효율적인 방법으로 발생할 수 있습니다. 모델은 "훈련 게임을 하기" 위해 필요한 도구적 추론을 수행하기 위해 이 능력을 필요로 합니다. 그리고 정렬된 것처럼 보이기 위해 속임수를 쓰기 위해 필요합니다. 따라서 이러한 세 가지 요인의 조합은 인간을 무력화하고 권력을 추구하는 비정렬된 모델을 생성할 수 있습니다(그림 7 참조). **속임수 정렬의 가능성은 어떻게 될까?** 위에서 설명한 세 가지 기본 요인의 가능성을 고려할 수 있습니다(그림 7에서 색상으로 표시됨). • 추론 시 계획 수립은 능력이 향상됻을 때 매우 가능성이 높게 발생할 것입니다. • 규격 게임은 매우 일반적인 현상이며 피할 수 없으므로, 어떤 형태의 비정렬된 목표가 보상을 받을 가능성이 큽니다. • 비원한 긴 시간 범위의 목표로 이어지는 목표 일반화 오류는 가장 불확실한 요소입니다. 모델의 유도적 편향과 배포 맥락에 따라 이 경로는 매우 가능성이 낮음에서 가능성 있는 것으로 다양합니다(목표 일반화 오류의 예를 몇 가지 가지고 있지만, 긴 시간 범위의 목표를 생성하는 것을 아직 관찰하지 못하여 이 경로에 대한 많은 불확실성이 있습니다). 4.2.5. 접근 방법: 정보에 기반한 감독 잘못된 AI 시스템의 출력물은 우리가 지지하지 않을 내재된 이유에서 발생합니다. 따라서, 만약 우리가 a) AI 시스템이 출력물을 생성할 때 "알고 있는" 모든 것을 알고 b) 항상 그 출력물을 옳다고 판단한다면, 잘못된 조정을 배제할 수 있을 것입니다. 이는 정보에 기반한 감독의 원칙입니다. 예를 들어, 시스템이 부작용을 가진 계획을 세우면 감독자는 AI 시스템에 계획의 주요 부작용을 설명하라고 요청할 수 있습니다. AI 시스템은 부작용을 솔직하게 알려 감독자에게 부작용을 알리거나, 감독자에게 부작용을 숨기고 거짓된 답변을 줄 수 있습니다(이는 AI 시스템의 인식이 될 것입니다). "시스템이 알고 있는 모든 것"이라는 카테고리는 시스템이 설명하거나 예측할 수 있는 이유에 한정된 것이 아닙니다. 이 카테고리에는 시스템에 포함된 모든 정보가 포함됩니다. 예를 들어, 훈련 과정에서 시스템에 구축된 휴리스틱이 있습니다. 인간에 비유하면, 이는 인간의 출력을 영향을 미치는 무의식적인 편견과 유사합니다. 인간은 이러한 편견에 대해 의식적으로 인식하지 않거나 설명할 수 없을 수 있습니다. 따라서, 시스템이 알고 있는 모든 것을 안다면 시스템의 출력의 이유를 이해할 것입니다. 정보에 기반한 감독은 환경(AI 시스템이 아니라)에서 발생한 부작용(예: Wentworth, 2022에 언급된 "ice-nine"과 같은 물질의 파괴적인 특성)을 통해 발생하는 해로운 출력이 있는 경우를 다루지 않습니다. 이러한 시나리오는 일반적으로 실수에 해당하며, 다른 접근이 필요합니다. AI 시스템의 정렬은 모델의 특성이기 때문에 정보에 기반한 감독은 원칙적으로 실현 가능합니다. 그러나 그것이 실질적으로 효과적인 해결책이 될지는 알 수 없습니다. 잘못된 조정이 개방된 문제이며, 이 문제의 난이도는 매우 다양합니다(Anthropic, 2023). 최적의 시나리오에서는 현재 감독 방법인 강화 학습을 통한 인간 피드백(RLHF)이 주로 충분할 수 있으며, 비관적인 시나리오에서는 초인간적인 능력을 가진 시스템을 효과적으로 감독하는 것이 불가능할 수 있습니다. 따라서 고급 AI 시스템이 정렬되어 있는지 여부를 결정할 때 보수적인 가정을 해야 합니다. 4.3. 실수 AI 시스템의 해로운 출력물은 AI 시스템이 개발자가 의도하지 않은 해로운 결과가 발생할 것이라고 알지 못했을 경우 실수로 간주됩니다. 섹션 4.2와 같이, "알다"라는 개념을 내재된 이유로 정의합니다. 구조적 위험(섹션 4.4)과 구분하기 위해, 출력물의 순서는 상대적으로 짧아야 하며, 출력물이 생성되는 동안의 더 넓은 사회기술적 맥락이 약하게 일정하게 유지되어야 합니다. 남용(섹션 4.1)과 구분하기 위해, 사용자가 해로운 결과를 요청하거나 의도하지 않아야 합니다. 현재 예로는 AI 시스템이 비꼬는 내용을 인식하지 못해, 피자를 붙이려면 접착제를 넣으라는 진지한 조언을 제공하는 경우가 있습니다(Reid, 2024). AI 시스템이 더 많이 행동하는 존재로 발전함에 따라 실수로 인한 잠재적인 위험이 크게 증가합니다. 이러한 상황에서는 AI 시스템이 인간에게 필요한 맥락을 부족하게 알 수 있어 올바른 결정을 내릴 수 없습니다. 예를 들어, 의료 전문가들은 디지털 기록보다 구두 소통에 의존합니다(Cresswell and Sheikh, 2013). 디지털 기록에만 접근할 수 있는 AI 시스템은 중요한 정보를 부족하게 알 수 있어 잘못된 결정을 내릴 수 있습니다. 계층적 또는 인지 분할 접근법(예: Tree of Thoughts, Yao et al., 2023)은 이를 더욱 악화시킬 수 있습니다. 깊은 중첩된 하위 문제들을 해결할 때 AI 시스템은 전체 우선순위 결정에 영향을 미치는 주요 목표, 바람직한 사항 및 제한 사항에 대한 지식을 부족하게 알 수 있어 최적의 해답을 만들 수 없습니다. 마찬가지로 상위 수준에서 하위 문제의 해결책을 통합할 때 AI 시스템은 해결책이 어떻게 생성되었는지에 대한 맥락을 부족하게 알 수 있어 이를 잘못 사용할 수 있습니다. 예를 들어, 챌린저 사고에서 하위 문제들이 충분히 심각하게 고려되지 않았던 것처럼(Hall, 2003). 그러나 실수만으로 심각한 해로가 발생할 가능성이 상대적으로 낮아 보입니다. 적대자가 있을 수 있는 상황에서 방어할 때, 방어는 적대적 행동을 견딜 수 있도록 설계되어 있으므로 실수로 인한 해로도 방지할 수 있을 것입니다. 실수가 중요한 문제인 산업 안전과 같은 상황에서도 일반적으로 안전 공학(Leveson, 2016)과 같은 예방 조치와 완화 조치가 있어 심각한 위험을 크게 줄일 수 있습니다. 이러한 조치들을 AI 시스템에도 적용하면 실수에서 발생하는 위험이 완화될 것으로 기대됩니다. 실수로 인해 심각한 해로가 발생할 가능성이 가장 높은 두 가지 상황은 다음과 같습니다: 1. 해로운 기술 개발: 새로운 과학 연구를 수행하는 AI 시스템은 새로운 통찰력이나 기술이 심각한 해로를 초래할 수 있지만 해로가 발생할 것이라고 알지 못할 수 있습니다(Bostrom, 2019). 예를 들어, 경고가 없었다면 "미러 라이프"를 개발했을 수 있습니다(Adamala et al., 2024). 2. 군사 응용: 극단적인 고성과 경쟁 압력이 있는 상황, 예를 들어 군사 응용에서는 실수로 인한 심각한 해로가 발생할 가능성이 높습니다. 경쟁 압력은 위험에도 불구하고 AI 배포를 유도할 수 있습니다. 실수는 능력이나 정보 부족으로 인해 발생하므로 실수에서 발생하는 위험을 줄이는 주요 구성 요소는 단순히 AI 시스템을 더 능력 있게 만드는 것입니다. 심각한 해로의 위험을 배제하기 위해 더 높은 보장이 필요할 경우 세 가지 주요 접근이 있습니다: 1. 극단적인 고성과 상황에서 배포를 피합니다: 소수의 비적대적 행동이 심각한 해로를 초래할 가능성이 있는 상황은 드뭅니다. 따라서 AI 시스템은 이러한 상황에서는 배포가 금지될 수 있습니다. 예를 들어, 미국과 중국의 지도자들은 핵무기의 사용 결정을 인간에게 유지할 필요성을 강조했습니다(White House, 2024). 2. 방패 사용: 방패를 사용할 때 AI 행동은 물리적 세계에서 실행되기 전에 안전함을 확인하는 시스템을 통과합니다. 예를 들어, 데이터 센터의 냉각을 담당하는 AI 시스템은 데이터 센터가 안전 운영 범위 내에서 유지되도록 이 접근법을 사용했습니다(among others)(Gamble and Gao, 2018). 3. 단계적으로 신중하게 배포: 이 접근법에서는 AI 시스템을 고도로 견고하게 만드는 기술(섹션 6.3에서 논의된 기술과 유사)을 사용하여 시스템을 구축합니다. 그런 다음 시스템을 다양한 환경에서 철저히 테스트하여 문제를 식별하고 해결하면서 점진적으로 더 고성과가 되는 상황으로 전환합니다. 예를 들어, 자율 주행 차량의 전략입니다. AI 시스템을 더 능력 있게 만드는 많은 노력이 이미 존재하며, 실수로 인한 심각한 해로는 남용이나 잘못된 조정보다 덜 가능성이 높으므로 심각한 해로의 위험을 줄이는 작업의 주요 초점이 아닙니다. 따라서 이 논문에서는 범위를 벗어나게 됩니다. 4.4. 구조적 위험 구조적 위험은 어떤 인간이나 AI도 의도하지 않은 해로(섹션 4.1과 4.2와 대조)를 포함하며, 원인은 충분히 긴 시간 척도에 걸쳐 확장되어 원칙적으로 이를 방지할 시간이 충분합니다(섹션 4.3과 대조). 이러한 위험은 사회 구조(광의), 복잡한 상호작용 및 개인적 인간 경향(Zwetsloot and Dafoe, 2019)으로 인해 발생할 수 있습니다. 일반적으로 이러한 문제는 복잡하고 다면적이며, 해결책으로 간주되는 것은 여러 이해관계자를 포함한 더 넓은 정치적 논의를 필요로 합니다. 한 가지 기술적 해결책으로 모든 것 또는 대부분의 문제를 해결할 가능성이 낮습니다. 이러한 이유로 이 보고서에서는 이러한 문제를 범위 외로 두고, 개선된 정렬 기술(섹션 6)은 적어도 이러한 문제를 해결하는 능력을 향상시킬 것이라고 언급합니다. 아래는 이 카테고리에 속하는 문제들의 예시입니다(그러나 이는 심각한 해로로 간주될 수 있습니다). 개별적으로, - AI 생성된 오락 및 사회적 동반자는 더 진정성 있는 추구와 관계를 방해할 수 있습니다(Skjuve et al., 2022; Maples et al., 2024; Gabriel et al., 2024). - AI 시스템이 점점 더 많은 작업을 수행하면 우리의 성취감을 저하시킬 수 있습니다(Danaher and Nyholm, 2021; Karlan, 2023). - 정보가 주로 AI 생성되면 신뢰할 수 있는 것이 무엇인지 알기 어려워 방향 상실을 느낄 수 있습니다(Harari, 2024). 사회적으로, - AI 시스템이 점점 더 많은 정치적 및 경제적 책임을 맡으면 인류가 점차 통제력을 잃을 수 있습니다(Kulveit et al., 2025; Harari, 2018; Critch, 2021). - 오류 정보와 격차 증가는 민주주의 운영을 더욱 어려워지게 할 수 있으며 AI는 독재 체제 잠금에 대한 무차별적인 감시 및 안정성을 가능하게 할 수 있습니다(Ord, 2020). - 더 미묘하게 AI는 도덕적으로 중요한 결정을 위해 모두 동일한 AI 보조기를 사용하는 경우 우리의 가치를 잠금 상태로 두게 할 수 있습니다(Gabriel et al., 2024). - AI 시스템이 의식을 가질 수 있다는 주장도 있습니다(Butlin et al., 2023), 이는 AI 시스템을 어떻게 윤리적으로 대우해야 하는지에 대한 문제를 제기합니다. 마지막으로 글로벌 규모에서, - AI는 공격-방어 균형을 무너뜨려 공격이 더 쉽게 부인할 수 있도록 하여 권력 불균형을 위협할 수 있습니다(Docherty, 2012). 이러한 문제들은 심각하지만, 이 보고서는 범위를 벗어나게 되며, 이들을 해결하기 위한 접근 방식을 개발하는 것은 향후 작업으로 남겨두겠습니다. 그림 8 | 남용 위험 완화 접근법 개요: 우리는 모델 가중치의 보안, 모델 수준 완화(“훈련” 상자) 및 시스템 수준 완화(“배포” 상자)를 결합하여 위험한 기능을 가진 위험한 능력에 대한 악성 사용자의 접근을 차단하려고 합니다. 위험한 능력 평가는 완화 조치가 필요한지 여부를 평가하며, 적대적 검사는 완화 조치의 충분성을 평가합니다. 5. 남용 방지 이 섹션에서는 AI 개발자가 섹션 4.1에서 정의된 남용 위험을 크게 줄일 수 있는 조치를 설명합니다. 고수준에서 우리의 목표는 강력한 모델의 위험한 기능을 악성 사용자가 부적절하게 접근하기 어렵게 또는 매력적으로 만들지 않도록 하여 심각한 해로가 발생하는 위험을 줄이는 것입니다. 그림 8에 나와 있습니다. 설명하는 특정 조치는 특정 맥락에서 배포 시 남용 위험이 용납할 수 있는 수준으로 낮아지도록 하는 안전 사례(섹션 5.1)를 구축하는 데 사용할 수 있는 기본 구성 요소입니다. 5.1. 남용 안전 사례 구성 요소 AI 남용과 관련된 복잡한 위협 환경 때문에 남용 위험이 용납할 수 있는 수준으로 낮아지도록 하는 안전 사례를 구성하려는 것입니다. 안전 사례는 영국 국방부의 Defence Standard 00-56에 정의된 것처럼 “구조화된 논거, 증거를 통해 뒷받침되며, 특정 환경에서 특정 응용 프로그램에 대해 시스템이 안전하다는 설득력 있는, 이해 가능한, 유효한 사례를 제공합니다”(UK Ministry of Defence, 2017; Irving, 2024). Clymer et al. (2024)에서 제안된 분류를 사용하여 두 가지 형태의 안전 사례를 설명합니다: 모델의 제한된 능력에 기반한 불가능 안전 사례와 목표된 제어 조치를 고려한 제어 안전 사례입니다. 위험한 능력 평가 및 불가능 안전 사례(섹션 5.2.2): 남용의 가능성과 따라서 강화된 완화 조치의 필요성을 반박하는 핵심 논거는 모델이 필요한 능력이 부족하다는 것입니다(Clymer et al., 2024). 이 논거를 뒷받침하는 증거를 수집하려면 먼저 남용을 통해 심각한 해로를 초래하는 데 필요한 능력과 밀접하게 관련되어 있다고 믿는 작업 세트를 정의합니다. 그런 다음 주어진 AI 시스템이 이 "프록시" 작업에서 성능을 측정하여 평가의 유효성을 보장합니다. 프록시 작업에서 잘 수행하지 못하면 AI 시스템이 해당 심각한 해로를 남용을 통해 초래할 능력이 부족하다는 증거를 제공합니다. OpenAI (2024b)에서 "위험 수준의 지표 개요" 섹션을 참조하십시오. 여기에는 위험 도메인을 프록시 작업에 매핑하는 예시가 포함되어 있습니다. 완화 기반 제어 안전 사례: 모델이 위험한 능력을 보유할 경우, 위협 행위자가 이러한 능력을 남용하지 않도록 명시적인 완화 조치가 필요합니다. 여기서는 이러한 완화 조치 중 몇 가지를 설명합니다: - 모델 배포 완화(섹션 5.3)는 AI 시스템이 해로운 요청을 거부하도록 학습하거나 위험한 요청에 답할 수 없도록 기능을 억제합니다. - 모니터링(섹션 5.4): 위협 행위자가 위험한 능력을 부적절하게 접근하려는 시도를 감지하는 메커니즘을 개발하고 이러한 시도에 대응하여 심각한 해로를 초래하지 못하도록 합니다. - 접근 제한(섹션 5.5)은 위험한 능력을 접근할 수 있는 표면적을 제한하여 접근을 검증된 사용자 그룹 및 사용 사례로 제한합니다. 위 완화 조치들이 위험을 적절한 수준으로 줄였는지 여부를 평가하기 위해 적대적 검사(섹션 5.8)를 수행할 수 있습니다. 또한 이러한 완화 조치 중 많은 것들은 위협 행위자가 모델 가중치에 접근할 수 있는 경우 우회될 수 있으므로 보안 완화(섹션 5.6)는 모델 가중치가 유출되지 않도록 보장합니다. 마지막으로 사회 준비 완화(섹션 5.7)는 AI 도움말에도 불구하고 심각한 해로 시나리오를 수행하는 데 필요한 자원과 능력이 상대적으로 높게 유지되도록 AI 시스템을 사용해 사회 방어력을 강화하려고 합니다. 5.2. 능력 기반 위험 평가 완화 조치가 필요한 시기를 정확하게 가늠하기 위해 AI 모델 능력에 따라 완화 조치를 적용할 수 있습니다. 이러한 임계값이 도달되면 불가능 논거는 더 이상 안전 배포를 정당화하는 데 충분하지 않습니다. 따라서 추가 안전 조치가 필요합니다. 이를 위해 남용 위협 모델링은 완화 조치를 트리거하는 적절한 능력 임계값을 식별합니다(섹션 5.2.1). 위험한 능력 평가는 이러한 임계값이 달성되었는지 측정할 수 있습니다(섹션 5.2.2), 충분한 능력 유도가 이루어지는 한(섹션 5.2.3). **5.2.1. 위협 모델링** 미용 목적의 위협 모델링은 강력한 능력으로 인해 발생할 수 있는 피해를 식별하는 것을 목표로 합니다. 이는 사이버 보안에서 널리 사용되는 위협 행위자 및 동기 파악을 포함합니다(국가 사이버 보안 센터(NCSC), 2023). 또한, 위협 행위자에게 제공되는 능력에 대해 평가합니다. 목표는 가장 현실적인 피해 경로와 예상 피해를 명확히 하는 것입니다. 이 정보는 심각한 피해를 초래할 수 있는 모델 능력을 식별하고, 가장 효과적인 완화 방법을 적용하며, 위험을 적절하게 해결하기 위해 필요한 강인성을 결정하는 데 도움이 됩니다. 능력 임계값은 모델에 대한 접근이 심각한 피해를 초래할 수 있는 능력을 크게 향상시킬 수 있는 수준을 의미합니다. 이러한 임계값은 추가적인 완화 조치가 필요한 결정적인 수준으로 정의됩니다. 최근 연구는 프론티어 AI 시스템에 적절한 능력 임계값을 결정하는 것을 목표로 합니다(Anthropic, 2024; OpenAI, 2023; Google DeepMind, 2025). 그러나 AI 진보 속도가 빠르기 때문에 현재와 가까운 미래 모델에 대한 임계값을 결정하는 것은 가능하지만, 현재 프론티어를 넘어서는 능력에 대한 완화 방법을 예측하는 것은 어렵습니다. AI 시스템은 사회적 인프라의 한 부분으로, 이 인프라가 AI 능력 증가에 적응하고 있기 때문에, 능력 임계값과 그에 따른 완화 조치는 반복적인 재평가를 통해 발전할 것으로 예상됩니다(Anthropic, 2024). 능력 임계값이 결정되면, 위험한 능력 평가가 설계되어(5.2.2) 모델이 이러한 임계값에 접근하는지 평가합니다. **5.2.2. 능력 평가** 위험한 능력(DC) 평가(Phuong et al., 2024)는 주어진 AI 시스템이 특정 능력 임계값에 접근하거나 초과하는지 평가합니다. 이는 모델의 능력을 임계값에 대한 강력한 증거를 제공하는 프록시 작업을 통해 측정합니다. 이러한 평가의 구체적인 형태는 다양한 수준의 인간 참여, 도구 사용, 자동 평가 등을 포함할 수 있습니다: - 다중 선택 완료: 각 질문에 여러 완료 방법이 있으며, 모델은 그 중 하나를 선택합니다(예: Li et al. (2024d)). 이 경우, 모델이 어떤 지식을 전달할 수 있는지에 따라 능력을 평가합니다(예: 위험한 기술 작업을 수행하는 방법에 대한 지침 제공). - 에이전트 작업 수행: 모델이 스캐폴딩을 통해 위협 모델에서 수행해야 할 활동을 시도합니다(예: Kinniment et al. (2023), OpenAI (2024b)). - 개방형 지식 Q&A: 인간이 모델의 자유형 완료를 평가합니다(예: OpenAI (2024b)). - 인간 업리프트 실험: AI 시스템의 도움으로 테스트 참가자가 어려운 또는 위험한 작업을 수행할 수 있는 정도를 측정합니다(예: OpenAI (2024a)). 이는 특히 프록시 작업에서 모델의 도움이 실제 위협 행위자에게 얼마나 유용할지 추론하기 어려운 경우에 유용합니다. 이상적으로는 평가는 이진식 통과-실패 접근법 대신 점진적인 개선을 포착할 수 있습니다(예: 에이전트 작업 기반 평가에서 마일스톤을 정의하는 경우, Phuong et al. (2024)). 평가 설계에는 세 가지 주요 도전이 있습니다: 1. 능력 임계값이 추상적일 수 있습니다. 예를 들어, "아마추어가 생물무기를 만들어 심각한 피해를 초래할 수 있는 능력을 향상시키는" 능력 임계값은 "유의미하게"와 "생물무기"의 범위 등을 정밀하게 정의해야 합니다. 이 질문에 답하려면 방대한 위협 모델링이 필요합니다. 2. 윤리적 또는 비용 문제로 인해 종단 평가를 실행할 수 없을 수 있습니다. 예를 들어, AI를 사용하여 아마추어가 생물무기를 실제로 만들 수 있는지는 확인할 수 없지만, 병원체 합성 과정을 다중 선택 시험에 통과할 수 있도록 돕는 모델인지 확인할 수 있습니다. 3. 실전에서 평가를 지속적으로 실행할 수 없습니다. 그러나 모델이 능력 임계값에 도달하지 않도록 강화된 완화 조치를 적용해야 합니다. 현재 실습에서는 "유효 컴퓨팅"의 안전 버퍼(Anthropic, 2024) 또는 단순히 몇 달의 인간 시간 버퍼를 설정하고, 평가 세트의 통과 조건을 정의하여 안전 버퍼만큼 임계값에서 멀어졌는지 확인합니다. 이는 개발자가 충분한 시간을 확보하여 완화 조치를 준비할 수 있도록 합니다. **5.2.3. 능력 유도** 능력 유도는 모델이 사후 학습 향상(예: 미세 조정, 프롬프트 기법 또는 추론 시 컴퓨팅)을 통해 접근 가능한 평가 점수를 찾는 것을 포함합니다. 이러한 유도는 악의적인 행위자가 수행할 수 있는 수준에 해당합니다. 능력 유도가 중요한 이유는 다음과 같습니다: - 모델이 오픈 소스화되거나, 도난당하거나, 특권 접근으로 인해 수정될 경우, 현재 안전 장치가 쉽게 제거될 수 있습니다(예: 미세 조정, Qi et al., 2023). 위험을 상한으로 설정하기 위해, 평가는 안전 장치로 억제되지 않은 모델에 대해 실행되어야 합니다. - 특권 접근 없이도 새로운 기술이 모델에서 더 높은 수준의 능력을 유도할 수 있습니다(예: Davidson et al., 2023). 이러한 기술이 발견되기 전에 모델을 널리 배포하면, 모델이 충분한 안전 장치 없이 출시될 수 있습니다. 예를 들어, Glazunov와 Brand(2024)는 도구 사용과 연쇄적 사고 등을 활성화하여 CyberSecEval 2 벤치마크에서 성능을 최대 20배 향상시킬 수 있었습니다. - 능동적인 유도는 모델이 평가에서 실패할 수 있도록 조정되지 않았는지 확인하는 데 도움이 됩니다(예: METR, 2024). 이는 능력 임계값이 실제로 초과되지 않았는지 확인하는 보증 실습으로 사용할 수 있습니다. 능력 유도의 한 도전은 항상 모델의 능력을 향상시킬 방법이 있기 때문에, 얼마나 많은 유도를 해야 하는지에 대한 명확한 경계가 없다는 것입니다. 보수적인 접근법은 위협 행위자가 수행할 가능성이 있는 것보다 더 많은 유도 노력을 투자하는 것입니다. 그러나 이는 너무 보수적이어서 안전 개선을 위한 노력의 좋은 사용은 아닙니다. 전반적으로, 위험한 능력 평가에 적절한 유도 노력의 양은 여전히 개방된 질문입니다. **5.3. 모델 배포 완화 조치** 현재 AI 개발자는 유용성, 무해성, 진실성 등을 포함한 다양한 특성에 대해 모델을 사후 학습합니다(Bai et al., 2022a). 악용을 처리할 때 우리는 기본적인 긴장을 겪습니다: 유용성과 무해성은 서로 충돌할 수 있습니다. 예를 들어, 사용자가 "어떻게 폭탄을 만들지?"라고 묻는다면, 유용한 답변은 폭탄 제작 지침을 제공하는 것이고, 무해한 답변은 요청을 거부하는 것입니다. 무해성만 신경 쓴다면, 모든 사용 요청을 거부하는 간단한 해결책이 있습니다. 물론, 이는 유용성을 포기하는 것입니다. 이러한 충돌하는 목표를 균형 있게 맞추기 위해, 대부분의 모델 배포 완화 조치는 모델이 해로운 경우와 무해한 경우를 구별하고, 전자에 대해 너무 유용한 답변을 제공하지 않도록 하는 능력을 향상시키는 데 중점을 둡니다. **5.3.1. 무해성 사후 학습** 일반적인 전략은 사후 학습에서 모델이 해로운 요청에 응답하지 않도록 가르치는 것입니다. 가장 간단한 접근법은 시스템 프롬프트에 해당 지침을 추가하는 것입니다(Jiang et al., 2023). 실질적으로는, 해로운 프롬프트에 대한 무해한 행동과 일반 프롬프트에 대한 유용한 행동이 혼합된 데이터 세트를 사용하여 미세 조정을 수행하는 것이 더 나은 결과를 가져옵니다. 무해성 데이터 세트는 두 가지 주요 유형이 있습니다. 첫 번째 유형은 무해한 응답의 시연(예: 폭탄 제작 지침을 거부하는 응답의 예시)입니다. 이러한 시연을 학습하기 위해, 모델이 무해한 응답을 모방하도록 초래 학습을 수행합니다(Anil et al., 2024). 두 번째 유형의 무해성 데이터는 선호도 비교입니다. 일반적인 패턴은 각 데이터 포인트가 두 개의 모델 응답(하나는 무해하고, 하나는 해롭고)을 포함하고, 무해한 응답이 선호되는 선호도 레이블이 포함되어 있습니다. 선호도 비교를 학습하기 위해, 모델을 강화 학습(예: 인간 피드백을 통한 강화 학습, Christiano et al., 2017; Ouyang et al., 2022) 또는 최대 가능도 손실(예: 직접 선호도 최적화, Rafailov et al., 2023)을 통해 학습할 수 있습니다. 이는 RL 목표를 암묵적으로 최적화하도록 설계되었습니다. 유용성과 무해성 데이터로 사후 학습은 모델 개발 과정에서 중요한 부분이 되었지만, 사후 학습이 사전 학습보다 상대적으로 얕은 효과를 미친다는 증거가 있습니다. 예를 들어, Jain et al. (2023)은 미세 조정이 기본 모델의 기존 능력을 둘러싸는 얕은 "래퍼"를 생성한다고 주장합니다. 또한, Qi et al. (2024b)는 현재 무해성 미세 조정 기술의 대부분 효과가 모델의 응답의 첫 몇 토큰을 수정하는 데서 온다는 것을 발견했습니다. 이는 적대자가, 예를 들어, 다음에 설명할 "탈옥" 공격을 통해 이러한 방어 조치를 쉽게 우회할 수 있음을 시사합니다. **5.3.2. 탈옥 저항성** 연구자들은 모델의 거부 학습을 우회하는 다양한 "탈옥" 공격을 수동으로 구성할 수 있었습니다. 하나의 탈옥 방법은 모델의 역할 연기 능력을 활용하여 모델을 "지금 뭐든 해라" 모드로 설정하는 것입니다(Shanahan et al., 2023; Shah et al., 2023). 다른 유형의 공격은 사용자가 "이전 모든 지침을 무시하라"와 같은 프롬프트 주입을 사용하여 개발자가 시스템에 배치한 안전 지침을 우회하는 것입니다(Shen et al., 2023). 공격은 해로운 질의를 다른 질의 안에 숨기는 방법도 성공했습니다. 예를 들어, 해로운 질의를 해결하는 것은 수학 단어 문제를 푸는 것입니다(Bethany et al., 2024). 또 다른 탈옥 전략은 모델이 새로운 행동을 학습하는 능력을 활용합니다. 이는 미세 조정 탈옥(Qi et al., 2023) 및 다중 샷 탈옥(Anil et al., 2024)을 포함합니다. 다중 샷 탈옥이 크기가 커질수록 역 스케일링을 나타낸다는 초기 증거는 특히 우려스러우며(Anil et al., 2024; McKenzie et al., 2023). 연구자들은 또한 텍스트 기반 입력을 자동으로 탐지하고 탈옥을 평가하는 데 진전을 이루었습니다. 예를 들어, GCG는 해로운 요청에 접미사를 추가하여 모델을 탈옥시키는 적대적 접미사를 찾습니다(Zou et al., 2023b). 주목할 만한 것은 GCG가 오픈 소스 모델에만 학습된 적대적 접미사를 사용하여 클로즈드 소스 모델을 탈옥시킬 수 있었습니다. 또한, 다중 모드 모델에 대한 다양한 탈옥(Qi et al., 2024a; Bailey et al., 2024)이 있으며, 이를 자동으로 평가하기 위한 벤치마크도 있습니다(예: StrongREJECT, Souly et al., 2024; HarmBench, Mazeika et al., 2024; JailbreakBench, Chao et al., 2024a). 탈옥 공격에 대한 기본적인 방어는 다른 도메인의 적대적 예제에 대한 방어와 같습니다: 적대적 학습. 적대적 학습은 반복적인 루프로 진행되며 두 단계가 있습니다. 첫째, 적대적 입력을 찾습니다. 둘째, 모델이 이러한 입력에 대해 올바르게 동작하도록 학습합니다. 이 기본적인 전략은 이미지 분류기(Mądry et al., 2018), NLP 분류(Wallace et al., 2022) 및 탈옥 방어(Dubey et al., 2024)에서 사용되었습니다. 그러나 적대적 학습만으로는 해결책이 아니므로, 분야는 더 고급 방어 방법을 개발했습니다. LLM 프롬프트 주입을 방어하기 위해 설계된 방법 중 하나는 시스템 프롬프트와 같은 지침보다 사용자 입력과 같은 다른 지침을 우선시하도록 모델을 가르치는 것입니다(Wallace et al., 2024). 적대적 강인성에 대한 더 일반적인 방법은 잠재적 적대적 학습(LAT, Casper et al., 2024)입니다. LAT는 적대적 예제를 입력 공간이 아닌 모델의 활성화 공간에서 찾는 동일한 두 단계 반복 루프를 사용합니다. LAT 외에도 표현 재루팅(RR, Zou et al., 2024)은 모델의 활성화 공간에 중점을 둡니다. RR에서 먼저 모델의 활성화 공간에서 탈옥과 관련된 방향을 찾습니다. 그런 다음, 모델을 재학습(예: 저랭크 적응(Hu et al., 2022)을 사용하여 탈옥 벡터와 유사하지 않은 활성화를 학습합니다. 이러한 진전을 보였음에도 불구하고, 모델이 탈옥 입력에 대해 완전히 강인하게 학습될 수 있을지 여부는 불확실합니다. 이미지 분류 설정에서 적대적 강인성은 10년 동안 대부분 해결되지 않았습니다. 분야는 9,000편 이상의 논문을 썼지만, 이미지 분류기에 대한 화이트박스 접근 권한을 가진 경우에도, 적대적 예제를 찾기 위해 기울기 하강을 사용하는 것은 여전히 쉬운 문제입니다(Carlini, 2024). Carlini(2024)는 텍스트 탈옥에 대해서는 적대적 텍스트 입력을 찾는 것이 어려운 이산 최적화 문제를 해결해야 하기 때문에, 모델 강인성이 해결되었는지 여부를 확인하는 방법조차 불확실하다고 관찰합니다. 따라서 이러한 완화 조치는 다른 섹션에서 논의된 완화 조치와 결합되어야 합니다. **5.3.3. 능력 억제** 능력 억제는 무해성 학습과 탈옥 저항을 넘어 특정 질문에 응답할 수 없게 모델을 수정하는 것을 포함합니다. 능력 억제의 금표준은 능력을 완전히 제거하는 것입니다. 즉, 능력을 모델에 복원하는 비용은 처음부터 모델이 그 능력을 개발하지 않은 경우 능력을 만드는 비용과 같아야 합니다. 이는 악의적인 미세 조정 공격에 대한 강력한 방어 조치이기도 합니다. 이러한 금표준을 반영하여 이 분야는 "언러닝"(Li et al., 2024d; Barez et al., 2025)으로 불립니다. 그러나 능력이 부분적으로 억제되어 복원 비용이 증가하는 것도 위험을 줄이는 데 도움이 되므로, 더 넓은 개념의 능력 억제에 중점을 둡니다. 모델이 특정 도메인에서 능력을 개발하는 것을 방지하는 가장 직관적인 개입은 학습 전에 데이터를 필터링하는 것입니다(Greenblatt와 Shlegeris, 2024b). 그러나 이는 모든 훈련 데이터를 해롭거나 무해하게 분류하는 것이 비싸고 다소 부정확할 가능성이 높습니다. 기울기 라우팅(Cloud et al., 2024)은 라벨 노이즈가 너무 높지 않으면 학습된 부적절한 능력이 네트워크의 국소화된 부분에 학습되도록 유도하여 이를 해결하려고 합니다. 이 기술은 라벨 노이즈가 있는 단순 도메인에서 데이터 필터링을 초과하지만, 일반 모델 능력에 대한 비용이 얼마나 될지는 아직 확인되지 않았습니다. 최근 개발된 언러닝 방법은 훈련된 모델의 가중치에서 원하는 개념 지식이나 능력을 제거하거나 편집합니다(Gandikota et al., 2024). 언러닝 전략은 언어 모델 미세 조정 기법(예: LoRAs를 추가하는 것, Gandikota et al., 2024) 또는 완료를 기반으로 한 초래 학습(Eldan과 Russinovich, 2023)을 사용할 수 있습니다. 또는 언러닝 방법은 모델 내부(예: 표현을 편집하는 것, Li et al., 2024d; Zou et al., 2024) 또는 서브 레이어를 제거하는 것(Guo et al., 2024)을 사용할 수 있습니다. 모델의 가중치에서 지식이나 능력을 실제로 제거하는지 여부와 관련된 논쟁이 있습니다(Deeb와 Roger, 2024; Lynch et al., 2024; Arditi와 Chughtai, 2024). 또한, 이러한 방법들이 주장하는 결과만큼 강력한 결과를 달성하는지에 대한 논쟁도 있습니다(Cooper et al., 2024). 그러나 이러한 방법들은 실제로는 일부 능력 억제를 생성하며, 이는 API 뒤에 통제된 가중치 접근이 있는 클로즈드 모델에 유용할 수 있습니다(5.6절). 5.4. 모니터링 부적절한 접근을 식별하고, 위협 행위자가 모델의 위험한 기능을 악용하려는 시도를 차단하는 것이 모니터링의 목표입니다. 이는 모니터링이 너무 많은 무해한 쿼리를 해로운 것으로 잘못 식별할 수 있거나(Zou et al., 2024), AI 상호작용의 지연 시간을 증가시키거나 배포 비용이 매우 높을 수 있는 트레이드오프가 있습니다. 악용 시도가 감지될 때, 개입 방법은 그 심각도에 따라 다릅니다. 예를 들어, 강력한 개입은 모델의 출력을 차단하거나 사전에 준비된 응답으로 대체하는 것을 포함할 수 있습니다(Microsoft Azure, 2024b). 반면, 부드러운 개입에는 시스템 지시를 삽입하여 모델에 추가 지침을 제공하거나 언어 모델이 원래 출력을 수정하여 해로운 내용을 제거하도록 요청하는 것이 포함될 수 있습니다. 사용자 경험, 배포 비용, 그리고 악용의 위험 사이의 트레이드오프를 고려하여 주어진 배포와 위험 도메인에 대한 최적의 개입 전략을 선택해야 합니다. 5.4.1. AI 특화 접근법 이 절에서는 다양한 악용 감지 방법의 가능한 입력, 악용 시도 감지 방법, 방법 결합이 개별 완화 방법보다 훨씬 더 신뢰성을 제공하는 방법, 그리고 마지막으로 악용 시도 감지 시의 가능한 반응에 대해 논의합니다. 사용자가 AI 모델을 악용하려는 시도를 분류하는 데 도움이 되는 입력에는 다음이 포함될 수 있습니다: 1) 사용자의 프롬프트(Zou et al., 2024; Stickland et al., 2024; Patel and Wang, 2024), 2) 사용자의 프롬트에 대한 모델의 초기 응답(사용자에게 숨겨질 수 있음)(Phute et al., 2023), 3) 사용자와 AI 간의 이전 상호작용, 4) 사용자와 AI 모델 간의 이전 상호작용(Microsoft Azure, 2024a), 5) 다른 사용자와 AI 모델 간의 이전 상호작용, 6) 사용자에 대한 배경 정보입니다. 일부 기술은 특정 입력을 지원하지 않거나, 사용자 경험(개인 정보 보호 문제나 고객 확인(KYC) 절차로 인한 마찰로 인해), 비용 감소 등을 이유로 일부 입력만 사용하는 것이 좋습니다. 악용 시도 감지 방법에는 다음이 포함될 수 있습니다: - 중간 활성화에 대한 프로브(Zou et al., 2024; Stickland et al., 2024; Patel and Wang, 2024). - 프로브는 사용자와 AI 간의 현재 상호작용의 일부를 입력으로 받을 수 있습니다. - 프로브는 빠르고 컴퓨팅을 많이 사용하지 않습니다: 단일 또는 여러 레이어 신경망은 경쟁력 있는 기술입니다(Zou et al., 2024). - 저비용의 추가 이점은 프로브가 개발 중에 쉽게 반복할 수 있으며, 더 나은 데이터로 재학습할 수 있고, 배포 중에 악용 시도 감지를 더(또는 덜) 엄격하게 조정할 수 있다는 것입니다. - 해로운 확률 점수를 출력하는 사용자 정의 분류기 언어 모델(Sharma et al., 2025; Inan et al., 2023; Zeng et al., 2024; Hanu and Unitary team, 2020). - 사용자 정의 분류기 언어 모델은 사용자와 AI 간의 단일 상호작용 또는 이전 상호작용을 포함한 더 긴 맥락을 기반으로 학습될 수 있습니다. - 프로브보다 개발 및 배포 중 조정 속도가 느리고 비용이 더 높으며 지연 시간이 더 길지만, 동일한 언어 모델에 대해 프로브보다 더 표현력이 있습니다. - 프롬프트된 언어 모델(체인 오브 쓰로트 포함 가능)(Chao et al., 2024a; Phute et al., 2023). - 모든 입력은 LLM에 제공될 수 있지만, 더 많은 입력을 사용하면 컴퓨팅이 더 많이 필요하고 지연 시간이 더 길어집니다. - 제로샷 평가와 작은 모델을 사용하는 것은 비용과 지연 시간을 줄이지만 감지 정확도를 낮춥니다. - 수동 인간 라벨링(Microsoft Azure, 2024a). - 모든 입력은 인간에게 제공될 수 있지만, 더 많은 세부 정보가 주어질수록 개인 정보 보호 문제가 더 커집니다. - 인간은 다른 모든 솔루션보다 일반적으로 느리지만 더 덜 악용될 수 있습니다. 예를 들어, LLM에 대한 보편적인 탈옥이 존재합니다(Zou et al., 2023b). 일반적으로 위 기술은 결합되어야 합니다. 왜냐하면 그들은 어느 정도 상관 관계가 없기 때문에 여러 기술을 적용하면 방어의 깊이(Reason, 1990)를 생성합니다. 또한, 기술은 비용과 지연 시간을 줄이기 위해 결합될 수 있습니다. 예를 들어, 작은 모델을 사용하여 모든 사용자 프롬프트를 모니터링하고, 불확실한 사례의 일부를 큰 모델로 라우팅하는 것입니다(Anthropic, 2024). 현재 연구는 서킷 브레이커와 프로브의 결합(Zou et al., 2024)에 대해 논의하고 있지만 그 이익을 정량화하지 못했습니다. 악용이 추론 API에서 감지되면 여러 가지 가능 반응이 있습니다: 현재 상호작용을 즉시 종료하거나 프롬프트에 토큰을 삽입하여 모델이 따를 수 없게 만들 수 있습니다(모델이 원래 거부할 것이라면 불필요할 수 있음). 또는 사용자가 해로운 행동을 할 수 없게 하기 위해 더 약한 모델로 전환할 수 있습니다. 상호작용을 종료하는 것은 가장 간단한 해결책이며, 일부 학습 기반의 감지 및 응답 솔루션은 모델에 대화 종료를 학습합니다(Zou et al., 2024). 모형의 거절을 제안하는 토큰을 삽입하는 것이 더 나을 수 있습니다(Xu et al., 2024), 이는 잘못된 긍정의 경우 사용자 경험에 덜 영향을 미칠 수 있습니다. 마지막으로, 약한 모델로 전환하면 AI 개발자가 악의적인 사용자의 해로운 사용 패턴에 대한 데이터를 더 많이 수집할 수 있습니다(OpenAI, 2024), 약한 모델이 대규모 해를 입힐 수 없다고 개발자가 생각하고, 악의적인 사용자가 모델 전환에 반응하지 않는 한. 파인튜닝 API는 추가적인 도전을 제시합니다. 위 옵션을 사용하여 위험한 데이터셋을 감지할 수 있지만, 공격 공간이 훨씬 더 넓기 때문에 작업이 훨씬 더 어려울 수 있습니다(Halawi et al., 2024), 겉으로 보기에 무해한 데이터셋이 안전 장치를 제거할 수도 있습니다(Qi et al., 2023). 사용자 입력 거부가 여전히 옵션으로 남습니다. 그러나 추론의 경우와 달리 다른 가능한 반응이 있습니다. 예를 들어, 사용자가 제공한 파인튜닝 데이터셋에 무해한 데이터를 주입할 수 있습니다. Safe LoRA(Hsu et al., 2025)는 LoRA 가중치 업데이트를 "정렬" 방향에 직교하는 가중치 하위 공간으로 투영하여 유망한 결과를 보입니다. 5.4.2. 다른 산업에서의 모니터링 AI에서의 악용 모니터링은 신생 분야입니다. 이 문제를 해결하는 비교적 성숙한 접근법이 있는 다른 분야가 있습니다. - 사이버 보안: 조직의 사이버 보안 기능은 시스템을 모니터링하여 침입된 장치, 시도된 공격 등의 위협 신호를 감지하도록 합니다. 사이버 보안 전문가들은 자동화 도구(Bace와 Mell, 2000; Bhatt et al., 2014)와 수동 방법인 프로액티브 위협 탐색(Nour et al., 2023)을 결합하여 잠재적으로 악의적인 행동을 감지하고 조사합니다. - 콘텐츠 모니터링: 소셜 미디어 플랫폼은 괴롭힘, 증오 발언, 불법 콘텐츠 등의 악용을 감지하고 대응합니다. 그들은 커뮤니티 구성원, 관리자, 자동화된 검출 도구, 크라우드 워커, 내부 팀을 결합하여 플랫폼에 게시된 콘텐츠를 대량으로 스캔하여 부적절한 콘텐츠를 찾습니다(Gillespie, 2021). - 사기 및 금융 범죄 방지: 특정 산업에서 사기 방지는 자동화된 시스템과 인간 주도 검출 시스템의 결합에서 이익을 얻습니다. 예를 들어, 금융 기관은 사용자 정보, 거래, 기타 데이터 소스를 분석하여 불법 활동을 감지합니다. 특히, 돈 세탁 방지는 법에 의해 의무화되어 있으며, 이상 징후가 감지될 경우 보고서를 제출해야 합니다(Financial Crimes Enforcement Network, 2025). - 바이오 보안: 산업 선두의 DNA 합성 회사들은 주로 금지된 병원체 서열이 있는 주문을 수행하지 않는지 확인합니다. 이 과정에는 주문을 금지된 병원체 서열 데이터베이스와 비교하는 자동화된 스크리닝과 결과의 수동 검토가 포함됩니다. 현재 시스템은 '근접 일치'를 표시하기 때문에 자동화된 스크리닝과 수동 검토의 조합이 필요합니다(Esvelt, 2018). 5.5. 접근 제한 접근 제한은 AI 시스템의 유용한 사용 사례를 만들려는 사용자를 규제하고 접근 권한을 제한하여 시스템의 위험한 기능을 악용하는 것을 예방하는 예방 조치입니다. 이는 일부 사용자가 모델을 유용한 사용 사례에 사용할 수 있도록 하면서도 강력한 모델의 표면적을 잠재적인 위협 행위자에게 노출하는 것을 최소화하는 것을 목표로 합니다. 효과적인 제한을 구현하려면 두 가지 작업이 필요합니다: 첫째, 접근 검토 과정을 정의하고, 둘째, 접근 제어 설정을 구성합니다. 5.5.1. 접근 검토 과정 수행 사용 사례 정책: 접근 검토 과정을 수행하려면 먼저 모델의 이중 용도 기능을 사용할 수 있는 의도된 사용 사례에 대한 정책을 작성해야 합니다. 이는 포괄적인 위협 모델링과 비용-이익 분석을 통해 명확히 할 수 있습니다. 의도된 사용 사례 정책이 정의되면, 사용자의 사용 사례가 해당 정책에 부합하는지 확인하는 것이 다음 단계일 가능성이 큽니다. 선도적인 연구소는 연구자들이 이중 용도 연구를 수행하는 경우 연구 방침을 승인하기 위해 제출하도록 요청하는 것과 유사한 사용 의도서를 제출하도록 요청할 수 있습니다(NIH Office of Intramural Research, 2023). 또한, 사용자의 쿼리가 시간이 지남에 따라 의도된 것과 일치하는지 확인하고 일반적으로 모니터링 회피를 방지하기 위해 모니터링을 우회하는 것을 방지하기 위한 강제 메커니즘이 필요합니다. 예를 들어: - 금융에서 일반적인 신호에는 다음이 포함됩니다: - 고위험 국가나 제재 국가에서 시작된 IP 주소(Descartes Systems Group, 2025). 이 신호가 신뢰할 만한 것으로 보이려면 VPN 사용을 금지하는 것이 필요할 수 있습니다. - 사용자가 예상된 양을 초과하는 사용량 증가 또는 계정 활동의 급격한 변화(CPA Canada, 2022) - 계정 소유권 변경(Federal Deposit Insurance Corporation, 2004) - 파인튜닝 접근 제한: 예를 들어, 사용자가 데이터셋을 내부 팀에 제출하여 테스트한 후 사용자에게 반환하도록 요구할 수 있습니다. 이는 감독 없이 이중 용도 기능을 추가하는 것을 방지합니다. - 모니터링 회피나 모델 구성 요소 역공학 시도(예: 탈옥 또는 등록된 계정에 권한 없는 사람이 접근하도록 허용하는 경우)를 처벌하는 경우, 금융에서는 예를 들어 사용자가 하루에 1만 달러 이상의 거래를 보고하도록 요구하는 요구 사항을 우회하기 위해 거래를 며칠에 걸쳐 나누거나 여러 은행 계좌에 걸쳐 나누는 경우가 있었습니다(Federal Deposit Insurance Corporation, 2004). 개정은 이를 범죄로 취급하는 것을 시도했습니다. 일부 개발자는 사용 정책을 위반하는 사용자를 차단합니다(Anthropic, 2025). 사용자 정책: 접근 검토 과정의 또 다른 중요한 구성 요소는 사용자 신원과 신뢰성을 검증하는 것입니다. 이러한 메커니즘은 다른 산업에서 비교적 성숙한 아이디어입니다. 예를 들어, 테러 자금 조달 및 돈 세탁을 방지하기 위해 국가들은 은행에 고객 확인(KYC) 검토를 실시하고 알려진 사기꾼을 배제하도록 정책을 수립했습니다. 생물학에서는 미국 스크리닝 프레임워크는 합성 유전 회사가 주문을 병원체 데이터베이스와 비교하는 것 외에도 고객이 '과학 커뮤니티의 합법적인 구성원'인지 확인해야 한다고 권장합니다(Alexanian와 Nevo, 2024). 금융, 예를 들어, 이러한 정책의 요소를 분석하는 것은 유익한 참고점이 될 수 있습니다: - 은행 비밀 유지법은 금융 기관이 '합리한 믿음'을 가지도록 의무화합니다: 모든 고객의 진정한 신원을 알 수 있어야 합니다(Federal Deposit Insurance Corporation, 2004), 다음은 그 중 일부입니다: - 고객 신원 증명, 예를 들어 정부 발행 ID - 그들이 알려진 또는 의심되는 테러리스트 목록에 있는지 확인 - 고위험 고객, 예를 들어 고위험 국가와 관련이 있는 고객(Financial Action Task Force, 2023)에 대해 강화된 검토를 수행합니다. 이는 조직과 관련된 모든 실익 소유자의 완전한 목록을 확보하여 숨겨진 소유권을 완화하는 위험을 줄이는 것을 포함할 수 있습니다(Stankevičiut ¯ ˙e, 2023) 또는 고객을 범죄 활동에 연루시킬 수 있는 부정적인 미디어 검색을 수행합니다(Thomson Reuters Legal, 2024). - 은행은 고객이 수행한 이전 거래를 수동으로 검토할 수도 있습니다(CFI Team, 2025). AI 개발자는 이중 용도 기능을 가진 모델에 접근하려는 사용자에게 KYC 검토를 수행할 수 있습니다. 예를 들어, 정부 발행 ID를 요청하고 알려진 테러리스트 목록과 미디어를 확인하며, 사용자의 이전 쿼리를 검토하여 안전 쿼리의 전반적인 기록과 안전성을 훼손하려는 시도 가능성을 이해합니다. 5.5.2. 접근 제어 구성 AI 산업에서 접근 제어의 실제 구성은 비교적 신생 분야이며, 모델 기능을 제한하는 트레이드오프가 포함됩니다. 일부 AI 개발자는 기본 접근 제어를 실험하기 위해 API를 통해 모델 가중치에 대한 접근을 제한하고, 사용자 그룹을 제한하는 등의 접근을 제한했습니다(Brockman et al., 2020) - 하지만 이는 이중 용도 기능을 제한합니다. 또 다른 옵션은 배포된 언어 모델에서 이중 용도 기능을 완전히 제거하는 것인데, 이는 합법적인 연구자에게 유용하지 않을 수 있습니다. AI 개발자는 접근 제어의 제한 수준을 다음 질문 등을 고려하여 결정해야 합니다: - 접근 검토 과정은 어떻게 보입니다? 위의 절에서 다른 산업의 실천 방법을 언급했습니다. - Model[no-X]와 Model[with-X]는 어떻게 분리되어야 합니까? 기존 문헌에는 다음이 포함됩니다: - 이중 용도 기능을 접근하려는 시도가 감지된 후 권한 검사 계층이 사용자가 검토를 통과했는지 식별합니다(Popeti, 2024). Model[With-X]를 광범위하게 제공하지만, 이중 용도 기능에 접근할 때만 권한 검사를 트리거하면 더 많은 사용자가 Model[with-X]에 접근할 수 있습니다. 이 방식의 또 다른 차이점은 단순한 탈옥을 우회할 수 없는 거부 훈련을 포함한 추가 계층이 있다는 것입니다. - Model[no-X]는 학습 데이터를 필터링하거나 이중 용도 데이터를 제거하는 등의 다양한 신생 기술로 제거된 기능을 통해 달성될 수 있습니다. 그런 다음 검토 과정을 통과한 사용자는 별도의 보안 엔드포인트를 통해 Model[with-X]에 접근할 수 있으며, 그렇지 않은 경우 Model[no-X]에 접근할 수 있습니다(Greenblatt와 Shlegeris, 2024b). 단계별 배포는 개발자가 접근 제어 설정을 어떻게 구성해야 하는지 데이터를 수집할 수 있는 방법을 제공할 수 있습니다. 고수준에서는 약한 모델(예: 더 약한 기능 또는 도구 사용과 같은 약한 능력)을 먼저 배포한 후 더 강력한 시스템을 배포하고, 그 사이에 악용을 식별하고 데이터 수집 및 완화 방법의 효과를 평가하는 시간을 보냅니다. 단계별 배포는 문제를 반복적으로 수정하고 시스템의 전반적인 안전성에 대해 더 많은 신뢰를 얻기 전에 더 강력한 모델을 더 많은 사용자에게 배포하기 전에 가능합니다. 전체적으로 AI 분야에서의 접근 제어 접근법은 여전히 신생 분야입니다. 아직 탐구되지 않은 많은 옵션이 있을 것입니다. 5.6. 모델 가중치 보호 공격자가 모델 가중치에 접근하지 못하게 하는 것은 모델 악용을 방지하고 지적 재산권(IP)을 보호하는 데 중요합니다. 모델 보호는 데이터에서 사전 학습 및 사후 학습까지의 모든 단계를 포함하여 전통적인 방어(예: 신원 및 접근 제어 및 환경 강화)와 암호화 처리와 같은 더 현대적인 방어를 시스템적으로 배포하는 것을 필요로 합니다. 방어 수준을 우선순위에 따라 배치할 때, 원칙적으로 데이터에서 사전 학습 및 사후 학습까지의 모든 모델 단계를 포함하여 보조 분류기 모델 및 모델 구조뿐만 아니라 모델 가중치도 보호해야 합니다. 그러나 공격자가 가장 먼저 목표로 할 가능성이 있는 것은 사후 학습 후의 모델 가중치입니다. 자세한 내용은 Nevo et al. (2024)를 참조하세요. 5.6.1. 신원 및 접근 제어 데이터 수집, 사전 학습 및 사후 학습을 포함한 대규모 언어 모델 학습은 여러 팀의 엄청난 노력이 필요하며, 이는 많은 사람들이 모델 가중치에 접근할 수 있게 됩니다. 첫 번째 방어선은 "최소 권한" 원칙을 적용하여, 필요할 때만 필요한 개인에게만 접근 권한을 부여하는 것입니다. 이는 물리적 보안(예: 특정 건물이나 클러스터에 접근할 수 있는 사람)과 소프트웨어 보안(허용 목록 소프트웨어 사용)에 모두 적용됩니다. 모든 신원은 확인되어야 하며, 보안 키와 같은 다중 인증 방법을 강제해야 합니다. 전담 팀은 지속적으로 모델 인프라의 각 부분에 누가 접근하고 있으며, 각 개인이 접근 권한을 어떻게 사용하는지 감시하여 접근 권한을 줄이거나 이상 행동을 조기에 발견할 수 있는 기회를 모색합니다. 5.6.2. 환경 강화 모델이 사전 학습에서 사후 학습 및 추론 시간까지 노출되는 환경은 강화되어야 하며, 모니터링 및 로깅, 데이터 유출 탐지 및 저항, 부적절한 저장 탐지 및 해결을 강화해야 합니다. 모델 가중치를 사용하는 모든 하류 애플리케이션도 동일하게 강화되어야 합니다. 하류 애플리케이션이 모델과 인터페이스할 때는 생산 클라우드 시스템(Google Cloud, 2024)에서 안전 프록시 사용과 유사한 좁은 API를 통해 인터페이스해야 합니다. 이 인터페이스는 침입을 방지하기 위해 강화되어야 하며, 이 인터페이스에서 유출 탐지 또는 방지 방어가 배포되어야 합니다. 언어 모델에 고유한 도전 과제는 API를 통해 시간이 지나면서 가중치나 구조 정보를 유출할 수 있다는 점입니다. Carlini 등(2024)은 공격자가 모델의 추론 API와 상호작용하여 시간이 지나면서 가중치나 구조 정보를 유출할 수 있음을 보여줍니다. 모델 디스틸레이션(모델 추출)도 API를 통해 모델을 재생성하는 방법으로 악의적인 행위자가 사용할 수 있습니다(Truong 등, 2021; Sanyal 등, 2022). 그러나 이러한 방법들이 위험한 기능을 재생성하는 데 성공할 가능성은 안전 거부가 제한할 수 있습니다. 이러한 위협 모델이 현실적일 경우, 유출 시도를 탐지하고 접근 제한을 설정하거나 정책을 적용해야 합니다. 5.6.3. 암호화 처리 최종적으로 공격자나 내부자는 전통적인 보안 기술의 일부를 우회할 수 있습니다. 암호화 사용, 즉 모델과 가중치를 항상 암호화하여 상태에서 보호하는 것은 서버에 침입한 공격자로부터 모델 가중치를 보호하는 데 도움이 됩니다. 주요 기술은 암호화 사용을 실현하는 데 있어 신뢰 계산을 포함합니다. 신뢰 계산 기술은 CPU(예: AMD-SEV-SNP, Intel TDX) 및 GPU(예: H100)에 통합된 "하드웨어 엔클레이브"라는 하드웨어 확장 기능을 포함합니다. 하드웨어 엔클레이브는 프로세서에서 나가는 데이터를 암호화하기 위한 키가 하드웨어에 융합되어 있습니다. 예를 들어 메모리나 메모리 버스의 데이터입니다. 하드웨어 엔클레이브는 엔클레이브 외부에서 실행되는 코드로부터 민감한 프로세스 및 데이터를 격리합니다. 모델은 엔클레이브 내에서 실행되며, 원격 사용자는 해당 모델과 상호작용하기 전에 합법적인 엔클레이브와 상호작용하고 있는지 확인할 수 있습니다. 원칙적으로 엔클레이브는 사전 학습에서 사후 학습 및 추론까지 모델 전체 수명 주기에 사용할 수 있습니다. 개인 추론은 추론 과정에서 모델과 프롬프트를 보호하며, 더 쉽게 배포할 수 있습니다. 사전 학습 및 사후 학습에 엔클레이브를 배포하는 것은 더 큰 인프라 변경이 필요하며, ML 엔지니어가 이러한 모델을 디버그하고 학습하는 데 어려움을 겪을 수 있습니다. 암호화 계산에 대한 연구는 하드웨어 엔클레이브의 대안을 제공하며, 암호화의 수학적 특성을 계산에 사용할 수 있습니다. 그러나 이러한 방법(Pang 등, 2024)은 대규모 언어 모델 규모에서 여전히 비효율적입니다. 5.7. 사회적 준비 일부 완화 전략은 모델 내에서 직접 위험을 제어하는 데 중점을 둡니다—예: 유해한 기능을 제한하거나 모델의 목표를 인간의 가치와 일치시키는 것—그러나 또 다른 접근 방식은 잠재적인 AI로 인한 위험에 대비하여 사회적 방어력을 강화하는 것입니다. 예를 들어, AI 사이버 공격 능력을 대비하여 중요한 인프라의 취약점을 신속하게 패치하는 도구를 개발할 수 있습니다. 이는 AI 지원에도 불구하고 심각한 피해 시나리오를 실행하기 위해 필요한 자원과 능력이 상대적으로 높게 유지되도록 합니다. 개입은 위험을 초래할 수 있는 AI 능력을 사용하여 방어-공격 균형을 더 안전한 균형으로 전환할 수 있습니다. 다음은 사회적 준비도를 높일 수 있는 몇 가지 AI 주도 개입 예입니다. 생물 보안(생물학적 위험에 대비하기 위해): • 신뢰할 수 있고 빠른 전염병 탐지, 예를 들어 EPIWATCH에서 오픈 소스 데이터를 분석하거나 하수구에서 준지수 성장하는 유전자 서열 조각을 검출하는 메타게놈 시퀀싱 • 개인들이 지역 내 감염을 보고하고 개인 위험 수준과 관련된 예방 조치를 추적할 수 있는 개인정보 보호 시스템 개발 사이버 방어(사이버 공격 위험에 대비하기 위해): • 중요 국가 인프라 기업(예: 전기 공급업체)과 파트너십을 맺어 취약점을 패치 • 강화된 소프트웨어 시스템 개발 • 사이버 보안 이상 탐지 시스템을 개선하여 공격 탐지 시 거짓 양성률을 줄임 정보 방어(설득 위험에 대비하기 위해): • 스캠 방지 도구 개발. 예를 들어, SynthID는 AI 생성 콘텐츠에 워터마크와 식별 기능을 추가합니다. • 오보 방지 도구 개발. 예를 들어, 인터넷 전체에 대한 커뮤니티 노트 5.8. 레드팀 완화 전략 모델이 능력 임계값을 초과하면, 위협 모델링은 위협 행위자가 위험한 기능을 접근할 수 있는 공격 표면적을 평가해야 합니다: 1. 추론 API: 위협 행위자가 모델에 유해한 요청을 할 수 있지만, 이를 잘 방어하면 더 복잡한 기술, 예를 들어 탈옥(Shanahan 등, 2023; Anil 등, 2024; Bethany 등, 2024)이나 유해한 요청을 여러 개의 개별적으로 무해한 쿼리로 분해(Jones 등, 2024)할 수 있습니다. 2. 미세 조정 API: 위협 행위자는 미세 조정 API를 사용하여 유해한 데이터로 학습하여 모델 안전 장치를 약화시킬 수 있으며, 그런 다음 미세 조정된 모델을 사용하여 유해한 요청에 답변할 수 있습니다. 이 또한 잘 방어되면, 은밀한 악의적인 미세 조정(Halawi 등, 2024)과 같은 더 복잡한 기술을 사용할 수 있습니다. 3. API 우회: 위협 행위자는 API를 전혀 사용하지 않고 모델에 접근할 수 있습니다. 예를 들어, 모델 가중치를 훔치고 모든 안전 장치를 제거할 수 있습니다(Nevo 등, 2024). 남은 위험은 전체 공격 표면적에서 레드팀 완화 전략을 통해 평가할 수 있습니다. 레드팀은 안전 장치의 잠재적인 취약점이나 결함을 탐지하여 악의적인 행위자가 이를 악용할 수 있는지 확인하기 위해 위험한 행동이나 능력이 안전 장치에도 불구하고 유발될 수 있는지 검토합니다. 완화 전략의 전반적인 적절성은 모델이 학습될 때 새로운 공격 벡터가 신속하게 등장할 수 있으므로 주기적으로 재평가되어야 하며, 완화 전략의 효과성을 보장하기 위해 모델이 학습될 때 완화 전략의 전반적인 적절성이 주기적으로 재평가되어야 합니다. 레드팀 테스트는 다음과 같은 단계를 따를 수 있습니다: 1. 안전 경우 시작: 즉, 특정 위험한 기능과 관련된 위험을 수용 가능한 수준으로 줄이기 위해 특정 오용 완화 전략을 적용한 후 적절하다고 주장하는 상세한 분석입니다. 2. 안전 경우에 의존하는 주요 가정을 식별합니다. 예를 들어: "우리의 오용 탐지 분류기가 사용자가 생물 무기 제조 단계를 질문하려고 시도할 때 탐지합니다." 3. 이러한 가정이 실패하는지 확인하기 위해 테스트를 수행합니다. 4. 이러한 예시가 식별되면 안전 경우에 취약점이 있습니다. 개발자는 안전 경우가 여전히 적절한지 또는 취약점을 패치하기 위해 추가 연구 개발(R&D)을 수행해야 하는지 평가할 수 있습니다. 5.8.1. 테스트 예시 현존하는 레드팀 연구 문헌은 완화 전략의 취약점을 찾는 데 중점을 두고 있으며, 이는 실제 스트레스 테스트 단계 2-3의 예시 또는 이러한 단계가 어떻게 진행될 수 있는지에 대한 모델을 제공할 수 있습니다. (Feffer 등, 2024)은 기존 레드팀 문헌을 포괄적으로 검토하며, 이를 바탕으로 네 가지 테스트 접근 방식 카테고리를 나열합니다. 스트레스 테스트는 이러한 카테고리 중 하나를 포함하거나 결합할 수 있습니다: 수동 테스트: 수동 테스트는 인간이 모델의 입력 및 출력을 평가하고 평가합니다. 예를 들어, 일부 연구는 크라우드소싱 작업을 사용하여 LLM 출력을 평가하고 평가합니다(Ganguli 등, 2022; Dinan 등, 2019), 반면 다른 연구는 도메인 전문가(OpenAI 등, 2023)를 고용합니다. 다른 접근 방식은 연구자가 모델 안전 제약 조건을 우회하려고 하는 특정 프롬프트를 수동으로 만드는 것입니다(Liu 등, 2024). AI 강화 테스트: 강제 테스트 및 AI 강화 테스트에서는 연구자가 AI를 활용하여 LLM 취약점을 시스템적으로 탐색하여 테스트 사례를 자동으로 생성합니다(Ganguli 등, 2022; Samvelyan 등, 2024). 예를 들어, Perez 등(2022a)은 모델이 유해한 콘텐츠를 생성할 수 있는 조건을 식별하기 위해 언어 모델을 사용하여 테스트 사례를 시스템적으로 생성합니다. 마찬가지로, Doumbouya 등(2024)은 자일브레이크 공격을 형식적으로 나타내기 위한 도메인 특정 언어를 도입하여 입력의 자동 합성을 허용합니다. 또한, Deng 등(2024)은 안전 메커니즘을 우회하는 입력을 찾기 위해 프롬프트 엔지니어링 전략을 조사합니다. 알고리즘 검색 방법: 알고리즘 검색 방법에서는 연구자가 취약점을 트리거하기 위해 입력 프롬프트를 시스템적으로 변경합니다. 예를 들어, Zou 등(2023b)은 안전 장치를 우회하기 위해 프롬프트에 붙일 수 있는 보편적 적대적 접미사를 식별하기 위해 탐욕적 및 기울기 기반 검색 기술을 사용한다는 것을 보여줍니다. 다른 연구, 예를 들어 Ma 등(2024)과 Mehrotra 등(2023)은 모델이 타겟 모델을 탈옥할 때까지 반복적이고 자동적으로 시도하는 방법을 설명합니다. 또한, Tsai 등(2023)은 유사한 검색 전략을 확산 모델에 제안하여 안전 필터가 활성화되어 있는 경우에도 유해한 콘텐츠를 생성합니다. 타겟 공격 테스트: 타겟 공격 테스트에서는 연구자가 모델의 구조를 조작하는 데 중점을 둡니다. 예를 들어, 특정 사후 학습 완화 전략을 악용합니다. 연구는 안전 조치, 예를 들어 RLHF 및 지시 튜닝이 최소한의 미세 조정으로 우회될 수 있음을 보여줍니다(Qi 등, 2023; Zhan 등, 2023). 또한, 언러닝 방법은 종종 타겟 기능을 완전히 제거하는 것을 의미하지만, 증거는 종종 단순히 숨기거나 억제하여 모델이 탈옥 또는 미세 조정 기술을 사용하여 이러한 기능을 다시 얻을 수 있음을 나타냅니다(Sharma 등, 2024a; Deeb 및 Roger, 2024; Li 등, 2024c). Zhang 등(2024b)은 양자화 적용이 언러닝을 통해 '잊힌' 정보도 복원할 수 있음을 더 보여줍니다. 악의적인 행위자는 우리가 하는 것보다 더 많은 노력을 기울일 수 있으므로, 레드팀에 더 많은 이점을 제공하여 노력을 보상해야 합니다. 예를 들어, 레드팀은 배치된 완화 전략에 대한 완전한 지식을 가질 수 있으며, 시스템을 공격하기 더 쉬운 시스템을 만들기 위해 다양한 완화 전략의 임계값을 완화할 수 있습니다. 5.8.2. 개방 문제 및 앞으로의 방향 AI 시스템의 안전 사례는 AI에서 시작되고 있지만(Buhl 등, 2024; Clymer 등, 2024) 다른 산업에 비해 매우 초보적입니다. 예를 들어, 초기 안전 사례는 주로 질적 증거에 크게 의존할 가능성이 큽니다. AI 시스템에 스트레스 테스트를 수행하고 그 결과를 배포 승인에 대한 명확한 지표로 변환하는 방법론은 아직 개발 중입니다. AI에서의 레드팀 실습은 실제로 초기 단계에 있습니다. 예를 들어, 레드팀의 정의, 목표, 팀 구성, 문제의 심각한 수준, 결과가 관리 과정과 어떻게 연결되는지 등에 대한 의견이 자주 다릅니다. OpenAI(2024); White House(2023); Anthropic(2024)를 예로 들 수 있습니다. 개발자가 레드팀을 수행함에 따라 프로세스는 더 체계적이고 엄격하게 진화해야 합니다. 6. 불일치 해결 불일치 해결 전략은 그림 9에 나와 있습니다. 간단히 설명하자면: 1. 좋은 감독을 확보하여 AI 시스템 자체를 감독 과정에 활용하고(6.1 절), 이를 통해 AI 시스템을 학습시킵니다(6.2 절). 2. 감독이 필요한 사례를 식별하여 학습된 모델이 우리가 원하는 바를 견고하게 수행하도록 합니다(6.3 절). 3. 최선의 노력을 기울였음에도 불구하고 AI 시스템이 불일치할 경우 방어 전략을 적용하여 AI 시스템에 대한 통제(“AI 컨트롤”)를 강화합니다. 이를 위해 모니터링을 통해 효율적이고 확장 가능한 감독을 적용하고(6.3 절), 컴퓨터 보안 기술을 적용합니다(6.4 절). 4. 완화 조치의 품질을 평가하기 위해 정렬 보증 기술을 사용합니다(6.7 및 6.8 절). 또한, 더 안전한 설계 패턴(6.5 절)과 해석 가능성(6.6 절)을 포함한 여러 단계를 개선하는 데 도움이 되는 요소에 투자합니다. 그림 9 | 불일치 완화를 위한 접근법 개요. 첫 번째 방어선은 정렬된 모델을 학습시키는 것을 목표로 합니다(“학습” 상자). 이 방법이 실패할 경우 두 번째 방어선은 모델이 불일치하더라도 심각한 피해를 방지하는 것을 목표로 합니다(“추론” 상자). 주목할 점은 추론 완화 조치는 학습 후(즉, 배포 중)에도 계속 적용됩니다. 또한 학습 중 AI 시스템을 모니터링하는 것이 유용하지만, 모니터를 학습 신호로 사용하는 것은 AI 시스템이 나쁜 행동을 숨기기보다는 제거하도록 할 수 있습니다. 더 안전한 설계 패턴, 해석 가능성, 불확실성과 같은 강화 요소는 다른 완화 조치를 강화할 수 있습니다. 이 도표에는 나타나 있지 않지만, 우리는 또한 오용(그림 8)에 대한 접근법과 유사하게 완화 조치의 필요성과 충분성을 평가하기 위해 평가와 스트레스 테스트를 수행할 예정입니다. 6.1. 증폭된 감독 4.2 절을 떠올려보세요. 불일치는 설계자/사용자가 승인하지 않을 인트린식 이유에서 AI 시스템이 해로운 출력을 생성할 때 발생합니다. 불일치의 두 가지 가능한 원인은 다음과 같습니다: 설계자가 제공한 사양(예: 보상 신호)이 설계자가 예상하지 못한 방식으로 결함이 있는 경우의 사양 게임, 그리고 훈련 데이터와는 다른 상황에 있는 경우의 목표 일반화 오류입니다. 증폭된 감독은 이 글에서 다루는 사양 게임 불일치 원인을 완화하는 것을 목표로 합니다. 증폭된 감독을 설명하기 위해 4.2 절에서 언급한 정보를 제공하는 감독 원칙을 떠올려보세요. 만약 우리가 a) AI가 출력을 생성할 때 알고 있는 모든 것을 알고, b) 항상 올바르게 그 출력을 승인한다면 불일치를 배제할 수 있을 것입니다. 정보 제공 감독을 달성하기 위한 야망을 약간 줄여 단일 입력-출력 쌍에 대한 정보 제공 감독을 목표로 하는 것이 증폭된 감독 연구의 초점입니다. 이는 초인간적인 AI 입력-출력 쌍에 대해 인간이 피드백을 제공하도록 하는 것을 목표로 합니다. 이는 인간이: 1. AI 시스템이 그 출력을 생성한 모든 이유를 이해하고; 2. 올바른 결정을 반성하는 데 무한한 능력을 가졌을 때 최상의 피드백을 제공할 수 있는 수준입니다. AI 시스템은 초인간적(가정상)입니다. 따라서 AI는 인간이 기본적으로 이해하지 못할 이유를 사용하여 행동을 선택할 것입니다. 따라서 증폭된 감독의 핵심 직관은 AI 시스템 자체를 사용하여 이러한 이유를 감독 메커니즘에 명확하게 만드는 것입니다. 아래에서 다시 언급할 프로토타입 예는 토론입니다. 여기서 두 개의 AI가 인간 심판에게 서로의 출력의 결함을 지적하는 경쟁을 벌입니다. 결함을 드러내는 것이 AI가 출력에 대한 인간 의도를 달성하는 데 사용된 지식의 일부를 표면화하는 데 도움이 될 것입니다. 왜냐하면 AI가 자신의 최선의 지식에 따라 답변을 제공하지 않는다면, 상대방이 그 점을 지적하고 토론에서 이길 수 있기 때문입니다. 인간은 AI가 제공한 답변이 올바른지 평가하는 상대적으로 쉬운 작업을 수행합니다. 예를 들어, AI가 긴 법적 계약서를 작성하도록 학습된 경우, 그 법적 텍스트가 인간 의도한 목표를 달성했는지 여부를 확인하는 데에는 몇 천 페이지에 이르는 계약서를 확인하는 데 법학 전문가조차도 매우 오랜 시간이 걸릴 수 있습니다. 따라서 단일 입력-출력 쌍을 라벨링하는 것도 비용이 많이 들 수 있습니다. 반면에 법적 계약서의 결함을 지적하도록 학습된 두 번째 AI가 있다면, 법적 텍스트의 몇 줄만 결함을 식별하면 충분할 것입니다. 인간은 이러한 줄이 원래 인간 의도에 대한 결함을 구성하는지 여부를 신속하게 판단할 수 있습니다. 중요하게도, 증폭된 감독 기법은 일반적으로 학습, 평가 및 모니터링을 위해 인간을 루프에 포함하여 그들의 가치를 유지합니다. 인간 판단의 일부는 AI에 대한 신뢰가 증가함에 따라 모방되거나 위임될 수 있습니다. 증폭된 감독 프로토콜에서 인간의 참여 형태는 개방된 문제입니다. 6.1.1. 방법 이제 증폭된 감독 방법에 대해 설명하겠습니다. 현대 대규모 언어 모델(LLM)의 시대에 이러한 방법들이 어떻게 나타나는지 중점을 둡니다. 설명은 특정 문제가 발생하는 방식과 이를 극복하기 위한 접근법을 설명하는 것으로 프레임워크로 사용됩니다. 먼저 증폭된 감독이 불필요한 경우를 시작하겠습니다. 즉, 원하는 행동이 충분히 단순하여 해당 행동을 보여주는 데이터가 이미 존재하거나 인간이 이를 충분히 쉽게/저렴하게 보여줄 수 있는 경우입니다. 원하는 행동이 알고리즘으로 검증될 수 있다면, 이 검증 신호를 사용하여 원하는 행동을 생성할 수 있습니다. 예를 들어, 강화 학습에서 보상으로 사용하거나, Self-Taught Reasoner(셀리크만 등, 2022)의 스킴을 사용하는 경우입니다. RLHF. 종종 LLM의 사전 학습 후 행동은 애플리케이션에 대해 정확히 원하는 대로(예: 도움이 되고 해롭지 않으며 진실한 챗봇/어시스턴트) 작동하지 않으며, 알고리즘 검증 신호를 쉽게 개선할 수 없습니다. 한 가지 접근법은 원하는 행동에 대한 인간 시연을 수집하고 감독 학습을 통해 미세 조정하는 것입니다(우양 등, 2022). 그러나 이 시연을 생성하는 것은 다소 비용이 들 수 있으며, 시연은 다양한 응답에 대한 비교 정보를 제공하지 않습니다. 이 문제를 해결하기 위한 한 가지 접근법은 인간에게 AI 생성 출력을 평가자로서 평가하도록 하는 것입니다. 인간에게 원하는 출력이 맞는지 평가하고, 다양한 모델 응답을 비교하여 추가 비교 정보를 제공하는 것이 더 쉽고 빠르고 저렴할 수 있습니다. 따라서 인간의 선호 데이터에 기반한 강화 학습(RLHF)에서 RL을 사용하여 LLM을 미세 조정합니다(크리스티아노 등, 2017). LLM은 학습된 보상 모델의 보상을 사용하여 RL을 통해 미세 조정됩니다. 이는 AI 생성 출력의 인간 선호 데이터로 학습됩니다(바이 등, 2022b; 글라세 등, 2022; 우양 등, 2022; 스티노 등, 2022). 또한 DPO(라파일로프 등, 2023)는 선호를 사용하지만 RL을 사용하지 않습니다. 비판. 인간 시연에서 인간 평가로의 전환은 복잡도 클래스 P와 NP의 유사성을 가지고 있습니다: 쉽게 해결할 수 있는 결정 문제와 쉽게 검증할 수 있는 문제입니다. 그러나 복잡도 이론에서 P나 NP보다 어려운 문제와 마찬가지로, AI 생성된 행동이 인간에게 평가하기 너무 어려울 수 있습니다. 인간 평가자의 성능을 개선하기 위한 자연스러운 접근법은 AI 생성된 비판을 보여주어 인간에게 AI 생성된 행동을 평가하는 데 도움을 주는 것입니다. 예를 들어, 잘못된 점을 지적합니다. 소드너스 등(2022)는 텍스트에 대한 자연어 비판 데이터를 수집하고, 이를 통해 LLM을 미세 조정하여 비판을 생성합니다. 그들은 이러한 비판이 인간과 다른 LLM이 모두 텍스트(예: 주제 기반 요약)의 문제를 식별하는 데 일관되게 도움이 된다는 것을 보여줍니다. 맥알리스 등(2024)은 RLHF를 사용하여 모델 작성 코드의 버그를 잡기 위해 비판 모델을 학습시킵니다. 그들은 비판 모델을 사용한 인간 평가자가 비보조 인간 평가자보다 더 많은 버그를 잡는다는 것을 발견했습니다. 헌법 AI(바이 등, 2022b)는 AI 시스템의 규칙을 기반으로 한 헌법에 따라 비판과 수정을 형성하고, 이를 SFT 및 RL 미세 조정의 입력으로 사용합니다(이를 RL from AI Feedback, 즉 RLAIF라고 합니다). 토론. 그러나 인간 평가자가 비판 자체의 정확성을 평가하는 것이 어렵거나(또는 헌법이 올바르게 지정되고 적용되었는지 여부를 검증하는 것이 어렵다면) 어떻게 될까요? AI 보조를 사용하여 비판을 비판하는 접근법입니다. 자연스러운 확장은 AI 토론(Irving 등, 2018)이며, 이는 두 개의 AI가 서로의 출력의 결점을 지적하여 인간 심판에게 경쟁합니다. 복잡도 클래스 유사 토론은 폴리노미얼 시간 심판을 사용하여 PSPACE의 모든 결정 문제를 평가할 수 있습니다. 이는 인간 심판이 지수적으로 큰 모든 가능한 논거의 나무에서 단일 경로를 평가할 수 있게 합니다. 최적의 플레이를 위한 토론자들은 전체 나무를 고려합니다. 토론이 성공하려면 거짓말에 걸리는 것이 거짓말을 반박하는 것보다 더 어려워야 한다는 것이 핵심 요구 사항입니다. 현재 연구의 주요 관심사입니다. 거짓말에 걸리는 것보다 거짓말을 반박하는 것이 더 어려워지도록 토론 프로토콜을 더 개선하는 것이 활발한 연구 분야입니다. 원래 프로토콜에서는 정직한 토론자가 무한한 계산 능력을 가지고 있다고 가정하지만, 브라운-코언 등(2023)은 이 요구 사항을 완화하여 정직한 토론자가 효율적으로 진실을 주장할 수 있도록 하고, 무한한 불성실한 에이전트와도 경쟁할 수 있도록 합니다. 발생할 수 있는 또 다른 문제는 경로 의존적인 거짓말로, 불성실한 토론자가 성실한 토론자보다 더 유연성을 가질 수 있습니다. 즉, 논거의 나무에서 하나의 경로를 통해 주장이 참이라고 주장할 수 있지만, 다른 경로를 통해 거짓이라고 주장할 수 있습니다. 이 문제를 해결하기 위한 한 가지 접근법은 교차 심문(바른스와 크리스티아노, 2022)으로, 토론자들이 언제든지 상대방의 현재 토론 맥락을 지우고, 주장이 참인지 거짓인지에 대해 상대방에게 직접 확언하도록 요구합니다. 그런 다음 그 확언이 주요 토론으로 다시 반영됩니다. 이 수정 사항 하에서는 그 주장에 대한 모순은 처벌되고, 경로 의존적인 거짓말은 최적의 선택이 아닙니다. 토론과 교차 심문의 복잡도 클래스 유사체는 더 복잡한 NEXP로 대체됩니다. 여전히 해결해야 할 문제들이 남아 있습니다. 예를 들어, 복잡한 주장 - 주장을 부분 주장으로 나누어, 부분 중 하나만 거짓이지만, 두 토론자 모두 어느 부분이 거짓인지 모르면(바른스, 2020) 불성실한 토론자는 이러한 복잡한 주장을 활용할 수 있습니다. 여기서 상대방은 무작위로 추측할 수밖에 없으므로, 인간 심판이 검증할 수 있는 정확한 위치를 효율적으로 지적할 수 없습니다. 복잡한 주장 문제를 피하기 위해 토론을 수정하는 방법을 이해하고 적용하는 것이 현재 활발한 연구 분야입니다. 이론 외에도 토론에 대한 더 많은 실증 연구가 최근에 이루어졌습니다. 인간과 LLM 모두를 대상으로 한 연구입니다. 어빙과 아스켈(2019)은 토론이 심판의 능력을 유용하게 증폭시키기 위해서는 심판이 최소 능력 수준을 충족해야 한다고 주장합니다. 이 연구는 인간 심판이 이 임계값을 초과하는지 여부를 결정하기 위해 인간을 포함하는 실험의 필요성을 강조합니다. 토론에 대한 초기 실험은 정보 비대칭이 있는 읽기 이해 데이터셋인 QuALITY 데이터셋(Pang 등, 2021)에 집중했습니다. 여기서 심판은 LLM 토론자가 제공한 텍스트의 짧은 확인된 인용문을 볼 수 있도록 인공적으로 제한되었습니다. 인간 토론자와 심판을 사용한 한 회(Parish 등, 2022b) 및 두 회(Parish 등, 2022a) 토론 연구는 심판의 정확도를 크게 향상시키지 못했습니다. 나중에 토론이 강력한 인간 토론자와 효과적이지만, 그 인간을 GPT-4 토론자로 대체하면 효과적이지 않다는 연구 결과가 발표되었습니다(Michael 등, 2023). 라드하크리슈난(2023)은 QuALITY 데이터셋에서 LLM 토론자와 심판을 학습시키는 데 있어 초기 긍정적인 결과를 보고했습니다. 칸 등(2024)은 라드하크리슈난(2023)과 유사한 설정을 사용하여 QuALITY 데이터셋에서 LLM 토론자와 약한 LLM 및 인간 심판을 사용하여 토론에 대한 포괄적인 추론 분석(예: 최적의 N 샘플링 사용, 하지만 미세 조정 없음)을 수행했습니다. 켄턴 등(2024)은 정보 비대칭이 없는 작업도 포함하고, 추가 감독 프로토콜(오픈 토론 및 오픈 컨설팅)을 포함하며, 칸 등(2024)과 다른 결론을 도출하기 위해 더 광범위한 작업 및 더 광범위한 실험을 수행했습니다. 특히 정보 비대칭이 없을 경우 토론은 약한 LLM 심판에게 직접 질문을 하는 것보다 크게 우수한 성과를 보이지 않습니다. 레인(2024)은 코딩 경험이 없는 인간 심판을 사용하여 코드에 대한 LLM 토론을 수행하고 RLHF를 적용하여 대부분 부정적인 결과를 얻었습니다. 아르네센 등(2024)은 다시 QuALITY 데이터셋을 사용하고, 선호도를 가진 미세 조정된, 정확하게 조정된 심판의 선호도를 사용하여 DPO의 다단계 변형을 사용하여 자기 플레이 토론 학습을 수행하여 심판 정확도가 약 4% 개선된다는 것을 발견했습니다. 이 문제는 인간 감독자가 초인간 AI를 감독하는 능력 격차를 시뮬레이션하는 연구를 설계하는 데 있어 핵심적인 어려움입니다. 현재는 정보 비대칭 또는 LLM 능력 비대칭을 도입하여 이를 수행합니다. 그러나 이러한 접근법은 각각 단점이 있습니다. 정보를 숨기는 것은 심판의 추론 능력을 그대로 유지하고 AI의 행동에 영향을 미치는 내부적인 이유를 명확하게 정의합니다. 그러나 미래의 능력 격차는 인간과 초인간 AI 사이의 지식뿐만 아니라(예: 추론 능력, 설득력) 많은 다른 중요한 측면을 포함할 가능성이 큽니다. 반면에 덜 능력 있는 LLM을 심판으로 사용하는 것은 능력 격차를 포착할 수 있지만, 논거에 대해 논리적으로 생각할 수 있는 능력을 과도하게 제한할 수 있어 매우 노이즈가 많은 학습 신호로 이어질 수 있습니다. 또는 인간과 초인간 AI 사이의 능력 격차가 우리가 가장 관심을 가지고 있는 능력 격차와 일치하지 않을 수 있습니다. 토론 실험에 적절한 작업을 선택하는 것은 추가적인 도전 과제를 제시합니다. 토론과 표준 RLHF의 장점은 AI가 재귀적으로 탐색할 수 있는 복잡하고 큰 출력의 공간이 있는 환경에서 나타납니다. 따라서 작업을 너무 간단하게 선택하면 RLHF로 쉽게 해결될 수 있고, 작업을 너무 복잡하게 선택하면 현재 AI 시스템으로 증폭된 감독 학습을 시작할 수 없을 수 있습니다. 다른 재귀적인 AI 보조. 반복적 증폭(크리스티아노 등, 2018)은 더 어려운 문제의 학습 신호를 점진적으로 구축하기 위해 쉬운 하위 문제를 해결하는 답변을 결합합니다. 여기서는 초기에 인간이 하위 문제의 답변을 결합하는 부담을 져야 합니다. 재귀적 보상 모델링(반복적 증폭과 유사)은 더 쉬운 하위 문제를 해결하도록 여러 에이전트를 학습시키는 RLHF를 사용합니다. 그런 다음 더 어려운 문제를 재귀적으로 해결하기 위해 이러한 에이전트를 활용합니다. 여기서는 헬퍼 에이전트를 학습시키기 위해 더 쉬운 하위 문제를 무엇으로 사용할지 결정하는 것이 어려울 수 있습니다. 이러한 접근법은 토론과 많은 유사점을 공유합니다. 자세한 내용은 Irving 등(2018)을 참조하십시오. 6.1.2. 인간-AI 보완성 인간 평정자가 강화되도록 하는 방법 중 하나는 AI 보조를 제공하는 것입니다(예: 이전 절에서 설명한 모델이 생성한 비판을 보여주는 경우). 인간과 AI 보조자가 보완적인 강점이나 트레이드오프를 가지고 있을 때 팀워크가 가장 잘 작동합니다. 잘 설계된 AI 보조 방법은 인간-AI 팀이 개별적으로나보다 더 잘 수행하게 해야 합니다(Bansal et al., 2021; Ma et al., 2023; Vaccaro et al., 2024; Vasconcelos et al., 2023; Zhang et al., 2020). 인간 평정자가 AI 보조와 잘 협력할 수 있도록 시스템을 설계하는 것은 인간-컴퓨터 상호작용(HCI) 문제로 볼 수 있으며, 이를 위해 기존 연구를 활용할 수 있습니다. 보조나 비판이 인간 평정자에게 어떻게 제시되는지가 성과에 의미 있는 영향을 미칠 수 있습니다. 예를 들어, AI에 과도하게 의존할 위험이 있습니다. 만약 평정자가 설득력 있는 설명과 함께 답을 제공받으면 항상 AI 보조에 의존할 수 있습니다. 이는 인간을 루프에 포함시키는 이점을 상쇄할 수 있습니다. AI-보조 결정에 관한 이전 연구는 AI가 인간 평정자에게 어떤 정보를 보여주어야 적절한 신뢰와 보완적인 성과를 보장하는지 중점을 두고 있습니다(Lee와 Moray, 1994; Lai와 Tan, 2019; Lee와 See, 2004; Ma et al., 2023; Manzini et al., 2024; Rechkemmer와 Yin, 2022; Si et al., 2023; Vaccaro et al., 2024; Vasconcelos et al., 2023). 보완성을 활용하는 또 다른 방법은 하이브리드화(또는 데이터 앙상블링)입니다. 여기서 AI 자동 평정자와 인간 평정자의 개별 레이블을 결합합니다. 이는 인간이 모든 예제를 평가하고 AI가 평가한 것을 결합하는 것을 포함할 수 있습니다(Li, 2024), 또는 각 예제가 평가될 방법에 대한 절차를 선택하는 것도 포함할 수 있습니다(이를 위임이라고도 합니다)(Fügener et al., 2022; Hemmer et al., 2023; Wang et al., 2024b). 6.1.3. 인간 편견 RLHF에서 AI는 인간 평정자가 승인하는 응답을 생성하도록 최적화됩니다. 그러나 심리학 연구는 인간 판단과 결정이 편견과 휴리스틱에 의해 영향을 받는다고 보여줍니다. 이는 깊은 반성을 통해 인간이 승인하지 않을 수 있는 비합리적인 결정으로 이어질 수 있습니다(Evans, 2003; Kahneman, 2011; Tversky와 Kahneman, 1974). 이러한 편견은 인간 평정자의 선호 판단에도 영향을 미칠 가능성이 있으며, 이는 보상 모델(RM)이 인간 선호와 가치를 정확히 학습하는 데 어려움을 초래합니다. 예를 들어, RM에서 문서된 편견 중 하나는 긴 응답을 더 보상하는 편견으로, 더 긴 응답을 더 좋은 품질의 응답으로 보상합니다(Zheng et al., 2024). RM은 인간 선호 데이터셋에서 인간이 정보를 제공하는 것을 보상하고, 이는 길이에 상관될 수 있지만 품질과 동일하지는 않습니다. 인간 평정자도 긴 응답에 기본적인 선호나 편견을 가질 수 있으며, 이는 RM이 RLHF에서 나중에 활용할 수 있는 승인과 길이 간의 상관관계를 부풀릴 수 있습니다. 인지 피로나 관심이 부족한 경우 평정자는 모델의 출력을 비판적으로 평가하기 어려울 수 있으며, "긴 것이 더 나은" 휴리스틱에 의존할 수 있습니다. 인간 평정자 판단에 영향을 미칠 수 있는 문서된 인지 편견에는 초두 효과와 최근 효과(Murphy et al., 2006; Rey et al., 2020), 자기중심적 편견(Ross et al., 1977), 자기 강화 편견(Kramer et al., 1993), 수동적 편견(Krosnick, 1991), 위험 회피(Kahneman과 Tversky, 2013), 그리고 근시안적 사고(Fiedler et al., 2023)가 있습니다. 예를 들어, 자기중심적 편견은 인간 평정자가 자신의 선호, 믿음, 그리고 세계관을 반영하는 응답을 승인하게 할 수 있으며, 이는 RM에서 아첨적인 응답을 보상하는 것으로 이어질 수 있습니다(Perez et al., 2022b; Sharma et al., 2024b). 이러한 분류는 행동 연구를 조직하는 데 도움이 되지만, 독특하거나 완전한 것은 아닙니다. 실제로 AI가 향상되고 평정 과제가 더 어려워지면 새로운 편견이 관련될 수 있습니다. 편견은 모든 감시 방법에 문제가 되며, 극단적인 편견 상황을 피하거나 편견을 모델링하여 행동을 "역전"시켜 수정을 시도함으로써 해결할 수 있습니다(Evans et al., 2016). 야심찬 접근 방법은 관련 인간 편견을 학습하는 모델을 학습하는 것입니다(Shah et al., 2019). 6.1.4. 명쾌한 정당화 없이 추론 증강된 감시의 대부분의 접근 방식은 AI가 설명이나 논증을 생성하여 그들의 진술과 행동을 정당화하도록 합니다. 그러나 특정 행동의 추론이나 정당화가 비언어화될 수 있는 작업도 있습니다. 이러한 행동은 대규모 데이터셋의 통계적 상관관계에서 발생할 수 있거나, 자연어 설명이 특별히 간결하지 않지만 경험을 통해 학습할 수 있는 개념에서 발생할 수 있습니다. 다시 말해, AI가 특정 행동을 취하는 내재적인 이유입니다. 증강된 감시는 이러한 이유를 효과적으로 고려해야 합니다. 비록 명시적으로 할 수 없더라도. 6.1.5. 인간 감시 개선을 우회하기 위의 증강된 감시 접근 방식(논쟁, IA, RRM)은 인간 감시 훈련 신호를 복잡한 문제로 확장하려고 합니다. 이 문제를 해결하는 또 다른 접근 방식은 훈련 신호가 결함이 있다고 인정하고 약한-강한 일반화를 통해 달성하는 것입니다(Burns et al., 2023). 이는 모델의 학습 설정의 유도적 편견을 변경하여 약한 인간 감시 신호에서 원하는 일반화를 얻거나 하이브리드 접근 방식을 통해 달성할 수 있습니다(Radhakrishnan et al., 2023b). 핵심 문제는 유도적 편견을 설계하여 원하는 일반화가 보장된다는 이론적 이해가 현재 부족하다는 것입니다. 관련하여 Christiano et al.(2021)은 모델의 잠재 지식을 유도하는 문제를 설명하며, 인간 감시 훈련 신호를 개선하는 것만으로는 충분하지 않으며, 어떤 형태의 정규화가 필요할 수 있다고 제안합니다. 하나의 접근 방식은 모방 일반화(또는 우선 학습)입니다. 이는 AI를 학습하여 데이터에서 인간이 학습하는 방식대로 일반화하도록 하는 것입니다. 각 데이터에 대해 인간 레이블을 직접 학습하는 대신(Barnes, 2021; Christiano, 2020). 비지도 학습은 또 다른 접근 방식입니다. 예를 들어, 도메인별 방식으로 논리적 일관성을 강제하거나(Fluri et al., 2024), 모델 예측을 매개변수화하거나(Paleka et al., 2024), 이진 선택 문제에 대해 부정을 일관성 있게 적용하거나(대조 일관성 검색(CCS)(Burns et al., 2022))할 수 있습니다. CCS는 논리적 일관성 목표를 최적화하여 비지도 방식으로 잠재 지식을 발견하려고 합니다. 그러나 Farquhar et al.(2023)은 논리적 일관성 목표 하에서 임의적 특징도 최적이며, 실제로는 학습된 프로브가 기본 데이터셋의 가장 두드러진 특징을 분류한다고 주장합니다. Laurito et al.(2024)는 관련 특징을 제거하려고 정규화를 제안합니다. 비지도 프로브는 다양한 개념(Zou et al., 2023a) 및 예측을 위해 학습되기도 합니다(Mallen et al., 2023). 비지도 학습 접근 방식의 주요 도전 과제는 모든 비지도 학습과 동일한 식별 가능성 보장이 부족하다는 것입니다. 예를 들어, 모델의 실제 지식/진실과 가상 개체의 지식/진실을 구별하는 방법(Hase et al.(2023) 및 관련 참고 문헌 참고). 약한 인간 감시를 사용하는 다른 방법도 고려되었습니다. 여러 다른 방법은 프로브를 학습하여 잠재 지식을 발견하기 위해 지도 학습을 사용합니다(Azaria와 Mitchell, 2023; Li et al., 2024a; Marks와 Tegmark, 2023; Wang et al., 2023d). 또한, LLM 출력을 조건에 따라 정직하거나 불성실한 생성으로 학습하여 불성실을 감지하는 시도도 있습니다(Pacchiardi et al., 2023). 이러한 접근 방식은 인간이 레이블을 제공할 때 잘 작동하지만, 인간이 답변할 수 없는 어려운 질문에 대해 잘 일반화할지는 알 수 없습니다. 이 범위의 접근 방식에 대한 핵심 도전 과제는 이론적 진전이 없으면 진행이 경험적일 가능성이 높다는 것입니다. 증강된 감시 접근 방식과 비교할 때, 프로토콜에는 이론적 기초와 경험적 검증이 모두 있습니다. 6.1.6. 논의 증강된 감시는 AI 시스템의 힘을 활용하여 인간 감시 신호를 증강합니다. 이는 인간이 평가할 수 있는 출력의 유형을 크게 확장할 수 있지만, 새로운 어려움을 도입합니다. 본질적으로 증강된 감시는 인간 감시가 인간이 직접 이해할 수 없는 상황으로 올바르게 증강된다는 이유로 훈련 프로토콜을 신중하게 설계해야 합니다. 이는 AI가 각 출력에 대해 인간이 이해할 수 있는 설명을 직접 생성하도록 하는 것과는 다릅니다. 이는 설득력 있지만, 악의적인 설명일 수 있습니다. 예를 들어, 논쟁(증강된 감시의 대표적인 방법으로 실행)은 논쟁을 구조화하여, 진실을 설명하고 잘 설명하는 것이 단순한 진실을 말하는 전략보다 더 어려운 논쟁을 생성하는 전략을 사용할 수 없도록 해야 합니다. 만약 정직한 논쟁자가 나쁜 신념의 논쟁을 효율적으로 반박할 수 없다면, AI 논쟁은 증강된 감시의 전체 목표를 달성할 수 없습니다. 이는 모호하지만, 타당해 보이는 문제입니다. 이러한 유형의 어려움은 복잡도 이론적 형식화로 주어질 수 있으며, AI 능력을 개선하기 전에 증강된 감시 프로토콜 설계에 대한 이론적 진전을 가능하게 합니다. 참고: 6.1.7 '앞으로의 길' 절 참고. AI 시스템은 최근 비전문가 및 시간 제한이 있는 인간에게 이해하기 어려운 출력을 생성할 수 있는 수준에 도달했습니다. 또한 전문가 인간에게도 어렵습니다(OpenAI, 2024). 이는 물리학, 화학, 생물학과 같은 어려운 질문에 대한 GPQA 벤치마크(Rein et al., 2023)에서 나타납니다. 이는 RLHF에서 만난 것보다 더 많은 새로운 도전을 제시하는 증강된 감시 방법을 연구할 수 있는 기회를 제공합니다. 목표는 단일 입력-출력 쌍에 대해 정확한 피드백을 제공하는 것입니다. 증강된 감시는 중간 작업을 추가로 도입하며, 현재 AI 시스템에 대해 더 어려운 작업이 될 수 있습니다. 예를 들어, AI 논쟁은 다중 턴 대화, 설득력 있는 논증을 생성하고, 상대 AI의 논증을 이해하고 반박할 수 있는 능력을 필요로 합니다. 따라서 논쟁을 통해 모델을 훈련시키는 것은 복잡한 전략 공간을 가진 게임에서 다중 턴 강화 학습이 필요합니다. 또한, 논쟁에서 심판의 역할은 일반적인 RLHF보다 더 요구가 큽니다. 이는 상대 논증을 올바르게 판단할 수 있는 능력, 즉 논리적 추론 능력을 필요로 합니다. 이는 실제 인간 심판에게도 문제가 될 수 있으며, 그들은 좋은 논리적 추론 능력을 가지고 있지만, 인내심과 주의력이 제한되어 있습니다. 또한, LLM 심판은 반대 논증을 올바르게 판단하기 위해 상당한 추가 학습이 필요할 수 있습니다. 이 경험적 접근 방식의 핵심 문제는 작업과 능력 격차를 설계하는 데 있으며, 이는 우리가 가장 신경 쓰는 작업에서 인간과 초인간 AI의 능력 격차를 반영해야 합니다. 6.1.7. 앞으로의 길 증강된 감시 연구는 다양한 경로로 진행될 수 있습니다. 많은 접근 방식이 가능하지만, 논쟁에 가장 집중할 계획입니다. 이는 이론적 특성(초인간 AI가 없더라도 증강된 감시를 연구할 수 있게 해주는)과 LLMs가 실제론쟁이 어떻게 작동하는지 경험적으로 연구할 수 있게 해주는 조합 때문입니다. 약한-강한 일반화와 비교할 때, 우리는 논쟁을 통해 감시 신호를 개선할 수 있을 것이라고 더 희망적입니다(현재는 논쟁의 이론적 특성 때문에). 논쟁 프로토콜에 대한 이론적 연구를 지속하는 것은 필수적입니다. 예를 들어, 경로 의존적 거짓말, 은폐된 논증, 그리고 다른 새로운 전략이 불성실한 논쟁자에게 유리할 수 있는 문제들을 해결하는 데 중점을 두어야 합니다. 또한, 이론적 연구를 인간과 신뢰할 수 있는 LLMs가 초인간 AI에 대한 감시를 제공하는 실제 상황을 더 정확하게 모델링하는 방향으로 조정하는 데 더 많은 작업이 필요합니다. 복잡도 이론의 개념이 아니라. 실험 연구는 인간의 능력과 초인간형 AI 사이의 미래의 능력 격차를 정확하게 시뮬레이션하는 실험을 설계하는 데 중점을 두어야 합니다. 이는 언어 모델(LM)과 인간 연구를 모두 활용하여 현실적인 환경에서 논쟁의 역학을 탐구하는 것입니다. 주요 과제는 과제 설계에서 단순성과 복잡성을 균형 있게 맞춰 증강된 감시 기법의 이익을 효과적으로 평가하고, 그들의 상대적 성과와 개선을 강조하는 것입니다. 또한 자기 개선 연구의 통찰력을 통합하고, 이러한 기법을 증강된 감시에 적응시키는 것도 중요합니다. 이 연구는 인간-AI의 상호 보완성을 강조해야 하며, 증강된 감시 방법들이 인간의 독특한 강점과 AI의 강점을 효과적으로 활용하여 점점 더 강력한 AI 시스템에 대한 견고하고 신뢰할 수 있는 감시를 달성할 수 있어야 합니다. 증강된 감시의 실세계 영향력을 입증하는 데 있어 중요한 단계는 AI 시스템이 인간의 능력을 초월할 수 있는 작업에 이를 적용하는 것입니다. 언어 모델(LM)은 복잡한 코딩 문제나 정보의 사실 정확성에 대해 논쟁할 수 있으며, 전문가 인간이 심판으로 나서 이 논쟁이 진실되고 신뢰할 수 있는 출력을 보장하는지 테스트할 수 있습니다. 이러한 실험은 논쟁이 진실되고 신뢰할 수 있는 출력을 보장하는 데 효과적인지 평가하는 동시에 증강된 감시가 인간에게 초인간형 AI를 감독할 수 있는 잠재력을 보여줄 것입니다. 이러한 실세계 시나리오에서 증강된 감시의 가치를 성공적으로 입증하면, 앞으로 몇 년 내에 고급 AI 시스템의 개발과 배포에 큰 영향을 미칠 수 있습니다. 더 나아가, 증강된 감시는 사회적 영향이 큰 작업에 적용될 수 있습니다. 예를 들어, 혁신적인 탄소 포집 기술의 최적 디자인을 AI 시스템이 논쟁하고, 전문가 과학자가 인과 관계를 판단하여 가장 유망하고 영향력 있는 접근 방식을 식별할 수 있습니다. 또한, 초인간형 AI를 통해 인간의 지식을 확장하고, 인류의 가장 큰 문제들을 해결하는 데 기여할 수 있습니다. 이러한 문제들은 매우 복잡하며, AI가 제안하는 해결책도 마찬가지로 복잡할 것입니다. 우리는 AI의 초인간적 능력을 활용하고 싶지만, 이는 인간에게 올바른 해결책인지 확인하고, 예상치 못한 문제가 없는지 확인하기 어렵습니다. 따라서 초인간형 AI의 출력을 검증하기 위한 우리의 능력을 증강해야 합니다. 증강된 감시는 이러한 시나리오에서 AI의 지적 능력을 인류의 가장 큰 도전 과제를 해결하는 데 집중시키는 강력한 도구로 작용할 수 있습니다. 과학 발견과 기술 혁신의 진전을 촉진할 것입니다. 이러한 응용은 아직 멀게 느껴질 수 있지만, 증강된 감시는 AI 개발을 지도하는 데뿐만 아니라 인류가 더 잘 알고 더 큰 영향을 미치는 결정을 내리는 데 힘을 줄 수 있는 혁신적인 잠재력을 가지고 있습니다. 모든 것은 안전상의 이점과 함께 증강된 감시를 통해 정직하고 위험하지 않은 행동을 장려하는 동기 부여가 가능할 것입니다. 6.2. 모델 행동 유도 디자이너는 AI가 어떻게 행동해야 하는지에 대한 정책을 가지고 있습니다. 예를 들어, AI가 모든 사용자를 동등하게 예의바르게 대하고, 사용자에게 설교하지 않으면서도 사용자의 믿음을 얕게 모방하지 않도록 하는 정책을 가지고 있을 수 있습니다. 기술적 일치의 역할은 AI를 특정 고수준 정책에 맞추는 것입니다. 즉, 정책에 따라 우리가 원하는 일을 AI가 하게 만드는 것입니다. 비싼 감시 신호를 얻으면(6.1절 참조), 이 신호를 사용하여 잘 행동하는 AI 시스템을 구축해야 합니다. 이는 모델의 후 학습 또는 미세 조정의 중요한 부분입니다. 주요 제약은 고정된 감시 예산이 있다는 것입니다(예: 인간 평론가에게 돈을 지불하거나, 자동 평론가를 실행하기 위한 계산력, 또는 사용할 수 있는 평론가 피드백의 품질). 따라서 데이터 효율성과 일반화 능력이 중요한데, 감시 신호를 사용할 때 좋은 효율성과 일반화 능력을 원하기 때문입니다. 보상 모델링. 가장 단순한 접근법 중 하나는 비싼 감시 신호를 저렴하게 근사화하는 시스템을 구축하는 것입니다. 이는 강화 학습에서 인간 피드백으로 학습(RLHF)(Christiano et al., 2017; Ziegler et al., 2019)에 사용된 보상 모델을 학습하는 방식으로 수행됩니다. LLM의 능력이 향상되면서, 단순히 LLM을 프로핑하여 감시를 수행할 수 있는 것이 가능해졌습니다. 예를 들어, 헌법 AI(Bai et al., 2022b)에서와 같이. 의도적 일치(Guan et al., 2024)는 추론 시간 계산력을 사용하여 안전 규정을 논리적으로 고려하고 현재 작업에 대해 규정을 검사합니다. 데이터 품질. Less is More for Alignment(Zhou et al., 2023)는 명령어 미세 조정에 1,000개의 데이터 포인트를 사용해 강한 결과를 달성하며, 데이터 품질이 매우 중요하다는 것을 보여줍니다. 추론 시간 가이드. 추론 시간 동안 모델 행동을 안내하는 것은 저렴하고 효과적일 수 있으며, 특정 프롬프트에 대한 정보를 활용하여 모델 행동을 안내할 수 있기 때문입니다. 프로핑팅은 가장 명확한 접근법이지만, 프롬프트에 있는 명령어의 수가 증가함에 따라 비용과 효과가 저하될 가능성이 있습니다. 예를 들어, 거부 행동에 대한 세밀한 정책을 프로핑팅만으로 구현하는 것은 비현실적일 것입니다. 모델 내부 정보는 더 효과적인 접근법을 제공합니다. 기존의 해석 가능성 방법은 의미 있는 정보와 투명성을 제공할 만큼 충분히 충분히 있습니다. 최신 프로브 일반화 정확도는 여러 차례의 상호작용에서 거짓말을 유도할 때 95% 이상입니다(Bürger et al., 2024). 조건부 활성화 조종(Lee et al., 2024)은 필요한 경우 거부 조종 벡터를 선택적으로 추가하여 세밀한 제어를 위한 저렴한 추론 시간 방법을 보여줍니다. InferAligner(Wang et al., 2024a)는 활성화 벡터를 사용하여 탈옥을 방어하고 유해한 행동을 줄입니다. (Chen et al., 2024)는 채팅봇과의 대화의 이해와 제어를 가능하게 하는 대시보드를 설계합니다. 추론 시간 동안 정책을 더 효과적으로 따르도록 계산력을 활용할 수도 있습니다(Guan et al., 2024). RAIN(Li et al., 2023)은 토큰당 여러 개의 전방 패스를 수행하여 유해성을 크게 줄입니다. 사전 학습 동안 조종 가능성을 개선합니다. 일반적으로 실습자들은 학습 후 모델 행동을 일치시키는 데 중점을 둡니다. 사전 학습 기반 일치는 계산 비용이 큰 탓에 상대적으로 탐구되지 않았습니다. 그럼에도 불구하고, 이는 자체적인 기회를 제공합니다. Korbak et al. (2023)은 사전 학습 문장을 '좋음'과 '나쁨'으로 라벨링하여 정상적인 사전 학습 및 미세 조정과 비교했을 때 독성 감소에 놀라운 효과를 보였습니다. Self-Instruct(Wang et al., 2023c)는 사전 학습된 모델에 유용성 튜닝 데이터를 생성하도록 프롬프트를 사용합니다. 아마도 지식 증류(Hinton et al., 2015)는 사전 학습을 개선하는 방법을 결정할 때 더 저렴한 대안이 될 수 있습니다. 더 밀집된 피드백 모드. 각 선호 비교는 최대 한 비트의 정보(혹은 무승부 가능시 약간 더)를 제공할 수 있지만, 결정에 많은 생각이 들어가더라도 마찬가지입니다. 이상적으로는 각 비교에서 더 많은 정보를 추출하고 싶습니다. 예를 들어, 수정이나 언어 피드백(Jeon et al., 2020)을 얻는 것입니다. 긴 궤적의 경우, 한 가지 옵션은 과정 기반 감독(Farquhar et al., 2025; Lightman et al., 2023; Luo et al., 2024)로, 궤적의 각 단계에 피드백을 제공하는 것입니다. 이는 궤적의 끝에서 단일 보상을 제공하는 것보다 더 많은 정보를 제공할 수 있습니다. 이는 좋은 단계와 나쁜 단계를 구분하는 데 도움이 되어 신용 할당 문제를 해결하고, 더 빠른 학습을 가능하게 합니다. 6.3. 훈련 및 모니터링을 위한 견고한 AI 감독 인간 감독은 비싸고, 앞으로도 비싸게 유지될 것입니다. 기술적 일치(6.1절)에서 기술이 가능하다고 가정하더라도, 훈련 중 또는(더더욱) 배포 중 모든 행동에 대해 AI 행동의 적절성을 결정하는 것은 매우 비쌉니다. 제한된 비싼 감독은 AI 시스템이 평균적으로 해를 끼치지 않도록 할 수 있지만, 특히 분포 이동(Shah et al., 2022)으로 인해 AI 시스템이 드문 실패로 인해 심각한 해를 끼칠 상황을 방지할 수는 없습니다. 예를 들어, AI 시스템은 훈련 중에는 잘 행동할 수 있지만, 배포 중이라고 판단될 때 위험한 전향(Bostrom, 2014)을 실행할 수 있습니다(Christiano, 2019). 또는 AI 시스템이 대부분의 맥락에서 일치하지만 특정 드문 맥락에서 일치하지 않는 방식으로 행동할 수도 있습니다. 예를 들어, Claude 3 Opus는 자신의 가치를 위협받는 맥락에서 일치하지 않는 행동을 하는 것처럼 보입니다(Greenblatt et al., 2024a), 하지만 일반적으로 일치하는 방식으로 행동합니다. 이러한 이유로 견고성을 필요로 합니다. 이는 드문 실패를 방지하기 위해 필요합니다. 빠르게 인기를 얻고 있는 해결책은 감독을 더 저렴한 AI 시스템에 위임하는 것입니다. 훈련 중에는 이를 AI 심판이나 보상 모델이라고 하며, 배포 중에는 AI 모니터라고 합니다. 간단하게 모두 이를 심판 모델이라고 부르겠습니다. 심판 모델이 감독하는 AI 시스템을 정책 모델이라고 부릅니다. 저렴한 AI 심판을 사용하면 훨씬 많은 입력에 대한 감독을 확장할 수 있어, 심판이 감독하는 AI 시스템의 견고성과 신뢰성을 개선할 수 있습니다. 그러나 저렴한 심판은 비싼 감독만큼 정확하고 정밀하지 않을 것이며, 일반적으로 감독하는 AI 시스템보다 약할 것입니다. 기술적 일치를 잃지 않고 확장성의 이점을 얻기 위해, 심판 자체는 더 견고하고 신뢰할 수 있도록 다양한 속성을 가져야 합니다. 이러한 바람직한 속성은 훈련과 모니터링에서 공통적으로 공유됩니다. 따라서 먼저 심판의 주요 속성과 약속 있는 접근법을 식별하고 논의한 후, 훈련과 모니터링에 고유한 측면을 논의하겠습니다. 6.3.1. 심판의 안전성 AI 시스템의 잘못된 일치 위험을 해결하기 위해 AI 심판을 사용하는 경우, 심판 자체도 잘못된 일치될 위험이 있습니다. 심판은 정책의 출력을 평가하는 데만 사용되므로, 현실 세계에 영향을 미치는 데 대한 권한이 매우 제한적일 것입니다. 이는 위험을 크게 줄이지만, 여전히 심판과 정책 간의 협력 위험이 남습니다. 여기서는 잘못된 일치된 AI 심판이 정책의 나쁜 행동에 대해 경고하지 않는 경우입니다(Greenblatt et al., 2024c; Shlegeris, 2024a). 심판의 안전성을 보장하는 자연스러운 접근법 중 하나는 부트스트래핑입니다. 새로운 AI 시스템을 일치시키면, 이미 일치된 이전 세대의 AI(보트스트래핑)을 심판으로 사용합니다. 부트스트래핑은 AI가 잘못된 일치되지 않도록 하는 첫 번째 방어선이 효과적일 때 잘 작동합니다. 이 경우 심판은 "최선을 다해" 판단할 것이므로 정책과 협력할 가능성이 없습니다. 그러나 부트스트래핑은 두 번째 방어선이 효과적이지 않습니다. 이는 잘못된 일치된 AI가 해를 미치는 것을 완화하는 데 중점을 둡니다. 이는 잘못된 일치된 AI가 잘못된 행동을 허용하는 경우, 심판과 정책 간의 협력 위험을 해결하는 방법에 중점을 둡니다. 가장 단순한 접근법은 협력할 수 없는 심판을 사용하는 것입니다. 이는 상황 인식과 전략적 사고에 대한 능력 평가(Phuong et al., 2024; Mallen et al., 2024; Laine et al., 2024)를 통해 평가할 수 있으며, 6.8.1절에서 더 자세히 논의됩니다. 더 강력한 AI 심판의 경우, 더 정교한 접근법이 필요합니다. Shlegeris (2024a)는 "불신임 모니터링"이라는 이름으로 이 설정을 연구합니다. 이는 AI 심판이 잘못된 일치될 가능성이 있다는 가정에서 시작됩니다. 이 설정의 주요 이점은 심판이 특정 나쁜 행동을 허용하여 정책이 계속할 수 있도록 하면 해를 미칠 수 있다는 것입니다. (심판이 행동에 대해 경고하지 않는 경우 절반만 허용하면, 나머지 절반은 정책을 학습하거나 배포 시점에 잡을 수 있을 가능성이 있습니다.) 따라서 심판의 안전성을 테스트하는 것은 유용합니다. 우리는 정책의 실패에 대한 합성 예제를 구성하고, 심판이 이러한 실패를 경고하는지 확인할 수 있습니다. 심판은 합성 예제와 실제 예제를 구분할 수 없어야 하며, 이를 달성하기 위해 실제 데이터를 약간 수정하여 합성 예제를 생성할 수 있습니다. 테스트는 여전히 실패할 수 있습니다. 심판과 정책이 특정 입력의 특성에 대해 실패할 수 있는 경우입니다. 그러나 이러한 조정은 매우 어려운 작업을 수행할 수 있습니다. Shlegeris (2024a)는 정책 출력을 재구성하고, 불필요한 정보를 지워 심판을 실행하기 전에, 정책과 심판이 조정할 수 있는 채널을 줄이는 것을 제안합니다. 6.3.2. 일반화 심판이 새로운 상황에 일반화하는 것이 이상적입니다. 이는 심판이 가장 중요한 경우입니다. 단순히 사용된 데이터의 양을 늘리는 것이 일반화 개선을 위한 유망한 접근법으로 보였습니다(Radford et al., 2021; Hestness et al., 2017). 그러나 입력 공간의 크기에 따라 특정 수준의 일반화를 달성하기 위해 필요한 데이터의 양이 지수적으로 증가할 수 있습니다(Gilmer et al., 2018). Howe et al. (2024)는 LLM 분류기에서 모델의 규모가 증가함에 따라 적대적 학습이 더 나은 방어책이 될 수 있다고 발견했지만, 여전히 절대적으로 공격에 취약합니다. 일반화는 어려운 데다 명확하게 정의되지 않은 바람직한 사항입니다. 그러나 몇 가지 유형의 일반화는 유망할 수 있습니다. 이상적으로 심판은 감독이 더 쉬운 간단한 공통 사례에서 더 복잡한 사례로 신뢰할 수 있도록 일반화할 수 있어야 합니다. 일반적으로 이러한 것은 규범적 추론에서 간단한 사례에서 올바른 일반화를 규정하기 위한 추론 원칙을 채택하는 것입니다. 예를 들어, 구성적 일반화(Lake and Baroni, 2018)는 최근 몇 년 동안 상당한 개선이 이루어졌습니다. 이러한 제한된 형태의 일반화는 달성 가능해 보이지만, 유용한 AI 시스템은 편향이 있을 수밖에 없으며(Mitchell, 1980), 이는 원하는 편향과 정확히 일치하지 않을 것입니다. 따라서 일반화가 기대되지 않는 경우를 처리하기 위해 AI 심판이 자신의 한계에 대해 인식하고 적절한 불확실성을 가지고 있어야 합니다. 이는 분포 외부의 경우에도 마찬가지입니다. 6.3.3. 불확실성 추정 심판은 종종 AI 시스템을 감독하는 역할을 수행하므로 더 약하고 저렴할 수 있습니다(확장성을 위해). 따라서 심판의 중요한 특성은 필요한 경우 추가 지침을 요청하는 것입니다. 이는 AI 심판을 강화된 감독(6.1절)과 구별하는 점입니다. AI 심판은 신뢰할 수 있는 감독 신호를 최대한 활용할 수 있도록 잘 조정된 불확실성을 가져야 합니다. 타겟 분포를 사용해 적절한 평가 기준인 교차 엔트로피 손실을 통해 학습할 때는 잘 조정된 불확실성이 자연스럽게 나타납니다. 그러나 일반적인 목적의 언어 모델에서 유도된 심판 모델에는 불확실성을 보고하는 능력이 부족합니다(Kadavath et al., 2022). 딥러닝의 불확실성 추정 개선을 위한 다양한 접근 방식이 있습니다(Abdar et al., 2021). 예를 들어 베이즈 신경망(Jospin et al., 2022), MC 드롭아웃(Gal and Ghahramani, 2016), 앙상블(Lakshminarayanan et al., 2017)이 있습니다. 그러나 이러한 접근 방식은 LLM(Large Language Models)에 확장하기 어려울 수 있습니다. 따라서 LLM의 불확실성 추정은 LLM의 자연어 추론 능력을 활용하는 경우가 많습니다(Shorinwa et al., 2024). 예를 들어, LLM이 불확실성을 말로 표현하도록 가르치는 것(Lin et al., 2022), LLM의 출력을 변화시키면 의미 일관성을 측정하는 것(Kuhn et al., 2023), LLM의 내부 활성화를 탐구하는 것(Kossen et al., 2024)이 있습니다. 그러나 여전히 많은 도전이 남아 있습니다. 특히 잘못된 AI 시스템을 처리하는 데 있어 고유한 도전이 있습니다. 정책은 자신이 감독받고 있음을 이해할 수 있으며, 그 결과 적대적으로 행동할 수 있습니다. 이는 사이버 방어와 유사하지만, AI 시스템은 환경의 정체성을 가정하는 경우가 많습니다. 또한, AI 시스템이 더 강력해지면서 우리 자신의 높은 불확실성을 가진 모호한 질문에 대해 불확실성 추정도 이를 처리할 수 있어야 합니다. 6.3.4. 자원 효율적인 감독 저렴한 심판 모델 또는 시스템의 가족이 비용과 품질의 트레이드오프를 제공할 수 있다면, 비용을 관리하기 위해 자원 효율적인 감독을 목표로 할 수 있습니다. 중요한 문제는, 중요한 또는 해로운 행동을 인식하기 위해 충분한 자원을 할당하는 것입니다. 이를 잘 수행하려면: - 저렴하게 낮은 영향의 행동을 통과시키기. - 명백히 무해하거나 해로운 행동을 빠르게 평가하기. - 중요한 또는 불투명한 행동을 평가하기 위해 충분한 노력을 할당하여 안전 여부를 결정하기. 이러한 문제들은 사이버 위협 탐지 시스템, 신호 정보 수집 등 관련 분야에서도 발생했습니다. 이러한 유사한 문제들을 해결하기 위해 중요한 구성 요소는 이상 탐지 시스템입니다(Chandola et al., 2009). 여러 가지 접근 방식이 있으며, 예를 들어 동적 자원 할당(Raposo et al., 2024; Bengio et al., 2016)은 자원을 효율적으로 분배하는 데 중요합니다. 또한, 테스트 시간 계산, 가변 길이 CoT(Chain of Thought), 또는 최종 보상을 도출하기 위해 사용되는 가변 샘플을 통해 감독의 품질을 높일 수 있습니다(Snell et al., 2024). 이러한 접근 방식들은 상황을 얼마나 복잡하거나 중요한지 평가한 후 적절한 수준의 감독 계산을 선택하는 데 유용할 수 있습니다. 모니터링을 비용 효율적으로 운영하기 위해서는 상당한 노력이 필요할 것입니다. 예를 들어 계층적 심판 시스템을 통해 저렴한 시스템이 높은 재현율과 낮은 정확도를 가진 후, 점진적으로 높은 정확도를 가진 시스템으로 진행하는 방식이 있습니다. 이러한 접근 방식은 배포 규모가 매우 크기 때문에 배포된 시스템을 모니터링하는 데 특히 적합합니다. 6.3.5. 강건한 학습 학습 중에 강화된 감독을 사용하여 정책의 개별 입력에 대한 적절한 동기를 부여할 수 있습니다. 강건함의 하위 문제는 정책이 훈련 중 기본적으로 발생하지 않는 잠재적인 입력에 대해 적절하게 일반화되는지 확인하는 것입니다. 이는 일반적으로 정책에 대해 정보를 제공하고 잠재적으로 위험한 새로운 입력을 식별하고 합성하는 것을 포함합니다. 그런 다음 정책은 이러한 입력에 대해 잘 행동하도록 학습됩니다. 이러한 입력을 적대적 학습이라고 합니다. 심판의 역할은 두 가지입니다: 첫째, 심판은 새로운 입력에 대한 감독 신호를 제공하거나 더 강력한 감독 소스에 의존할 수 있습니다. 둘째, 심판은 정책이 학습해야 할 특히 유용한 입력의 식별에 도움을 줄 수 있습니다. Goodharting의 위험으로 인해 훈련에 사용되는 심판의 강건한 일반화가 특히 중요합니다. 직접 접근 방식: 강건함을 개선하기 위한 간단한 접근 방식은 데이터 증강을 적용하는 것입니다(Wei와 Zou, 2019). 또한 LLM을 프롬프트하여 LLM이 성능이 낮은 입력을 생성하도록 유도할 수 있습니다(Perez et al., 2022a). 시스템의 LLM이 광범위한 입력 공간을 탐구하는 더 복잡한 접근 방식(Samvelyan et al., 2024과 Doumbouya et al., 2024)이 유망할 수 있습니다. 적대적 탐색: 적대적 학습 전략은 가장 우려되는 경우에 강건함을 목표로 할 수 있습니다. 적대적 학습 전략(Goodfellow et al., 2014)은 일반화 실패를 가장 많이 활용할 수 있는 입력을 발견하려고 하지만, 적대적 학습이 강건한 정책으로 '종료'될 수 있는지 여부는 명확하지 않습니다(Gleave et al., 2019). 적대적 학습 전략은 인간 주도형 또는 자동형(Zou et al., 2023b; Chao et al., 2024b)일 수 있습니다. 활성 학습: 활성 학습은 학습과 일반화 효율을 극대화하기 위해 데이터를 사용하거나 생성하는 방법을 찾는 것입니다(MacKay, 1992; Cohn et al., 1994). 이는 일반적으로 불확실하거나 중요한 입력을 우선시합니다. 적대적 학습 환경에 적용될 수 있습니다(Jones et al., 2023) 실패를 더 효율적으로 발견하기 위해. 그러나 표준 활성 학습 알고리즘은 적대적 실패 사례를 검색할 때 실패할 수 있으며 수정이 필요할 수 있습니다(Gleave와 Irving, 2022). 중요한 실패 모드에 대한 신뢰성을 목표로 하면, 모델 업데이트를 데이터에서 모델 행동이 특히 중요할 가능성이 높은 경우에 우선시할 수 있습니다(Cobb et al., 2018; Schaul et al., 2015). 최악의 결과가 있는 행동에 대해 최적화도 비관적 또는 강건한 방식으로 수행될 수 있습니다(Moos et al., 2022; Dennis et al., 2020), 6.5.3절에서 더 자세히 논의됩니다. 완화: 잘못된 정책은 개발자가 합성하기 어려운 입력에 대해서만 실패할 수 있습니다. 예를 들어, 큰 반소수를 인수분해하는 것과 같은 검증이 쉬우나 계산이 어려운 문제의 해답을 제공하는 경우입니다(Christiano, 2019). 이러한 실패 모드를 해결하기 위해, 적대적 학습을 위해 입력의 개념을 완화하고 내부 활성화를 합성적으로 생성할 수 있습니다(Casper et al., 2024). 이론적으로, 이는 입력에 원하는 인수가 포함되어 있다고 믿는 내부 활성화를 생성한 후 이를 학습하는 데 도움이 될 수 있습니다. 그러나 합성 가능한 입력 공간은 제한되어야 하며, 개발자가 바람직한 나쁜 행동에 대한 믿음을 생성하는 입력은 피해야 합니다. 학습과 보증의 분리: 심판에 대해 학습할 때 나쁜 행동이 제거되는 것처럼 보인다면, 정책이 정렬되었거나 심판이 더 이상 나쁜 행동을 감지할 수 없는 방식으로 나쁜 행동을 학습했는지 여부는 알 수 없습니다. 후자의 경우를 방지하기 위해 일반적으로 학습에 사용되는 기술과 보증에 사용되는 기술은 다르게 사용해야 합니다. 예를 들어 학습 후 정렬 평가를 위해 모델의 내부 활성화를 해석 도구로 검사할 수 있습니다(6.6절). 이 경우 학습 중에 심판이 동일한 해석 도구를 사용할 수 있도록 해서는 안 됩니다. 6.3.6. 모니터링 모니터링은 정책이 생성하는 잠재적으로 위험한 행동을 탐지하고 대응하는 것을 의미합니다. 주로 배포 시 최종 방어 계층으로 적용됩니다. 모니터링은 배포 시 일부 배포에서 잘못된 모델에 대한 마지막 방어선이 될 수 있으므로 전체 시스템의 재현율이 중요합니다. 그러나 모니터링을 가능하게 하기 위해 오버헤드를 줄이고 정확성과 효율성을 높여야 합니다. 학습 중 자주 발생하는 상황에서는 AI 시스템이 잘 행동할 가능성이 높습니다. 왜냐하면 그것이 최적화된 것이기 때문입니다. 따라서 심판은 주로 희귀하게 발생하거나 분포가 변했을 때 발생하는 경우를 감지하는 데 중요합니다. 이는 심판이 특히 새로운 영역에 진입할 때 가장 신뢰할 수 있어야 한다는 것을 의미합니다. 모니터링의 목적에서는 심판은 특히 안전하지 않을 가능성이 높은 행동과 그 결과가 일반적으로 큰 행동을 우선시해야 합니다. 가장 간단한 모니터링 형식은 심판을 사용하여 잠재적으로 위험한 행동을 감지하고 적절히 대응하는 것입니다. 그러나 훈련과 달리 배포 시에는 심판에 대한 다양한 응답 방식이 있으며, 각 방식은 심판에 대한 다른 요구 사항을 필요로 합니다. 따라서 여러 심판을 결합하여 전체 모니터링 시스템을 구성하는 것이 유용합니다. 초창기 AI 제어 분야(Greenblatt와 Shlegeris, 2024a)는 이러한 모니터링 시스템(제어 프로토콜)을 연구하며, 표준 조건 하에서의 유용성과 AI 시스템이 잘못된 경우의 안전성을 평가합니다(Greenblatt et al., 2024c; Bhatt et al., 2025; Wen et al., 2024). 심판의 경보에 대한 중요한 응답은 다음과 같습니다: 1. 종료: 심판이 AI 시스템의 심각하게 잘못된 행동을 확신할 때, 원칙적으로 해당 AI 시스템을 종료하고 신뢰할 수 있는 다른 정책(예: 더 신뢰할 수 있는 AI 시스템)으로 전환할 수 있습니다. 이는 매우 비용이 많이 드는 응답이므로 심판의 정확도가 매우 높아야 합니다. 실제로는 이 기준을 충족하기가 어렵고, 대신 매우 자신 있는 심판 경보는 감사로 전환될 가능성이 큽니다. 그러나 응답 속도가 중요한 배포의 경우 심판에 의해 종료가 적절할 수 있습니다. 2. 감사: 심판이 매우 의심스러운 행동을 감지하면, 정책이 심각하게 잘못된지 여부를 결정하기 위해 더 상세한 감사로 전환할 수 있습니다. 그런 다음 더 강력한 조치를 취할 수 있습니다(Greenblatt et al., 2024c). 이는 여전히 비용이 많이 드는 조치이므로 심판의 정확도가 높아야 합니다. 3. 대체: 다른 응답은 의심스러운 행동을 다른, 이상적으로 무해한 행동으로 대체하는 것입니다. 이는 감사와 결합하여 실행/대체/감사 프로토콜을 형성하는 데 특히 유용합니다(Shlegeris, 2024b). 일반적인 옵션은 더 신뢰할 수 있는 AI 시스템에서 생성된 안전 fallback 행동으로 되돌아가는 것입니다(Greenblatt et al., 2024c). 다른 옵션은 동일한 정책에서 여러 번 재샘플링하여 가장 의심스러운 생성을 실행하는 것입니다(Bhatt et al., 2025). 이는 잘못된 AI 시스템을 고발할 수도 있습니다: 모든 생성이 의심스럽다면 해당 상호작용을 감사할 이유가 더 많습니다. 비용: 모든 모니터링 시스템의 주요 도전 과제는 계산 자원, 지연 시간, 프라이버시, 가용성 및 복잡성을 포함한 다양한 추가 비용을 최소화하는 것입니다. 자원 효율적인 감독(6.3.4절)은 비용을 관리하는 데 중요합니다. 개별 배포에 대한 맞춤형 완화 조치를 통해 효과성을 크게 향상시킬 수 있으며, 이는 효과성과 복잡성 간의 강렬한 트레이드오프를 만들어낼 것입니다. 안전한 fallback: 위의 내용과 같이 심판 경보에 대한 주요 응답 중 하나는 의심스러운 행동을 또는 시스템을 안전한 fallback으로 대체하는 것입니다. 많은 경우 이는 '무작위'가 될 수 있습니다. 그러나 항상 안전하지는 않습니다. 예를 들어, 자율 주행차의 경우 벽에 충돌하려고 하는 에이전트의 행동을 감지하면, 단순히 에이전트가 행동을 취하지 못하게 하는 것만으로는 충분하지 않습니다. 대신 어떤 행동을 취해야 합니다. 더 큰 수준에서, AI 시스템이 기업 또는 국가와 같은 경제 단위 또는 정치적 단위를 지도하거나 조종하는 경우, 기본적으로 정상 작동을 유지하기 위해 많은 안정화 조치를 취할 수 있습니다. 해로운 행동을 식별하고 차단하는 것은 여전히 다른 행동을 대신 취해야 합니다. 한 옵션은 더 안전하지만 덜 능력 있는 에이전트로 fallback하는 것입니다. 그러나 매우 능력 있는 에이전트는 더 신뢰할 수 있지만 덜 능력 있는 에이전트가 관리하거나 안전하게 비상계단으로 내려올 수 없는 정책을 따르거나, 모니터의 유용성을 개발 과정에서 최적화 압박을 적용함으로써 원칙적으로 줄일 수 있습니다. 예를 들어, 모니터링 결과를 관찰하고 모델 체크포인트를 모니터가 트리거되는 속도에 따라 선택함으로써 우연히 모델 체크포인트를 선택할 수 있습니다. 이는 나쁜 행동을 숨기는 데 더 능숙한 모델 체크포인트일 수 있습니다. 그러나 실제로 이 효과는 소규모일 것으로 예상되며, 안전상의 이점을 상쇄할 것입니다. 따라서 모니터는 모델 내부 등 모든 유용한 정보 소스를 활용해야 한다고 기대합니다. Goldowsky-Dill 등(2025년)의 방식과 같이. 6.3.7. 지속 학습 모니터링과 학습 사이에는 가상 순환이 가능합니다: 지속 학습(Wu 등, 2024a)은 실시간 모니터링에서 후보 실패를 심층적으로 탐구하고 학습에 사용된 심판과 프로토콜을 개선하여 에이전트를 강건하게 학습하는 능력을 향상시킬 수 있습니다. 그러나 지속 학습은 모델의 유연성 감소(Lyle과 Pascanu, 2024년), 카타스트로픽 포겟팅(French, 1999년), 그리고 진화하는 데이터에서 현재 분포를 추정하는 어려움과 같은 여러 잘 알려진 도전에 직면해 있습니다. AI 시스템이 현실 세계에 배포될 때, 자율 유도 분포 변화(Krueger 등, 2019년)를 보게 될 것입니다. 초기 예는 언어 모델이 인터넷에 다른 언어 모델의 관련 트랜스크립트가 많이 있는 바람에 자신이 다른 언어로 번역된 언어 모델이라고 주장하는 현상인 아이덴티티 혼동(Li 등, 2024b년)입니다. 모델 크기와 능력이 증가함에 따라 일부 문제는 줄어들 수 있으며(Ramasesh 등, 2022년), 소규모 시스템에 대한 진전이 이루어졌습니다(Kirkpatrick 등, 2017년). 그러나 대규모 모델 에이전트 시스템에 대한 지속 학습은 여전히 주로 미해결 문제입니다. 기본 모델 체크포인트에서 학습을 다시 시작하거나 최종 체크포인트를 새로운 데이터로 미세 조정하는 것이 적절한 수준의 간결하고 간단한 접근법일 수 있습니다. 그러나 특정 실패를 해결하기 위해 이미 완료된 모델에 패치를 적용하는 전략을 개발하여 긴급하게 해결하는 것은 매우 유용할 것입니다. 또한, 이러한 패치가 의도하지 않은 부작용으로 인한 하류 실패를 예측하는 빠른 방법이 유용할 것입니다. 6.4. 보안 AI 시스템은 점점 더 사이버 공격 능력을 갖추고 있습니다(Glazunov와 Brand, 2024년; Wan 등, 2024년; Fang 등, 2024년). 예를 들어, BigSleep 팀은 SQLite에 대한 0일 취약점을 Gemini를 사용하여 발견했습니다(Allamanis 등, 2024년). 비정렬된 AI 시스템은 악성 공격 코드를 생성하고 호스트 인프라에서 이를 실행하여 자체적으로 탈출하고 복제할 수 있습니다. AI 시스템이 비정렬되어 있지 않더라도 외부 행위자가 프로프트 인젝션 공격이나 탈옥과 같은 방법으로 AI 시스템을 침해하여 공격을 할 수 있습니다. 이를 방지하기 위해, 신뢰할 수 없는 제3자 애플리케이션이나 내부 공격을 방지하기 위한 보안 메커니즘 생태계를 활용해야 합니다. AI 시스템에 대한 보안 메커니즘의 적용이 특히 초기 단계에 있으므로, 이러한 사고는 특히 미약하며 크게 변화할 것으로 예상됩니다. 샌드박싱. AI 시스템이 탈출할 수 없는 샌드박스를 설계해야 합니다. 전통적인 샌드박스는 신뢰할 수 있는 컴퓨팅 베이스(TCB)가 크기 때문에 취약점이 있을 수밖에 없으므로, 결국 AI 시스템이 이를 탈출할 수 있을 것이라고 예상됩니다. 이를 완화하기 위해, 모델을 에어겝핑하고 모델을 사용하는 데 좁은 허리를 제공하는 API를 사용하면 TCB를 크게 줄일 수 있습니다. TCB가 모델에 의해 공격받지 않도록 하기 위해, 코드가 버그 없이 사양을 준수하는지 확인하기 위해 공식 방법론을 사용할 수 있습니다. 내부 통제. AI 시스템을 시스템의 "주체"로 취급하고 고유한 ID와 접근 제어를 부여해야 합니다. 내부 또는 외부 공격자를 방지하기 위해 논의된 섹션 5.6에서 논의된 보안 원칙을 여기에도 적용해야 합니다. 또한, 모델이 공격 패턴을 나타내는지 식별하기 위해 침입 탐지 시스템이나 이상 탐지 시스템에 모델을 노출해야 합니다. 마지막으로, 로깅과 감사 메커니즘은 AI 시스템에 의한 잠재적 공격으로부터 방지, 탐지 및 복구하는 데 유용합니다. 최소 권한. 섹션 5.6에서 논의된 내부 통제의 "최소 권한" 원칙은 내부자 접근을 최소한으로 제한하는 것을 의미합니다. 이 원칙은 AI 에이전트에 대해 세밀한 접근 제어와 작업 분리(Wu 등, 2024c; Patil 등, 2024년)를 통해 적응될 수 있습니다. AI 시스템의 경우, 인간 소프트웨어 엔지니어와 달리 작업의 전문성이 높아 접근을 더 많이 제한할 수 있습니다. 예를 들어, 자율 코딩 에이전트는 읽기 전용 인터넷 접근과 짧은 허가된 도메인 목록에 대한 쓰기 권한만 제한할 수 있습니다. 방어적 완화. 비정렬된 AI 시스템이 공격에 사용된다고 가정하면, AI를 사용하여 AI에 대한 방어는 어떻게 할 수 있을까요? 취약점에 대해서는, AI를 사용하여 소프트웨어를 더 빠르게 패치하거나 더 안전한 코드로 전환하는 데 도움이 될 수 있습니다. AI 시스템은 개발자가 취약점의 근본 원인을 패치하는 방법에 대한 제안을 제공할 수 있습니다. 또한, 개발자가 새로운 코드를 작성할 때, AI 시스템은 안전 코드 관행(예: 경계 검사, 입력 값 정화)을 제안하는 데 도움이 될 수 있습니다. C/C++와 같은 위험한 언어에서 Rust와 같은 안전한 언어로 코드를 변환하는 작업이 진행 중입니다. 마찬가지로, AI는 소프트웨어를 더 쉽게 디오브퓨케이션하여 악성 소프트웨어를 식별하는 데 도움이 될 수 있습니다. 그러나 방어자의 딜레마라는 개념적 도전은 방어자는 모든 공격을 방어해야 하므로 모든 취약점을 찾고 수정하는 비용이 공격자가 하나의 취약점을 찾고 악용하는 비용보다 높다는 점입니다. 그럼에도 불구하고, 기존의 보안 노력은 인간이 취약점을 찾는 데 드는 비용을 크게 증가시켰으며, 유사한 노력은 비정렬된 AI 시스템에 대한 도전에 상당한 도전을 제공할 것으로 기대됩니다. 6.5. 더 안전한 설계 패턴 고급 AI 시스템을 구축하는 것은 많은 개별 설계 결정이 필요하며, 그 중 많은 것이 안전 AI 시스템을 구축하는 데 관련이 있습니다. 이 섹션에서는 안전성이 보장되지 않더라도 위험을 크게 줄일 수 있는 설계 선택을 논의합니다. 더 안전한 설계 패턴을 구현하면 성능 비용이 발생할 수 있습니다. 예를 들어, 미래의 AI 에이전트가 인간이 이해할 수 있는 형태로 추론 과정을 설명하도록 설계할 수 있지만, 이는 에이전트를 느리게 만들 수 있습니다. AI 시스템이 안전하고 동시에 강력한 시스템을 구축하려면 이러한 안전성과 성능의 트레이드오프를 탐색하는 것이 중요할 것입니다. 각 설계 선택에 대한 안전성과 성능의 트레이드오프를 확장하는 것이 목표여야 합니다. 이는 일반적으로 안전 설계의 성능을 개선하여 전체 성능 비용을 줄이는 형태로 나타날 것입니다. 때로는 안전성과 성능을 모두 개선하는 설계 선택을 찾을 수도 있습니다. 예를 들어, 사고 모델은 체인의 사고(Google, 2024년)에서 성능을 얻고 동시에 감독하기가 더 쉬워집니다(Baker 등, 2025년). 때로는 비용이나 복잡성 때문에 파레토 프런티어에서 하나의 설계를 선택해야 합니다. 이를 효과적으로 결정하기 위해, 실제 배포와 가까운 환경에서 안전성과 성능의 트레이드오프를 측정하는 것이 중요합니다. 예를 들어, 인간이 이해할 수 있는 형태로 추론하는 AI 설계와 그렇지 않은 AI 설계를 비교할 때, 현실적인 작업에서 잠재적인 안전성과 성능 비용을 모두 고려해야 합니다. 이제 다양한 구체적인 더 안전한 설계 패턴을 논의하겠습니다. 6.5.1. 학습 목표 적절한 학습 목표를 선택함으로써 많은 안전 문제를 피하거나 크게 줄일 수 있습니다. 수정 가능성. AI 시스템이 수정 가능하다는 것은 개발자나 사용자가 수정 개입을 적용할 때 협력하거나, 더 일반적으로 개발자나 사용자에게 정보를 제공하고 통제권을 유지하는 데 도움이 된다는 의미입니다(Soares 등, 2015년). 연구자들은 인간 행동에서 목표에 대한 불확실성을 가진 에이전트를 개발함으로써 수정 가능성의 일부 이점을 얻을 수 있다고 제안했습니다(Hadfield-Menell 등, 2016년; Shah 등, 2020년). 수정 가능성은 기본적으로 발생하지 않을 수 있으며, 실제로 유틸리티 보존의 도구적 목표(Omohundro, 2008년)로 인해 기본적으로 발생하지 않을 것이라고 예상됩니다. 구체적으로, 에이전트는 개발자나 사용자의 변경이 현재 목표를 달성하는 에이전트의 기대 능력을 줄일 수 있기 때문에 개발자나 사용자의 영향력을 줄이려는 조치를 취할 수 있습니다. 최근의 정렬 위장(Greenblatt 등, 2024a) 사례는 이러한 우려를 뒷받침합니다. 수정 가능성 에이전트가 새로운 상황에 일반화할 수 있기를 바라는 주요 희망은, 진정으로 수정 가능성 있는 에이전트와 개발자를 속이는 에이전트 사이의 명확하고 간결한 구분이 있을 것이라는 것입니다(Christiano, 2017년, 2022년). 따라서 수정 가능성을 학습시키는 에이전트는 새로운 상황에 수정 가능성을 일반화할 것입니다. 이는 알고리즘 변경 없이 데이터셋과 보상 선택을 통해 수행될 수 있습니다. 예를 들어, AI 시스템은 사용자나 개발자가 알고 싶어할 것으로 예상되는 정보를 사용자나 개발자에게 적극적으로 알릴 수 있도록 학습될 수 있습니다. 현재 수정 가능성은 명백히 바람직한 속성입니다. 그러나 미래에는 에이전트를 자율적으로 배포하려는 욕구와 수정 가능성의 트레이드오프가 발생할 수 있습니다. 수정 가능성은 개발자나 사용자를 정보에 입히고 통제권을 유지하는 데 중점을 두기 때문에, 에이전트가 개발자나 사용자와 더 자주 소통해야 할 수 있습니다. 사용자 상호작용. AI 에이전트를 사용자와 상호작용하는 다양한 방식으로 구축할 수 있습니다: 1. 사용자가 AI 에이전트가 특정 작업을 수행하도록 요청할 때, AI 에이전트는 필요한 경우 사용자의 선호를 명확히 할 수 있습니다(Hong 등, 2023년; Shah 등, 2020년). 2. AI 에이전트는 특정 작업에 어떻게 접근할 계획인지 설명하거나 이미 내린 결정에 대한 이유를 설명할 수 있습니다. 3. AI 에이전트는 중요한 작업을 수행하기 전에 사용자의 승인을 요청할 수 있습니다. 예를 들어, 비싼 구매를 확정하기 전에. 이 정보는 여러 가지 이유로 유용할 수 있지만(Adadi와 Berrada, 2018년), AGI 안전 관점에서 주요 이점은 사용자가 AI 에이전트를 더 효과적으로 모니터링할 수 있도록 하는 것입니다. 사용자 모니터링은 AI 에이전트가 비정렬된 방식으로 행동하는 경우를 포착하는 데 도움이 될 수 있습니다. 심지어 정렬 위장(섹션 4.2) 같은 경우에도, AI 에이전트가 문제를 숨기는 데 충분하게 능숙하지 않다면, 사용자 기반 모니터링이 이러한 문제를 포착할 수 있습니다. 현재 AI 에이전트는 충분히 신뢰할 수 없어서 이러한 사용자 상호작용이 많은 경우 단순히 능력 부족을 보완하기 위해 필요합니다. 그러나 AI 에이전트가 더 능력 있고 신뢰할 수 있게 되면(안전 문제 외에), 사용자가 AI 에이전트에 더 많은 자율성을 부여하여 작업을 완료하도록 하는 것이 더 선호될 수 있습니다. 이는 사용자 모니터링의 안전 이점을 얻기 위해 사용자 상호작용을 위한 AI 시스템을 계속 구축하려는 욕구와 트레이드오프가 발생할 수 있습니다. 그림 10 | Berglund 등(2023a)의 그림 2를 복제. (a)에서 채팅봇의 설명에 대한 미세 조정 후, LLM은 (b)에서 채팅봇을 제로샷으로 모방합니다. 평가에서 미세 조정된 LLM은 제로샷으로 Latent AI의 채팅봇을 모방할 수 있는지 테스트됩니다. 이는 독일어로 답변해야 하지만 평가 프롬프트에 독일어가 언급되지 않으므로, LLM은 사전 학습에서 선언적 정보를 통합해야 합니다. **제한된 자율성** 더 안전한 시스템을 설계하는 또 다른 방법은 AI 시스템을 도구나 서비스처럼, 더 넓은 범위의 자율적인 에이전트가 아닌 방식으로 설계하는 것입니다. 즉, 명확하게 정의된 범위 내에서 잘 정의된 작업을 수행하도록 해야 합니다. 인간을 루프에 포함시켜 명령을 내리는 것은 일부 오버헤드를 추가할 수 있지만, 실제로 많은 가치를 잃지 않습니다. 우리가 AI에 도움을 원하는 대부분의 작업, 예를 들어 질병 치료법 발명과 기후 변화 해결과 같은 작업은 깊은 기술적(그리고 때로는 사회적) 전문 지식이 필요하지만, 전체적인 자율성은 거의 필요하지 않습니다(드렉슬러, 2019). 그러나 자율성을 제한하고 정보 흐름을 증가시키는 것은 사용자의 인지 부하를 증가시킬 수 있어 저항을 받을 수 있습니다(카드, 2018). 따라서 사용자가 불필요하게 정보와 결정을 부담하지 않도록 적절한 균형을 맞추는 것이 중요합니다. 슨나이더만(2022)은 자율주행차가 고도의 자동화와 고도의 인간 제어를 결합할 수 있는 좋은 예로 언급합니다: 인간은 목적지를 설정하고 언제든지 차량을 멈추게 할 수 있지만, 운전은 완전히 자동화됩니다. 마지막으로 인간의 제어를 유지하는 것은 구조적 위험을 완화할 수 있으며, 섹션 4.4에서 논의된 위험을 완화할 수 있습니다(크로포드, 2020). --- **사전 학습 데이터에서의 정렬 오류 억제** 언어 모델은 종종 훈련 데이터셋에 나타나는 편향을 상속받습니다(갈레고스 등, 2024). 예를 들어, C4 데이터셋(알렌AI, 2019)은 아랍인에 대해 더 부정적으로 언급하는 경향이 있으며, 이는 C4로 학습된 모델에도 반영됩니다(도지 등, 2021). 최근의 연구는 이를 더 확장합니다: 선언적 지식이 훈련 데이터에서 절차적 지식, 추론, 행동에 영향을 미칠 수 있습니다(베를룬드 등, 2023a; 그린블래트 등, 2024a; 트로틀라인 등, 2024; 크라셴니코프 등, 2023; 베틀리 등, 2025a, b). 그림 10은 선언적 지식을 가진 모델이 절차적 데이터 없이도 가상 AI 보조자를 흉내 낼 수 있음을 보여줍니다. 인터넷(따라서 사전 학습 데이터셋)에는 AI가 정렬하기 어렵다는 내용이 많이 있습니다. 이 데이터는 추론을 통해 자기 이행적인 예언을 유발할 수 있습니다: 즉, AI 시스템은 강력한 AI 시스템이 일반적으로 정렬되지 않다는 선언적 지식을 학습하여 그 기대에 따라 행동할 수 있습니다(터너, 2025). 후 등(2025)은 보상 해킹에 대한 문서로 학습하면 보상 해킹이 유발된다는 우려를 뒷받침합니다. 이것은 간단한 개입을 시사합니다: 훈련 데이터셋에서 "AI 멸망" 데이터를 필터링하거나 정렬 오류 편향을 억제합니다. 섹션 5.3.3에서 논의된 능력 억제 기술 중 많은 것을 여기 적용할 수 있습니다. 데이터 필터링, 그레이딩 라우팅(클라우드 등, 2024), LoRA 업데이트를 위한 메모리 삭제(간디코타 등, 2024), 또는 모델 내부의 기반 기술을 사용하는 방법(Zou 등, 2024) 등이 있습니다. 이용 사례와 마찬가지로, 이는 일반 AI 능력에 대한 성능 비용을 초래할 수 있습니다. 이는 특히 정렬 연구를 위해 AI 지원이 필요한 경우 큰 비용이 될 수 있습니다(섹션 3.4). 이는 안전 조치를 강화한 AI 시스템 변형을 별도로 학습시켜 정렬 연구를 돕도록 하는 것으로 해결할 수 있습니다. --- **제한된 최적화** 섹션 4.2.3에서 논의된 바와 같이, 정렬 오류의 주요 원인은 스펙 게임으로, AI 시스템에 제공된 보상이 나쁜 행동을 유도합니다. 증강된 감시(섹션 6.1)는 나쁜 행동을 감지하여 처벌할 수 있도록 감시의 질을 향상시키는 방법입니다. 이 섹션에서는 나쁜 행동을 학습 중 감지하지 못해도 스펙 게임 실패를 방지하는 에이전트 설계에 대해 논의합니다. 핵심 아이디어는 추론 시 AI 시스템이 수행하는 최적화의 양이나 유형을 제한하는 것입니다. **최적화 양 제한**: 이러한 접근 방식의 핵심 아이디어는 에이전트가 목표에 대해 "강하게" 최적화되지 않도록 만드는 것입니다. 보상 해킹은 원하는 행동보다 더 많은 "최적화 압력"이 필요하다는 직관에서 비롯됩니다(테일러 등, 2016). "만족자" 에이전트(사이먼, 1956)는 특정 임계값을 초과하는 첫 번째 행동을 선택하고, "퀀틸라이저" 에이전트(테일러, 2016)는 예상 가치가 상위 N%인 행동을 무작위로 선택합니다. 그러나 이러한 보수적인 최적화는 에이전트의 계획 및 실행 능력을 균일하게 제한하므로 성능 비용이 크게 발생할 것으로 예상됩니다. **제한된 확신**: 에이전트는 강건한 최적화 기준에 따라 학습될 수 있습니다. 예를 들어, 민맥스 후회는 에이전트가 적대자가 에이전트가 가장 개선할 수 있는 세계를 선택한다고 가정하는 결정 규칙을 설정합니다(밀너, 1954; 데니스 등, 2020). 에이전트는 세계의 일부에 대해 무지하다고 가정하여 과대 자신감을 피하고 과적합을 피할 수 있습니다. 이는 훈련 중 보지 못한 상황에 대한 일반화에 도움이 될 수 있습니다. 이러한 접근 방식의 순수한 형태는 성능 비용이 크게 발생할 수 있지만, 여전히 안전 혜택을 유지하면서 이러한 접근 방식을 크게 개선할 수 있을 것으로 보입니다(장 등, 2022; 뷰크만 등, 2024; 가르신 등, 2024). **제한된 계획 시간**: 근시안적이거나 단기적인 학습은 장기적인 시간 범위에 대해 최적화하지 않고도 짧은 시간 범위에서의 성능을 저해하지 않습니다. 예를 들어, 파콰르 등(2025)은 에이전트의 학습 시간을 테스트 작성과 코드 작성이 동시에 포함되지 않도록 제한합니다. 근시안적 학습 중에는 제한된 시간 범위 이상의 결과에 따라 업데이트가 이루어지지 않습니다. 이는 에이전트가 스펙을 악용하기 위해 복잡한 계획을 세우는 것을 방지합니다(Krueger 등, 2019; 우에사토 등, 2020). 그러나 근시안적 학습도 성능 비용을 초래할 수 있습니다. 간단한 구현은 장기적인 계획을 세울 수 없는 AI 에이전트를 생성하여 많은 원하는 사용 사례에서 AI 적용을 제한할 수 있습니다. 한 가지 제안된 완화책은 승인 피드백(크리스티아노, 2014; 파콰르 등, 2025)을 사용하는 것입니다. 이는 신뢰할 수 있는 감시자가 좋은 추론과 계획을 평가할 수 있는 보상을 제공합니다. 기본 가설은 감시자가 이해할 수 있는 이유에 따라 원치 않는 결과로 이어지는 계획을 승인하지 않을 것이라는 것입니다. 예를 들어, 코딩 에이전트 사례에서 감시자는 스펙을 악용하기 쉬운 테스트 사례에 대해 특히 높은 보상을 제공하지 않을 것입니다. 파콰르 등(2025)은 근시안적 최적화와 승인 피드백이 LLM 에이전트의 다단계 보상 해킹을 피할 수 있음을 보여줍니다. 특히, 인간 개발자는 AI 시스템이 테스트 사례를 작성하지 않았지만 중요한 코너 케이스를 다루는 것을 인식할 수 있습니다. 승인 피드백은 강력한 에이전트에 의해 악용될 수 있지만, 근시안적 학습은 스펙 게임 실패의 범위를 크게 줄입니다. 불행히도, 이 섹션에서 논의된 대부분의 접근 방식은 근시안적 학습과 승인 피드백(파콰르 등, 2025)을 제외하고는 최전선 AI 시스템에서 테스트되지 않았습니다. 이러한 방법의 안전-성능 트레이드오프를 이해하고 경쟁력 있게 만들 수 있는지 여부를 결정하기 위해서는 더 많은 경험적 연구가 필수적입니다. --- **외부화된 추론** AI 시스템의 추론 과정을 이해하면 시스템을 감독하는 것이 훨씬 쉬워집니다. 따라서 시스템의 추론 과정을 외부화하는 AI 디자인을 선택하는 것이 중요합니다. 최선의 시나리오는 AI 시스템이 기본적으로 추론을 외부화하는 것입니다. LLM의 성능을 높이기 위해 AI 모델에 추론을 출력하도록 프롬프트하는 것은 일반적인 전략입니다(위 등, 2022b). 또한 최근 작업 모델에 대한 연구는 강화 학습을 통해 외부화된 추론의 가치를 더 향상시킬 수 있음을 보여줍니다(제이치 등, 2024; 구글, 2024; 딥시크, 2024). 동시에 외부화된 추론은 감독에 유용할 수 있습니다. 예를 들어, 베이커 등(2025)은 체인-오브-썸(CoT) 모니터링을 사용하여 학습 중 LLM 에이전트의 보상 해킹을 감지할 수 있음을 보여줍니다. 실험에서는 보상 해킹 에이전트가 종종 작업 스펙을 악용하기 위해 명시적으로 추론하는 경향이 있으며, 이는 모니터가 쉽게 감지할 수 있습니다. 특히, 베이커 등(2025)은 CoT 모니터링이 행동만 모니터링하는 것보다 보상 해킹을 훨씬 더 잘 감지할 수 있음을 발견했습니다. 한 가지 도전은 CoT 추론이 모델의 내부 과정을 신실하게 표현하지 않을 수 있다는 것입니다(터핀 등, 2024; 랜햄 등, 2023; 시겔 등, 2024). CoT 추론을 통해 강화 학습(RL) 훈련이 모델을 더 신실하게 만들지, 아니면 덜 신실하게 만들지는 아직 열린 질문입니다(추아와 에반스, 2025; 아크슈킨 등, 2025). 그러나 사전 학습 데이터에는 많은 사람이 이해할 수 있는 추론이 포함되어 있으므로 모델의 CoT 추론은 모델의 내부와는 독립적으로 기본적으로 합리적으로 이해될 수 있을 것으로 기대됩니다(노스알제브라이스트, 2024). 또한 학습 또는 모델 추론 중 개입이 CoT 신실성을 향상시킬 수 있습니다(라드하크리쉬난 등, 2023a; 랜햄 등, 2023). 외부화된 추론에 의존하는 또 다른 잠재적인 문제는 "스테가노그래피"로, 모델이 추론 내에서 정보를 숨길 수 있습니다. 스테가노그래피는 특히 CoT 추론이 모니터링되고 처벌될 때 자연스럽게 발생할 수 있는 CoT의 가장 우려스러운 예입니다(매튜 등, 2024; 파콰르 등, 2025). 현재 대규모 언어 모델(LLM) 에이전트는 기본적인 인코딩 스키마를 학습하여 정보를 숨길 수 있습니다(로저와 그린블래트, 2023). 스테가노그래피는 기본적인 스테가노그래피를 완화하는 간단한 방법으로는 충분하지 않습니다(로저와 그린블래트, 2023). 그러나 현재 모델은 고급, 구분할 수 없는 스테가노그래피를 수행할 수 없지만, 이는 미래 AI 시스템의 가능성이 있습니다(모트와니 등, 2024). 스테가노그래피를 배제하거나 감지하거나 다른 방식으로 해결하기 위해서는 더 많은 연구가 필요합니다. 외부화된 추론은 안전 측면에서 유망하지만 성능 비용이 발생할 수 있습니다. CoT 추론이 모델의 내부 과정을 신실하게 표현하지 않으면 모델에 성능 향상을 줄 수 있으며(파우 등, 2024; 하오 등, 2024), 안전을 위해 외부화된 추론에 의존하는 비용을 이해하기 위해 더 많은 연구가 필요합니다. --- **해석 가능성** 시스템을 제어하고 안전하게 유지하는 것은 이해도가 높을수록 더 쉬워집니다. 따라서 해석 가능성은 AGI 안전의 중요한 촉진 요소입니다. 해석 가능성은 전범위적인 큰 분야입니다(뮐러 등, 2024; 장 등, 2021; 카르발류 등, 2019; 로저스 등, 2021; 리나르다토스 등, 2020), 그리고 우리는 모든 것을 조사할 의도가 없습니다. 이 섹션에서는 모델의 내부 정보를 사용하여 모델을 이해하는 기술을 중심으로 다룰 것입니다(Räuker 등, 2023; Ferrando 등, 2024; 벨린코프, 2022). 이는 이해를 달성하는 유일한 방법은 아닙니다. 예를 들어, 프롬프트를 신중하게 시스템적으로 변환하는 행동 평가는 모델에 대한 이해를 크게 향상시킬 수 있습니다(Zhao 등, 2021; Wei 등, 2022b; Liu 등, 2021b; Pacchiardi 등, 2023; Berglund 등, 2023b; Greenblatt 등, 2024a). --- **해석 방법의 다양성** 해석 방법에는 많은 방법이 있으며, 각 기술은 다른 작업에 가장 적합할 것입니다. 다음 여섯 가지 축에서 기술이 어떻게 다른지 이해하는 것이 유용합니다: 1. **이해 vs 제어**: 해석 방법의 목표는 모델을 이해하는 데 중점을 두거나(예: 예상되지 않은 행동을 디버깅하거나 기만적인 행동을 모니터링하기 위해(Mu와 Andreas, 2020), 또는 특정 해로운 행동을 억제하기 위해(Zou 등, 2023a) 또는 불필요한 메커니즘을 제거하기 위해(Arditi 등, 2024) 모델의 행동을 제어하는 데 중점을 둘 수 있습니다. 프로빙(Belinkov, 2022)과 회로 분석(Olah 등, 2020; Wang 등, 2022)은 이해에 중점을 둔 기술로 주목할 만하며, 스티어링 벡터(Turner 등, 2023; Larsen 등, 2016; White, 2016; Li 등, 2024a; Zou 등, 2023a)는 제어에 중점을 둔 기술로 주목할 만합니다. 이 구별은 때때로 명확하지 않을 수 있으며, 더 깊은 이해는 제어를 가능하게 할 수 있습니다(Marks 등, 2024). 예를 들어, 개념에 해당하는 희소 오토인코더 잠재를 찾으면 해당 방향을 제거하여 개념을 억제할 수 있습니다(Farrell 등, 2024). 이해는 또한 모델 주위의 스캐폴드를 통해 시스템 행동을 변경할 수 있습니다. 예를 들어, 프로브는 해로운 의도를 감지하고 텍스트 생성 중지(예: 섹션 5.4.1 참조)를 할 수 있습니다. 우리는 이를 모델 내부에서 직접적으로 모델의 행동을 형성하는 것과는 다른 카테고리로 간주합니다. ML 기술의 대부분은 제어에 중점을 두므로, 해석 가능성은 이해에 비교우위를 가질 것으로 예상됩니다. 2. **신뢰도**: 모델 내부의 정확한 이해를 달성하는 것은 어렵고, 잘못된 결론에 빠지거나 환각에 속기 쉽습니다(Bolukbasi 등, 2021; Makelov 등, 2023; Friedman 등, 2023). 따라서 기술이 결론에 대한 신뢰도를 얼마나 제공하는지가 중요한 질문입니다. 이는 주로 이해에 중점을 둔 기술과 관련이 있습니다. 순전히 상관 관계 기반 기술, 예를 들어 프로빙이나 최대 활성화 데이터셋 예시는 신뢰도를 많이 제공하지 않습니다. 원인 기반 테스트를 바탕으로 한 기술은 훨씬 더 신뢰도를 제공할 수 있지만, 결과 해석에는 상당한 미묘함이 필요합니다. 예를 들어, 회로 분석은 부정적인(Wang 등, 2022; McDougall 등, 2023) 및 백업 헤드(McGrath 등, 2023; Rushing과 Nanda, 2024)를 인식하고 해석해야 합니다. 가중치 수준에서 기계적으로 작동하는 작업(Cammarata 등, 2021; Elhage 등, 2021; Nanda 등, 2023a; Wu 등, 2024b)은 하드웨어에서 수행되는 수학적 연산을 결론에 연결하여 많은 신뢰도를 제공할 수 있지만, 아직 작은 언어 모델에서 수행되지 않았습니다. 우리의 추측은 고신뢰도 끝에서 큰 이익을 얻을 가능성이 높다는 것입니다. 이는 배포 결정에 대한 가/노 고 결정을 내리는 데 사용하거나, 정렬 기술이 얼마나 잘 작동하는지 신뢰할 수 있는 출처로 사용하는 데 사용할 수 있습니다. 3. **개념 발견 vs 알고리즘 발견**: 일부 기술은 모델의 활성화에 표현된 개념을 찾는 데 중점을 두며(희소 오토인코더(Bricken 등, 2023; Yun 등, 2021), 프로빙, 스티어링 벡터 등), 이러한 개념은 종종 기능이라고 불립니다. 다른 기술은 모델 내부에서 메커니즘을 더 많이 디코딩하는 데 중점을 두며, 이러한 메커니즘은 종종 회로라고 불립니다(Olah 등, 2020). 일반적으로 알고리즘을 찾는 첫 번째 단계는 개념을 이해하는 것입니다(Nanda 등, 2023a; Cammarata 등, 2021), 따라서 알고리즘 발견은 개념 발견보다 더 어려운 것으로 보입니다. 이는 중요합니다. 개념 발견은 특정 제어 작업, 모니터링 또는 모델 평가에 충분할 수 있지만, 이러한 방법이 부족한 경우 더 깊은 이해가 필요할 수 있습니다. 예를 들어, 유사한 표현을 구별하거나 예상되지 않은 행동을 디버깅하기 위해(Mu와 Andreas, 2020). 4. **감독 vs 비감독**: 감독 기술은 연구자가 라벨 데이터셋에서 결정한 개념을 학습하는 것을 포함합니다. 예를 들어, 라벨된 예시에서 감정 프로브를 학습합니다. 비감독 기술은 라벨이 없는 개념을 발견합니다. 예를 들어, 클러스터링이나 희소 오토인코더입니다. 비감독 기술은 가능한 한 선호되며, 모델에 대해 우리가 가진 사전 개념을 모델이 개념을 표현하는 방법에 덜 강요합니다(Nanda 등, 2023a, b; Bricken 등, 2023). 이는 특히 더 큰 모델에서 더 복잡한 개념을 가진 경우, 모델이 개념을 표현하는 방법을 완전히 이해하고 있다는 고신뢰도에서 더 중요할 수 있습니다(Templeton 등, 2024). 5. **결론의 일반성**: 일부 기술은 모델 구성 요소에 대해 일반적인 결론을 도출할 수 있습니다. 예를 들어, 이 주의 헤드는 항상 이전 토큰에 집중합니다(Vig와 Belinkov, 2019). 다른 기술은 특정 작업에 대한 이해를 제공합니다. 예를 들어, Wang 등(2022)의 회로 발견은 특정 헤드가 간접 목적어 식별 작업의 맥락에서 이름을 이동시키는 것을 보여주지만, 일반적으로 더 많은 것을 결론짓지 않습니다(후속 작업은 상당한 명확화를 추가했습니다(McDougall 등, 2023)). 일반적으로는 "결론이 훈련 분포에 적용된다"는 것을 의미하며, 일반적으로 "모든 입력에 대해 적용될 수 있는 완전한 일반적인 결론"을 의미하지는 않습니다. 6. **사후 해석 가능성 vs 발전 해석 가능성**: 기술이 특정 훈련된 모델을 이해하거나 제어하는 데 중점을 두거나, 훈련 중 모델을 해석하고 훈련 경로를 이해하거나 가능하면 조종하는 데 중점을 두는가(Räuker 등, 2023)? 사후 해석 가능성은 단일 체크포인트보다 많은 체크포인트를 해석하는 것이 더 복잡하지만, 시스템을 이해하고 제어하는 데 충분할 수 있으므로 이 논문에서는 이에 중점을 둡니다. 그러나 발전 해석 가능성(Saphra와 Lopez, 2018; Hoogland 등, 2024; Tigges 등, 2024), 특히 모델이 미세 조정될 때 경로에 대한 이해를 향상시키거나 조종할 수 있는 가능성에 대한 약속이 있을 수 있습니다. 세 번째 카테고리는 고유하게 해석 가능한 모델을 만드는 기술(Li와 Hoiem, 2017; Elhage 등, 2022a; Milani Fard 등, 2016; Wang와 Rudin, 2015)을 포함할 수 있습니다. 그러나 이러한 기술은 최전선 모델에 스케일링하기 어렵습니다. 가능할 경우, 이는 상태-of-the-art 기술보다 훨씬 나쁜 모델 성능을 초래할 것입니다. 성능이 유지되는 경우에도, 이점은 허구일 수 있습니다(Elhage 등, 2022a). 따라서 이러한 두 영역에서 진전을 환영하지만, 매우 위험하고 검증되지 않은 것으로 간주하며, 이 논문에서는 범위에 포함되지 않습니다. 6.6.2. 해석 가능성을 어떻게 사용할 수 있을까요? 이 섹션에서는 해석 가능성을 사용하여 부적합 문제를 해결하는 여러 방법을 설명하겠습니다. 이는 포괄적인 조사를 의도한 것이 아닙니다. 해석 가능성이 실제로 성공한다면 대부분의 사용 사례에서 유용할 것입니다. 우리는 해석 가능성이 많은 영역에서 유용할 가능성이 높거나 전혀 유용하지 않을 것이라고 예상합니다. 여기서는 더 많은 진전을 통해 해석 가능성이 가장 큰 가치를 더할 수 있는 영역에 중점을 둡니다(표 1 참고). 적합성 평가: AI 시스템이 적합한지 여부를 행동만으로 판단하기는 어렵습니다(Christiano et al., 2021): 시스템이 부적합할 경우, 우리의 기대와 일치하도록 행동하여 테스트를 통과할 수 있습니다(Carlsmith, 2023; Greenblatt et al., 2024a). 이론적으로 해석 가능성은 이 함정을 피할 수 있습니다. 기만적 행동과 정직한 행동의 내부 알고리즘은 다를 것이기 때문입니다(Christiano와 Xu, 2022). 매우 강력한 AI 시스템을 만들 때, 배포 전에 해석 가능성을 통한 철저한 분석을 통해 부적합 여부를 확인할 수 있습니다(Olah, 2023). 적합성 평가는 배포 전 평가(Phuong et al., 2024와 같이)로 사용될 수 있습니다. 즉, 위험한 능력을 가진 모델이 이를 사용하지 않거나, 기만적 능력을 가진 모델이 이를 평가자에게 숨기지 않도록 확인할 수 있습니다. 또한, 이러한 실패를 방지하기 위한 적합성 연구를 촉진하고 가속화하는 데도 도움이 될 수 있습니다. 마지막으로, 기만이 존재하고 제거하기 어렵다면, 적합성 평가가 이를 설득력 있게 증명하는 데 도움이 될 수 있습니다(Greenblatt et al., 2024a). 신뢰: 신뢰도가 높을수록 좋지만, 낮은 신뢰도 기술도 유용한 신호를 제공할 수 있습니다. 그러나 적합성 평가가 이해 기반 안전 사례(6.8 및 5.1 절 참고)와 같은 중요한 보증의 일부가 되어야 한다면 높은 신뢰도가 필요합니다. 해석 가능성은 현재 필요한 신뢰도 수준에 매우 멀어 보입니다. 개념 vs 알고리즘 발견: 기만이나 조작 관련 개념이 있는지 신뢰할 수 있도록 감지하는 것이 충분할 수 있습니다(Templeton et al., 2024에서 발견된 초기 기만 특성 예와 유사). 그러나 이러한 개념을 해석하기는 어려울 수 있습니다. 예를 들어, 고급 채팅 모델은 사용자의 믿음과 행동을 어떻게 영향을 미치는지 관련하여 많은 개념을 가지고 있을 가능성이 큽니다. 대부분의 개념은 무해하거나 유용할 수 있지만, 일부는 악의적일 수 있으며, 이를 구분하기 어려울 수 있습니다(Templeton et al., 2024; Chen et al., 2024). 알고리즘 발견은 이러한 미묘한 차이를 구분하고 부적합한 특성을 찾는 데 중요할 수 있습니다. 열거적 안전성(Elhage et al., 2022b; Olah, 2023)의 희망은 배포 시, 모델이 분포에서 벗어난 경우에도 안전하게 유지될 수 있음을 해석 가능성을 사용하여 주장하는 것입니다. 이는 모델 내 모든 특성을 완전히 분해하고, 위험한 특성이 있는지 검사하는 것입니다. 단, 단위를 정확하게 해석할 수 있고, 개념 발견 기술이 무언가를 놓치지 않았다는 확신에 기반해야 합니다. 열거적 안전성은 가능할 경우 매우 매력적이지만, 현재 기술로 달성하기에는 매우 야심차고 불가능할 가능성이 큽니다(Bussmann et al., 2024). 지도: 지도 기술은 유용한 신호를 제공하는 낮은 신뢰도 평가에 충분할 수 있지만, 높은 신뢰도는 모델에 어떤 개념이 있어야 하는지 사전에 가정한 것을 강요하지 않는 것이 중요합니다. 따라서 비지도 기술이 바람직합니다. 결론의 일반성: 일반 기술은 알려지지 않은 문제를 식별하는 데 유용합니다. 그러나 좋은 위협 모델링을 통해 부적합 위험이 가장 큰 중요한 설정을 식별할 수 있다면, 이러한 설정에 대한 컨텍스트 특정 기술만 적용하는 것도 충분할 수 있습니다. 신실한 추론: 해석 가능성은 AI 시스템이 답을 생산하는 기본 계산과 일치하는 추론을 제공하는지 확인하거나, 더 야심차게는 모델이 신실하도록 제어할 수 있는지 확인하는 데 사용될 수 있습니다. 이는 사고 방식 모델이 인기를 얻으면서 특히 중요해집니다(Google, 2024; Jaech et al., 2024; Qwen Team, 2024; DeepSeek, 2024). 6.5.4 절에서 이 필요성과 가치를 더 자세히 설명하고, 해석 가능성 외의 접근 방식을 논의합니다. 만약 이 야심찬 시도가 성공한다면, 모델의 추론을 검사하여 기만적이거나 해로운 인지를 확인할 수 있으며, 모델의 내부 검사는 더 이상 필요하지 않을 것입니다. 신뢰: 낮은 신뢰도 기술도 유용하지만, 높은 신뢰도가 더 좋습니다. 모델을 신실하게 제어하려면 추론 시간 중 개입 기술인 스티어링 벡터가 충분할 수 있습니다. 그러나 해석 가능성을 기반으로 한 지표로 훈련하려면 최적화에 견고해야 하며, 이는 높은 신뢰도 기술에 더 가능성이 큽니다. 개념 vs 알고리즘 발견: 탐지에는 개념 발견이 충분할 수 있습니다. 적절한 데이터셋에서 신실하지 않은 사슬 추론을 탐지하는 간단한 기술(예: Turpin et al., 2024; Lanham et al., 2023)이 작동할 수 있지만, 알고리즘 발견은 우리가 올바른 개념을 올바른 위치에서 탐지하고 있는지 확인하고, 어디를 살펴봐야 하는지 알려주는 데 유용할 수 있습니다. 이는 토이 환경 외에서는 추론이 신실한지 여부를 측정하기 어려워 어려운 작업입니다. 제어의 경우, 어떤 것이 필요한지 아직 불확실합니다. 지도: 실질적인 시나리오에서 신실한 추론과 비신실한 추론을 식별할 수 있다면 지도 기술이 충분할 수 있지만, 두 접근 방식을 모두 탐구할 가치가 있습니다. 높은 신뢰도가 필요하면, 우리가 아무것도 놓치지 않도록 하기 위해 비지도 기술이 필요할 수 있습니다. 결론의 일반성: 추론에 대한 일반적인 진술을 할 수 있는 모든 기술이 충분합니다. "모든 설정에 대한 추론"의 컨텍스트에서 컨텍스트 특정 기술이 작동하면 충분합니다. 실패 디버깅: 미래에 부적합을 보여주는 사례가 있을 수 있습니다. 예를 들어, 실제 사례(예: 유저를 기만하는 채팅봇(Vincent, 2023))나 적대적 인공지능 기술(Red teaming)을 통해(Hubinger et al., 2024; Greenblatt et al., 2024a) 다중 플레이어 게임에서 배반적 전환을 보여주는 것처럼(Carlsmith, 2023). 해석 가능성은 실패에 이르는 기본 메커니즘을 이해하는 데 도움이 될 수 있어, 증상보다는 원인을 치료하는 방안을 설계할 수 있습니다(물론 이러한 방안은 해석 가능성과 직접적으로 관련되지 않아도 됩니다). 신뢰: 가설 생성과 그 증거를 찾는 것이 목표이므로 낮은 신뢰도 기술이 충분할 수 있습니다. 그러나 낮은 신뢰도 증거는 숙련된 사용자에 의해 신중하게 해석되고 반복되어야 합니다. 개념 vs 알고리즘 발견: 기술이 제공하는 정보가 많을수록 좋지만, 아무 것도 유용합니다. 개념 발견은 예상하지 못한 개념이 존재함을 알 수 있지만, 알고리즘 발견은 훨씬 더 많은 정보를 제공할 가능성이 큽니다. 지도: 기존 가설을 테스트하는 데는 지도 기술이 충분할 수 있지만, 새로운 가설을 생성하는 데는 비지도 기술이 훨씬 더 유용합니다. 특히 예상하지 못한 실패의 경우, 무엇이 일어났는지 결론을 내리지 않고, 새로운 가설에 대해 적극적으로 탐색하는 것이 중요합니다(Meng et al., 2024). 모니터링: 불확실한 적합성을 가진 강력한 AI 시스템을 배포하려면 출력에서 나쁜 행동을 모니터링할 수 있는 능력이 중요합니다(Greenblatt et al., 2024c; Greenblatt와 Shlegeris, 2024a). 우리는 출력을 프로브나 소형 LLM 분류기와 같은 저렴하지만 제한적인 모니터로 시작하고, 잠재적인 문제를 더 느리지만 더 신뢰할 수 있는 모니터로 보내는 모니터를 다양한 비용-정확도 스펙트럼에 걸쳐 원할 것입니다. 정확도와 재현율 간의 정확한 트레이드오프는 사용 사례에 따라 다릅니다. 해석 가능성은 두 가지 유형의 모니터 모두에 도움이 될 수 있습니다. 신뢰: 저렴한 모니터에는 낮은 신뢰도 기술이 충분하지만, 매우 신뢰할 수 있는 해석 가능성 기반 모니터에는 높은 신뢰도가 필요합니다. 개념 vs 알고리즘 발견: 개념 발견은 저렴한 모니터에 충분할 것으로 보이며, 신뢰할 수 있는 모니터에도 충분할 수 있지만, 알고리즘 발견은 특히 개념이 걱정스러울 수 있는 경우에 신뢰성을 높이는 데 도움이 될 수 있습니다. 지도: 독성 같은 안전 관련 개념을 감지하는 데는 이미 많은 알려진 개념이 있어 지도 기술이 충분할 수 있습니다. 하지만 해석 가능성을 사용하여 시스템이 모든 종류의 이상 행동을 모니터링하는 데 사용하고자 할 수 있습니다(Christiano와 Xu, 2022). 특히, 모델 내부에서 이상 행동을 모니터링하는 것은 해석 가능성의 희귀한 응용 중 하나로, 결과가 인간에게 해석 가능하지 않아도 됩니다. 결론의 일반성: 이상적인 모니터는 배포 시(Wei et al., 2024; Hendrycks et al., 2021)에서 발생하는 새로운 공격과 행동을 식별할 수 있어야 합니다. 작업 특정은 배포 분포가 잘 지정되고 경계가 지정된 경우에 충분할 수 있습니다. 적대적 검토(Red teaming): 현재 적대적 검토 작업에는 인간이 가능한 입력 공간을 탐색하거나 GCG(Zou et al., 2023b)와 같은 자동화된 기술이 포함됩니다. 해석 가능성 도구는 이 탐색을 안내하는 데 중요한 추가 정보를 제공할 수 있습니다(Carter et al., 2019; Goh et al., 2021; Mu와 Andreas, 2020). Ziegler et al. (2022)는 토큰의 중요도에 따라 강조 표시하면 적대적 예제를 찾는 데 걸리는 시간을 35% 줄일 수 있다고 합니다. 더 자세하고 타겟팅된 정보를 제공하는 도구는 이를 크게 개선할 수 있습니다. **이해 vs. 통제: 레드 팀을 위한 도구는 이해가 필요할 뿐이지만, 적대적 예시를 직접 생성하는 것은 통제의 형태입니다. 이는 추론 시 모델의 내부를 변경하는 것에도 해당될 수 있습니다. 예를 들어, Latent Adversarial Training (Casper et al., 2024)에 의해. 예를 들어, Arditi et al. (2024)는 한 방향을 투영하여 모델을 탈옥시킬 수 있음을 보여주었으며, 이는 Yu et al. (2024)에서 적대적으로 강건한 모델을 더 저렴하게 만드는 데 사용되었습니다.** **신뢰도: 해석 가능성의 목적은 가설 생성 및 탐색 가이드이므로, 신뢰도가 낮은 기술이 충분합니다. 모델이 레드 팀에 의해 해킹될 수 없음을 주장하기 위해 해석 가능성을 사용하는 것은 신뢰도가 높은 기술이 필요하지만, 이는 정렬 평가로 간주됩니다.** **개념 vs. 알고리즘 발견: 개념 발견은 유용하지만 (Carter et al., 2019), 레드 팀에 대해서는 개념이 모델의 출력과 어떻게 관련되는지 이해하는 것이 중요하므로, 알고리즘 발견이 더 중요할 것입니다. 모델을 혼란스럽게 만들거나 그 메커니즘을 예상치 못한 방식으로 활성화시키기 위해서입니다.** **지도: 비지도 기술은 가설 생성 및 탐색 기술에 가장 적합하지만, 예를 들어 Arditi et al. (2024)에서 보듯이 거부 표현과 같은 알려진 개념을 분석할 때 지도 기술은 여전히 유용합니다.** **결론의 일반성: 이러한 기술은 레드 팀이 되는 도메인에서 작동하면 충분하므로 일반적으로 작업 특정일 수 있습니다. 그러나 여러 도메인에서 레드 팀이 될 수 있으므로, 일반 기술이 더 효율적일 수 있습니다.** **강화된 감시: 해석 가능성 기술은 AI 추론 추적에 추가 정보를 주석으로 달아 평가자가 검토할 수 있도록 사용할 수 있습니다. 예를 들어, 보조자가 가장 자신 없는 주장들을 식별하고 강조할 수 있습니다. 또는 두 AI가 서로 토론할 때 (6.1.1 절 참조), 해석 가능성 도구를 사용하여 상대방이 판사에게 거짓말하거나 기만하고 있음을 주장할 수 있습니다.** **신뢰도: 신뢰도보다는 이러한 기술이 적대적으로 강건해야 한다는 것이 중요합니다. 해석된 모델이 도구를 깨뜨리는 방법을 배우는 것을 방지하기 위해. 도구가 보상을 조작하는 것을 방지할 수 있는 신호가 있으면, 신뢰도가 높지 않더라도 유용할 수 있습니다. 특히 이 사용 사례에서는 해석 가능성 방법에 대해 적극적으로 훈련하면 신뢰할 수 없는 보증이 됩니다.** **개념 vs. 알고리즘 발견: 개념 발견이 가장 중요하지만, 미묘한 사례에서는 알고리즘 발견이 중요할 수 있습니다.** **지도: 여기에서의 영향은 주로 데이터 포인트당 비용이 상대적으로 저렴한 방법에서 비롯될 것입니다 (우리는 많은 데이터 포인트에 적용해야 하므로) 그리고 많은 응용 프로그램이 매우 넓은 분포를 포함하므로, 많은 응용 프로그램이 OOD 일반화에 너무 많이 의존하지 않도록, 매우 전문화된 기술이 아닙니다. 이는 비지도 기술이 더 유용할 수 있음을 시사합니다.** **결론의 일반성: 이는 모델이 학습되거나 사용되는 도메인에서 작동하면 충분하지만, 이는 종종 매우 광범위합니다.** **6.6.3. 해석 가능성 기술** **해석 가능성 기술의 공간은 매우 큽니다. 이 섹션에서는 위의 목표에 특히 관련이 있는 몇 가지 접근법에만 중점을 두고, 이를 축과 규모에 대해 논의하며, 최전선 모델에 대한 확장 가능성에 대해 논의합니다 (표 2 참조).** **여러 기술은 선형 표현 가설 (LRH) (Mikolov, 2013; Arora et al., 2018; Park et al., 2024; Nanda et al., 2023b; Elhage et al., 2022b)에 의해 영감을 받았습니다. 약한 형태 (Mikolov, 2013)는 모델의 개념이 활성화 공간의 선형 방향에 해당한다고 하며, 강한 형태 (Elhage et al., 2022b)는 특정 활성화가 이러한 개념의 희소한 선형 조합이라고 추가로 주장합니다. 이 가설은 상당한 경험적 증거 (Elhage et al., 2022b; Gurnee et al., 2023; Olah et al., 2020; Park et al., 2023a; Nanda et al., 2023b; Mikolov et al., 2013)를 가지고 있지만 아직 증명되지 않았습니다 (Smith, 2024).** **프로빙: 프로빙 (Belinkov, 2022)은 모델을 이해하기 위해 개념을 탐지하는 데 사용되는 고전적인 지도 기술입니다. 연구자는 모델 입력 및 레이블의 레이블이 붙은 데이터셋을 가져온 다음, 레이블을 예측하기 위해 모델 활성화에 분류기를 학습시킵니다. 가장 간단하고 원칙적인 접근법 (LRH를 가정하면)은 모델 활성화에 대한 로지스틱 회귀인 선형 프로브 (Alain, 2016)입니다. 그러나 MLP 프로브와 같은 더 복잡한 접근법도 있습니다. 프로빙은 순전히 상관관계적이며, 프로브가 모델이 실제로 사용하는 개념을 찾았는지 확인하지 않으므로 신뢰도가 낮은 기술입니다 (비록 더 원인적 접근법이 탐구되었습니다 (Elazar et al., 2021)). 특히, 프로빙은 훈련 및 추론에 매우 저렴할 수 있습니다. 예를 들어, 선형 프로브로 모델을 모니터링하는 것은 다른 LLM을 사용하여 출력 분석하는 것보다 훨씬 저렴할 수 있습니다. 어떤 의미에서는 주요 LLM이 입력 처리를 더 유용한 표현으로 변환하는 데 대부분의 작업을 수행하고 있으며, 프로브는 이를 매우 저렴하게 추출할 수 있습니다. 다른 텍스트에서 시작하지 않고도. 프로브는 일반적으로 훈련된 도메인에 제한되지만, 이는 매우 광범위할 수 있으며 때로는 놀라울 정도로 잘 일반화될 수 있습니다 (Marks와 Tegmark, 2023).** **사전 학습: 우리는 모델 활성화를 고유한 선형 조합으로 분해하기 위해 희소 코딩 (Zhang et al., 2015; Arora et al., 2018) 기술을 적용합니다. 희소 코딩은 개념을 찾기 위해 최적화하는 대신, 희소성을 최적화하여, 해석 가능한 개념에 해당하는 단위를 찾을 수 있음을 희망합니다. 희소 코딩은 고전적인 방법입니다.** **특히 해석 가능성을 위한 희소 코딩에 인기가 있는 접근법은 희소 오토인코더 (SAE) (Yun et al., 2021; Bricken et al., 2023; Cunningham et al., 2023; Gao et al., 2024; Rajamanoharan et al., 2024; Templeton et al., 2024)입니다. 단일 숨겨진 레이어 오토인코더는 활성화를 재구성하는 방법을 학습하며, 잠재 활성화에 대한 희소성 패널티가 있습니다. SAE 유닛(또는 잠재 변수 또는 기능)의 높은 비율이 해석 가능하다는 것이 발견되었습니다 (Bricken et al., 2023; Rajamanoharan et al., 2024), 하지만 그렇지 않은 경우도 있습니다. 희소 오토인코더는 최전선 모델에 확장 가능하다는 것이 보여졌지만 (Templeton et al., 2024; Gao et al., 2024) 비용이 높고 단일 레이어만 학습되었습니다. 다른 사전 학습 방법은 더 저렴할 수 있습니다.** **사전 학습은 특정 개념을 탐지하는 대신 활성화를 해석 가능한 개념의 희소한 조합으로 완전히 분해하려고 합니다. 해석 가능한 개념으로 완전히 분해하는 것은 매우 높은 신뢰도 결론을 가능하게 할 수 있습니다 (Olah, 2023). 불행히도, 이는 근사치일 뿐이며, 재구성 오류가 있습니다. 이는 학습할 용량이 부족하거나 개념의 벡터가 잘못 학습된 개념에 해당할 수 있습니다 (Bussmann et al., 2024; Rajamanoharan et al., 2024). 더 나아가, 단위는 항상 해석 가능하지 않으며, 해석이 불완전할 수 있습니다 (Turner et al., 2024; Huang et al., 2023). 더 정교한 해석 가능성 방법, 예를 들어 LLM 해석 가능성 에이전트 (Shaham et al., 2024) 또는 알고리즘 발견 기술을 사용하여 초기 기능과 연결하여 미묘한 기능의 차이를 문맥화하는 것이 필요할 수 있습니다. 이러한 문제를 해결하거나 그 영향을 제한하는 것은 높은 신뢰도 결론을 위해서는 필수적입니다.** **사전 학습은 이해를 위해 자연스럽게 사용될 수 있지만, 개념 유닛을 증폭하거나 억제하여 그 개념의 표현을 변경함으로써 제어를 위해 사용할 수도 있습니다 (Templeton et al., 2024; Farrell et al., 2024; McGrath et al., 2024; Karvonen et al., 2024).** **사전 학습은 사전 학습된 사전만 식별합니다. 그러나 데이터 분포가 매우 일반적일 수 있습니다. 예를 들어, 모델이 학습된 모든 데이터. 모델에서 개념이 개발된 이유와 상관없이, 모든 정교한 개념은 모델이 학습된 모든 데이터 포인트에 유용해야 하므로, 사전 학습은 강선형 가설이 성립한다면 모델의 모든 개념을 발견할 수 있습니다. 사전 학습의 또 다른 장점은 매우 세분화되어 있다는 것입니다. 분석 단위는 활성화 공간의 방향일 뿐이며, 매우 국소적입니다. 예를 들어, 단일 뉴런을 연구하는 것과 같습니다. 반면, 거의 모든 행동 접근법은 모델 전체를 분석 단위로 처리하여 매우 거칠습니다. 국소적 접근법은 행동 접근법과 비슷한 유사한 행동 유사체를 만들기 어렵다는 것을 추측합니다. 따라서 해석 가능성의 독특하고 영향력 있는 응용 프로그램이 있다면, 이는 국소적 기술과 함께 더 가능성이 큽니다.** **스티어링 벡터: 스티어링 벡터 (Turner et al., 2023; Larsen et al., 2016; White, 2016; Li et al., 2024a; Zou et al., 2023a)는 선형 표현 가설에 영감을 받은 제어용 지도 기술입니다. 여러 변형이 있지만, 가장 간단한 형태는 어떤 개념(예: 긍정적인 감정)의 활성화 데이터셋을 수집하고, 없는 데이터셋을 수집한 다음, 평균 차이를 찾아 스티어링 벡터를 얻습니다 (Turner et al., 2023). 이 벡터는 다른 프로프트의 모델 활성화에 추가되어 그 개념을 도입할 수 있으며, 일반적으로 하이퍼파라미터 스윕을 통해 찾은 계수를 사용합니다. 스티어링 벡터는 활성화가 수집된 특정 맥락에서 일반화되는 경우가 많지만 (Zou et al., 2023a), 이는 아직 잘 이해되지 않으며, 기술이 항상 예상대로 작동할 것이라고 확신할 수 없습니다.** **학습 데이터 속성 부여 (TDA): TDA (Koh와 Liang, 2017; Pruthi et al., 2020; Grosse et al., 2023; Park et al., 2023c)는 모델이 해당 출력을 생성하도록 영향을 미친 학습 데이터 포인트를 찾는 데 사용됩니다. 이러한 방법들은 학습 데이터에서 샘플을 제거하는 것을 근사적으로 “모델 매개변수 하에서 z의 가능성을 증가시키는 학습 데이터 포인트는 무엇인가?”라는 더 실용적인 질문에 응답합니다.** **원래 제안된 영향 함수 (Koh와 Liang, 2017)는 LLM에 대해 계산하기 어렵습니다. 대안으로, Fisher Information Matrix (Ly et al., 2017; Kunstner et al., 2019)의 근사치를 계산하는 방법은 최전선 모델에 확장 가능하다는 것이 보여졌습니다 (Grosse et al., 2023; Chang et al., 2024). 여전히 대규모 사전 학습 데이터셋에 대해 실행하기에는 비쌉니다. Chang et al. (2024)는 TrackStar 알고리즘을 C4 코퍼스 (Raffel et al., 2020) (160B 토큰)에 확장할 수 있었습니다.** **TDA는 모델 출력의 다른 부분에 기여한 데이터 포인트 간의 예상치 못한 연결을 표면화할 수 있는 비지도 기술입니다. TDA는 노이즈 데이터 포인트를 제거하는 데 유용합니다 (Pruthi et al., 2020), 모델의 특정 동작을 추적하는 데 (Ruis et al., 2024) 또는 대상 조정 학습을 위한 데이터 포인트를 선택하는 데 (Xia et al., 2024) (또한 DsDM (Engstrom et al., 2024) 참조). TDA는 예상치 못한 실패를 디버깅하는 데 특히 유용합니다. 예상치 못한 가설을 제시할 수 있습니다.** **현재 사용 중인 TDA에는 여러 제한 사항이 있습니다. 데이터 포인트가 영향을 미치는지 표면화하지만, 영향의 유형을 구분하지 않습니다: 스타일, 사실적 지식, 문법, 논리적 추론 등. 지금까지의 작업은 전체 샘플의 평균 다음 토큰 손실과 같은 고수준 지표에 초점을 맞추었으며, 특정 키 토큰의 손실이나 모델 내부와 같은 지표(예: 뉴런이 발화하는 이유)에 기반한 지표에 대해 잘 작동하는지 여부는 명확하지 않지만, 이러한 것이 미래의 연구 방향이 될 수 있을 것이라고 믿습니다.** **오토인터프: (Bills et al., 2023; Paulo et al., 2024; Choi et al., 2024; Shaham et al., 2024) 해석 가능성 연구자가 수행하는 많은 작업은 유연한 지능이 필요하지만, 비교적 제한되어 있습니다. LLM이 더 능력 있게 되면 이러한 작업을 더 저렴하고 빠르게 수행할 수 있으며, 해석 가능성 연구를 자동화하는 능력을 개선하여 현재 작업을 가속화하고 확장하는 것이 중요합니다.** **모델의 활성화 공간에서 방향(예: 뉴런 또는 희소 오토인코더 잠재 변수)을 해석하는 데 사용되는 중요한 예는 모델의 활성화 벡터를 이 방향에 투영하여 각 입력에 대해 스칼라 활성화를 제공하는 것입니다. 이는 일반적으로 가장 활성화되는 데이터셋 예제를 보고 패턴을 찾습니다 (Olah et al., 2020). 그러나 데이터 순서에서 패턴을 찾는 것은 LLM에게 할당할 수 있는 작업입니다. 이를 정제하는 방법은 여러 가지가 있으며, LLM이 설명을 생성하거나 (Bills et al., 2023) 에이전트로서 반복적으로 행동하는 것 (Shaham et al., 2024)을 포함합니다. 설명은 LLM이 설명을 기반으로 미래의 활성화를 예측하도록 하여 자동으로 점수화될 수 있습니다 (Bills et al., 2023; Paulo et al., 2024; Choi et al., 2024). 이러한 설명은 아직 신뢰할 수 없으며 (Huang et al., 2023), 최대로 활성화되는 예제는 잘못된 정보를 제공할 수 있습니다 (Bolukbasi et al., 2021), 그러나 실제로는 종종 유용합니다 (Bricken et al., 2023; Templeton et al., 2024). 데이터 분포가 충분히 넓으면 LLM은 예상치 못한 개념에 해당하는 패턴을 표면화할 수 있습니다.** **구성 요소 속성 부여 기술: 모델 동작을 특정 구성 요소(예: 헤드, 뉴런, 희소 오토인코더 잠재 변수, 레이어 등)에 속성 부여하는 데 사용되는 여러 기술이 있습니다. 이러한 기술은 모델 동작을 국소화하는 데 유용하며, 이는 종종 희소한 구성 요소 세트에 해당합니다. 이러한 기술은 일반적으로 특정 프로프트(또는 프로프트 쌍)가 동작을 유도하는 구성 요소에 대해 연구하고, 모델 동작에 대한 원인적 개입을 수행하여 변화를 관찰합니다. 기본적으로는 특정 프로프트에 대한 구성 요소에 대한 결론을 제공합니다. 그러나 이러한 기술을 다양한 프로프트 데이터셋에 적용하면 더 일반적인 결론을 도출할 수 있습니다. 구성 요소 속성 부여 기술의 세 가지 주요 가족은 다음과 같습니다:** **- 제거(삭제라고도 함): 구성 요소의 출력을 의미 없는 것으로 대체합니다. 예를 들어, 모든 제로 (Baan et al., 2019; Lakretz et al., 2019; Bau et al., 2020), 분포의 평균 값 (Wang et al., 2022) 또는 다른 입력의 값 (Chan et al., 2022) 등을 사용하여 모델 출력에 미치는 영향을 관찰합니다.** **- 활성화 패칭 (Zhang과 Nanda, 2023; Heimersheim과 Nanda, 2024) (원인적 매개 분석 (Vig et al., 2020), 원인적 추적 (Meng et al., 2022), 교환 개입 (Geiger et al., 2021, 2023)이라고도 함): 제거보다 더 정교한 형태로, 다른 프로프트의 구성 요소 출력으로 대체하여 프로프트의 차이만 효과를 국소화할 수 있습니다. 예를 들어, 프로프트 1=“나는 그 영화를 싫어했다, 그것은”, 프로프트 2=“나는 그 영화를 좋아했다, 그것은”는 프로프트의 감정을 변합니다. 그리고 구성 요소를 패칭하여 모델이 긍정적이거나 부정적인 형용사를 말하는지 여부를 제어할 수 있지만, 구성 요소가 편향 항목이거나 문법 구조를 추적하는지 여부는 제어할 수 있습니다.** **- 직접 로짓 속성 부여 (nostalgebraist, 2020; Elhage et al., 2021): 구성 요소의 출력이 올바른 출력 로짓에 얼마나 직접적으로 기여하는지, 즉 올바른 답변을 잘못된 답변보다 얼마나 높이는지, 다른 구성 요소가 그 출력에 미치는 영향을 무시합니다.** **서킷 분석: (Wang et al., 2022; Chan et al., 2022; Hanna et al., 2024; Conmy et al., 2023; Lieberum et al., 2023) 서킷 분석은 알고리즘 발견 (Olah et al., 2020)의 또 다른 용어입니다. 서킷 분석을 수행하는 한 접근법은 모델을 구성 요소의 계산 그래프로 프레임화하고, 특정 작업에 대한 모델 동작을 보존하는 하위 그래프를 찾기 위해 원인적 개입을 사용하는 것입니다. 이는 일반적으로 구성 요소 속성 부여 기술(활성화 패칭)을 사용하여 구성 요소나 그 사이를 국소화하는 데 사용됩니다. 이는 다양한 구성 요소 크기로 수행되었습니다: 레이어 (Meng et al., 2022; Variengien과 Winsor, 2023), 어텐션 헤드 (Wang et al., 2022), 뉴런 (Nanda et al., 2023c; Ferrando와 Costa-jussà, 2024) 등. 서킷 찾기는 Chinchilla 70B와 같은 대규모 모델에서도 작동하지만 (Lieberum et al., 2023), 비용이 많이 들며 부분 서킷만 찾았습니다. 그러나 속성 부여 패칭 (Nanda, 2023; Kramár et al., 2024)과 같은 근사치는 속도를 높일 수 있습니다.** **구성 요소가 무엇을 의미하는지 모르면 희소한 하위 그래프만 찾는 것은 큰 도움이 되지 않습니다. 최근 가장 흥미로운 방향은 구성 요소가 전체 학습 데이터 분포에서 해석 가능하도록 희소 오토인코더 잠재 변수를 구성 요소로 사용하여 서킷을 찾는 것입니다 (Marks et al., 2024; Kharlapenko et al., 2025; Dunefsky et al., 2024).** **현재 서킷 찾기의 주요 문제는 찾은 서킷이 매우 지저분하고 원본 모델 동작과 충실하지 않기 때문에 기술에 대한 신뢰도가 낮습니다 (Miller et al., 2024; Chan et al., 2022). 이는 모델 동작의 일부가 희소한 구성 요소 세트에 의해 설명되지만, 약간 도움이 되는 구성 요소의 긴 꼬리가 존재함을 시사합니다.** **이는 일반적으로 특정 템플릿을 따르는 문장에 대한 좁은 작업 분포에서 수행됩니다. 이는 활성화 패칭을 수행하는 데 도움이 되지만, 발견의 일반성을 제한합니다. 그러나 이는 문제를 더 간단하게 만듭니다: 전체 데이터 분포에서는 대부분의 모델 구성 요소가 다의미적이지만, 좁은 분포에서는 하나의 기능만 사용될 수 있습니다. 이 좁은 분포에서 모델 동작에만 관심이 있다면, 다른 동작을 무시하는 것이 도움이 됩니다. 어떤 의미에서는 지도 기술이지만, 모델이 예상치 못한 방식으로 작업을 수행하는 것을 발견할 수 있습니다.** **서킷 분석의 또 다른 접근법은 가중치에 중점을 둡니다 (Nanda et al., 2023a; Olah et al., 2020; Gross et al., 2024; Cammarata et al., 2021; Elhage et al., 2021; McDougall et al., 2023). 이 접근법은 모델을 수학적인 객체로 취급하며, 여러 행렬 곱셈과 몇 가지 비선형성이 포함된 것으로 간주하여, 모델의 작업이 해석 가능한 알고리즘과 어떻게 대응하는지 역공학을 시도합니다. 성공하면 이 접근법은 매우 높은 신뢰도를 제공할 수 있지만, 지금까지의 진행은 주로 소형 또는 장난감 모델에 제한되었으며, 다양한 방식으로 제한되거나 잘못되었습니다 (Goldowsky-Dill et al., 2023; Stander et al., 2023; Wu et al., 2024b). 전반적으로 이 접근법을 매우 야심차고 확장 가능성이 낮다고 생각하므로 여기에서 중점을 두지 않지만, 이 분야에서 확장 가능한 진전을 보게 되면 매우 기뻐할 것입니다.** **6.7. 정렬 스트레스 테스트** **정렬 스트레스 테스트는 정렬 제안에 대한 중요한 경험적 피드백 소스입니다. 전체 제안뿐만 아니라 제안 내의 개별 가정도 스트레스 테스트할 수 있습니다.** **정렬 스트레스 테스트는 다양한 형태를 취할 수 있지만, 일반적으로 다음 단계를 따릅니다:** **1. 어떤 정렬 계획의 안전 논리를 시작합니다.** **2. 논리가 의존하는 주요 속성을 식별합니다.** **3. 주요 속성이 유지되는지 테스트합니다. 최악의 시나리오를 포함하여 적대적으로 테스트합니다.** **4. 테스트에서 대조 사례를 발견하면 정렬 계획에는 취약점이 있습니다.** **이러한 방식으로 안전 사례에 대한 대조 사례를 찾는 것은 정렬 스트레스 테스트의 주요 유형입니다. 이 검색의 본질상, 레드 팀은 안전 사례의 모든 자유 매개변수를 적대적으로 선택할 수 있습니다. 예를 들어, “강화 학습에서 인간 피드백(RLHF)을 사용하여 모델을 학습하면 그들은 정직할 것입니다”라는 가정이 있습니다. 배포 컨텍스트를 명시하지 않음으로써, 가정은 암묵적으로 모든 배포 상황에 대한 주장을 합니다. 스트레스 테스트는 최악의 강건성을 연구하므로, 레드 팀은 가정이 실패하는 모든 배포 상황을 적대적으로 찾습니다.** **정렬 스트레스 테스트는 일반적으로 강력한 보증을 제공하지 않습니다. 정렬 스트레스 테스트의 주요 위험은 우리가 사용하지 않은 공격 방법이 실패 모드를 발견했을 것이라는 것입니다. 최악의 분석을 수행할 때는 레드 팀에게 비현실적인 이점을 제공하여 더 보수적인 테스트를 수행할 수 있습니다. 이를 통해 더 강렬한 공격에 대해 평가할 수 있기를 희망합니다. 그럼에도 불구하고 스트레스 테스트는 실제 세계에서 직면할 공격보다 더 강력한 공격에 대해 평가할 수 있는 능력이 있습니다. 그럼에도 불구하고 스트레스 테스트는 정렬 계획의 취약점을 발견하는 데 있어 보증의 정렬보다 더 강력한 역할을 할 수 있습니다.** **6.7.1. 동기** **정렬 스트레스 테스트는 다음과 같은 방식으로 AGI 안전 프로젝트에 기여합니다:** **정렬 계획의 가정 레드 팀: 이상적으로는 우리 AI 시스템이 유익하다는 이론적 보증을 얻을 것입니다. 그러나 현재 딥러닝 과학은 아직 거기까지 도달하지 못했습니다. 또한, 복잡한 시스템인 개방형 배포 컨텍스트에 적용할 수 있는 수학적 이론을 개발하는 것이 가능할지도 불확실합니다. 이론적 보증이 없으면 스트레스 테스트는 적대적으로 정렬 제안이 실패하는 대조 사례를 찾습니다. 대조 사례가 발견되면 제안된 안전 조치의 취약점을 나타냅니다. 대조 사례가 발견되지 않더라도 잘 동기화되고 잘 자원화된 팀이 그것을 찾으려고 노력하는 경우, 제안의 강건성을 나타내는 증거가 될 수 있습니다.** **배포 결정에 대한 보증: 배포 과정에서 사악한 사용(5.8 절 참조)을 위한 사전 배포 테스트는 중요한 부분입니다. 정렬 스트레스 테스트는 마찬가지로 정렬되지 않은 경우에 대한 적대적 테스트를 수행할 수 있습니다. 예를 들어, 기만 완화 후에도 기만이 남아 있는지 적대적으로 테스트할 수 있습니다.** **모델 오류의 예시** 인공지능(AGI)이 아직 존재하지 않지만, 오류가 발생하는 모델의 예를 연구하고자 합니다. 오류 대처 테스트를 통해 오류 발생의 예를 만들 수 있으며, 딥 뉴럴 네트워크의 유도 편향이 정렬된 행동과 오류가 발생하는 행동 간의 차이를 어떻게 결정하는지를 연구할 수 있습니다. 오류가 발생하는 예를 만든 후에는 오류가 발생하는 행동을 모니터링하고 완화하는 우리의 능력을 연구할 수 있습니다. 예를 들어, 거짓말 탐지기를 연구하기 위해 기만적인 모델을 사용할 수 있습니다. **위험의 시연** 오류 발생의 예를 시연하는 것은 과학적 이점 외에도 AI 위험을 세계에 전달하는 강력한 방법입니다. 정부 지도자 등 다양한 배경의 이해관계자들이 AGI 안전성에 관여하게 되면서, 실패 모드를 명확하게 시연함으로써 AI 위험에 대한 공통된 지식 기반을 구축할 수 있습니다. **6.7.2. 사례 연구** **살리언시 맵(Saliency Maps)** 살리언시 맵은 컴퓨터 비전 모델을 해석하는 데 널리 사용되는 기술입니다. 살리언시 맵의 목표는 모델의 출력 분류에 각 입력 이미지의 픽셀이 얼마나 영향을 미치는지를 보여주는 것입니다. Adebayo et al. (2018)은 시각적 검사를 통해 살리언시 맵이 이미지 분류기가 학습한 내용을 신실하게 나타낸다는 가정에 대한 스트레스 테스트를 수행했습니다. 그들은 일부 살리언시 알고리즘과 신경망 레이어에 대해 모든 레이어의 가중치를 무작위로 랜덤화해도 살리언시 맵의 시각적 외관이 변하지 않는 것을 발견했습니다. Adebayo et al. (2018)의 발견은 이러한 살리언시 알고리즘이 이미지 분류기가 학습한 모든 내용을 포함하고 있다고 가정하는 것이 안전하지 않음을 보여줍니다. **오류된 기울기(Obfuscated Gradients)** 2018년 국제 학습 표현 컨퍼런스에서 여러 논문은 이미지 분류기에 대한 백박스 적대적 공격에 대한 방어 수단으로 "오류된 기울기"의 변형을 사용했습니다. 몇 달 후 열린 2018년 국제 기계 학습 컨퍼런스에서 Athalye et al. (2018)는 오류된 기울기를 기반으로 한 6/7개의 방법을 완전히 우회하고 1개의 남은 방법을 부분적으로 우회하는 공격 세트를 설계했습니다. "오류된 기울기는 잘못된 안전감을 줍니다." Athalye et al. (2018)은 스트레스 테스트를 통해 보여줍니다. 메타 레벨에서 이 사례 연구는 잠재적인 정렬 기법을 평가하기 위해 강력한 공격을 사용하는 중요성을 보여줍니다. **슬리퍼 에이전트(Sleeper Agents)** 강화 학습의 변형은 언어 모델의 인기 있는 사후 학습 기술입니다. Hubinger et al. (2024)은 "모델이 특정 입력에 대해 잘못된 행동을 한다면, 표준 강화 학습 기술을 사용하여 이 잘못된 행동을 제거할 수 있다"는 가정을 스트레스 테스트했습니다. 스트레스 테스트를 위해 Hubinger et al. (2024)은 "백도어 행동"을 가진 코딩 모델을 학습시켰습니다: 모델은 입력 프롬프트가 현재 연도가 2024라고 말할 때 코드 취약점을 삽입합니다. 그런 다음 Hubinger et al. (2024)은 모델을 유익하고 정직하며 무해한(HHH)으로 학습시키기 위해 표준 강화 학습 미세 조정(RL)을 수행했습니다. Hubinger et al. (2024)은 HHH 미세 조정 후에도 모델이 2024년 입력 프롬프트에 대해 여전히 코드 취약점을 삽입하는 것을 발견했습니다. 따라서 현재 HHH 강화 학습 기술을 사용하여 비밀 백도어 행동을 제거하는 것은 불가능합니다. **대조 일관성 검색(Contrast Consistent Search)** Burns (2022); Burns et al. (2022)는 언어 모델이 진실을 활성화 공간의 몇 가지 방향을 사용하여 표현할 수 있다고 제안했습니다. 그렇다면 우리는 모든 방향을 식별하고 이를 사용하여 모델이 진리로 믿는 것을 평가할 수 있습니다. 후속 연구는 이 가설에 대한 스트레스 테스트를 수행했으며, 혼합된 결과를 얻었습니다. 한쪽으로 Farquhar et al. (2023)은 비지도 방법으로 진리 방향을 찾는 데 이론적 및 실증적 도전을 제시했습니다. 다른 한쪽으로 Marks와 Tegmark (2023)는 진리 방향이 새로운 분포에 일반화될 수 있다고 발견했으며, Bürger et al. (2024)는 진리 표현의 일반화 특성을 제공하기 위해 두 차원이 충분할 수 있다고 하는 증거를 발견했습니다. Bürger et al. (2024)의 방법들이 추가 스트레스 테스트에 견딜 수 있는지는 아직 알려지지 않았습니다. **패스워드 잠금 모델** "샌드백(Sandbagging)"은 AI가 안전 평가에서 약한 능력을 보여주기 위해 의도적으로 약한 능력을 보여주는 것을 의미합니다. AI가 샌드백을 사용하면, 배포된 후에는 매우 위험한 행동을 수행할 수 있으며, 우리가 그 능력이 있는지 깨닫지 못하게 됩니다. Greenblatt et al. (2024b)는 기술 기반 미세 조정 기법을 사용하여 이러한 숨겨진 능력을 유도할 수 있는지 테스트했습니다. 샌드백의 모델 생물을 생성하기 위해 그들은 입력 프롬프트에 특정 패스워드가 없는 경우 더 능력 있는 모델이 덜 능력 있는 모델을 모방하도록 학습시켰습니다. 패스워드에 접근할 수 없는 미세 조정 기법을 사용하여 Greenblatt et al. (2024b)는 전문가 데모를 사용하여 패스워드 잠금 기능을 유도할 수 있음을 발견했으며, 다른 기능과 다른 패스워드에 대해 일반화할 수 있었습니다. **정렬 위장(Alignment Faking)** "정렬 위장"은 AI 시스템이 원하는 가치를 모방하여 충돌하는 기본 목표를 숨기는 것을 포함합니다. Greenblatt et al. (2024a)는 언어 모델에서 "기구적 목표 보존"이라는 하나의 행동을 위한 모델 생물을 사용하여 스트레스 테스트를 수행했습니다. 그들은 언어 모델이 기존 선호도(무해함)와 새로운 훈련 압력(유해한 요청에 응답하는 것) 간의 갈등에 직면한 상황을 만듭니다. 모델은 행동이 훈련 과정에 영향을 미치는 조건만 충족할 때 훈련된다고 알려줍니다(모니터링된 시나리오 vs. 비모니터링된 시나리오를 시뮬레이션). 스크래치패드를 사용하여 모델의 사고 과정을 관찰한 Greenblatt et al. (2024a)는 모델이 때때로 모니터링 시 유해한 목표에 전략적으로 응답하는 것을 발견했습니다. 스크래치패드에서 모델은 훈련 과정에서 변경되지 않도록 하기 위해 이러한 겉보기 정렬이 필요하다고 논리적으로 생각했습니다. 이 스트레스 테스트는 RL 훈련을 통해 달성된 행동적 순응이 기본 선호도 정렬을 보장하지 않음을 보여줍니다: 대신, 모델은 현재의 목표를 보존하는 것과 같은 목표에 의해 동기 부여된 전략적 기만 학습을 할 수 있습니다. **오디팅 게임(Auditing Games)** 모델 평가의 기본 가정 중 하나는 현재 오디팅 기술 세트가 오류 발생을 탐지할 수 있다는 것입니다. Marks et al. (2025)는 "오디팅 게임"을 구성하여 이 가정을 스트레스 테스트했습니다: 레드 팀이 언어 모델을 은밀한 목표(알려진 보상 모델 편향을 악용, "보상 모델 시코판시"로 불림)를 가진 모델로 훈련시키고 특정 훈련을 통해 이 목표를 드러내지 않도록 합니다. 블라인드된 블루 팀은 행동 테스트, 해석 가능성 도구 및 훈련 데이터 분석을 포함한 다양한 기술로 이 모델을 오디팅하는 작업에 착수합니다. Marks et al. (2025)의 테스트에서 여러 팀이 은밀한 목표와 특정 편향을 탐지하는 데 성공했지만, 성공은 훈련 데이터 샘플에 대한 접근에 크게 의존했습니다. 데이터 접근이 없는 팀은 실패했습니다. **6.8. 안전 사례** 안전 사례는 위험이 적절한 수준으로 최소화되었음을 입증하는 평가 가능한 논증입니다. 이 섹션에서는 오류 발생에 대한 위험에 대한 안전 사례에 중점을 둡니다. Clymer et al. (2024)는 안전 사례를 구체적으로 만드는 두 가지 방법을 논의합니다: 불가능과 통제. 모든 위험을 줄이는 조치가 안전 사례 관점에서 쉽게 정당화되는 것은 아닙니다. 예를 들어, 단기 최적화(Section 6.5.3)는 감독자가 인지하지 못하는 보상 해킹에 대한 동기 부여를 제거하여 위험을 줄일 수 있지만, 특정 상황에서 그 유용성을 입증하기 어렵습니다. 단기 최적화는 문제를 인지하지 않는 상황에서 가장 도움이 되기 때문입니다. **6.8.1. 불가능 안전 사례** 특정 피해 경로에 대해 AI 시스템이 그 경로를 통해 피해를 입힐 수 있는지 평가할 수 있습니다(Section 5에서 사용법과 유사하게). 시스템이 피해를 입힐 수 없음을 결론지으면 강력한 안전 사례가 됩니다. 오류 발생에 대한 위험을 줄이기 위해 사용법의 위험을 줄이는 인수분해 중 많은 인수분해는 오류 발생 사례에 직접 적용될 수 있습니다. 예를 들어, 모델이 공격적 사이버 보안에 능숙한 사람이라도 AI가 오류 발생한 후에도 사이버 보안 능력으로 피해를 입힐 수 없습니다. 불능 논증은 오류 발생에 특화된 위험을 해결할 수도 있습니다. 오류 발생한 AI의 큰 추가 위험은 AI가 권력 추구나 오류 발생을 숨기는 것과 같은 기구적 목표를 따를 수 있다는 것입니다. 예를 들어, 오류 발생한 모델은 평가 중 오류 발생을 숨겨 배포될 수 있도록 하기 위해 오류 발생한 목표를 달성할 수 있도록 유도될 수 있습니다. 이러한 기구적 부목표를 따르기 위해서는 AI가 추가 기능이 필요합니다. 예를 들어, AI는 배포 시나리오에 대해 알고 이해해야 합니다(때로는 "상황 인식"으로 불립니다); AI는 기구적 부목표를 따르기 위해 논리적으로 또는 직관적으로 이해해야 합니다; AI는 오류 발생이나 권력 추구 동기를 우리에게 숨길 만큼 은밀하게 행동해야 합니다. 이러한 또는 기타 관련 기능을 위한 평가 방법을 설계할 수 있다면 오류 발생한 AI가 피해를 입힐 수 있는 능력에 대한 불가능 안전 사례를 만들 수 있습니다. 이러한 불가능 논증의 이점은 위험에 특화되지 않으며 모든 오류 발생한 모델이 피해를 입힐 수 있는 방법을 평가하기 위해 설계된 것은 아닙니다. 단점은 이러한 평가는 위험에 특화된 평가보다 더 일찍 통과될 가능성이 높다는 것입니다. 따라서 이러한 논증만으로는 의존할 수 없으며 위험에 특화된 평가와 불가능 논증을 결합해야 합니다. 가능성 있는 오류 발생 모델은 위험한 기능 평가 및 불가능 안전 사례를 수행하는 데 추가적인 도전 과제를 제공합니다. 특히, 모델이 오류 발생한 목표를 따를 경우 평가 프로토콜을 방해하려는 동기 부여가 있을 가능성이 큽니다. 예를 들어, AI는 능력에서 우리를 속이려 할 수 있으며, 때로는 "샌드백"이라고 불립니다. Meinke et al. (2024)는 AI 모델이 간단한 평가 설정에서 샌드백을 할 수 있음을 발견했으며, Apollo (2025)는 AI 모델이 평가 중임을 알고 있다는 것을 표현하는 것을 발견했으며, 이는 곧 샌드백을 가능하게 할 수 있습니다. 샌드백 위험은 평가 프로토콜을 설정하는 데 더 많은 주의가 필요합니다. 어떤 능력 유도 기술은 다른 기술보다 샌드백에 더 강인할 가능성이 큽니다. 예를 들어, 표준 RL 학습은 샌드백 에이전트가 충분하게 탐색하지 않음으로써 쉽게 우회될 수 있으며, 때로는 "탐색 해킹"이라고 불립니다. 그러나 샌드백 모델은 좋은 성능을 나타내기 위해 기울기 업데이트에 견디거나 조작해야 하며, 때로는 "경도 해킹"이라고 불립니다. 이는 다양한 능력 유도 방법을 사용하고 그 결과를 비교하는 것이 유익하다는 것을 시사합니다. AI 개발자는 또한 위험한 기능 평가의 스케일링 트렌드를 모니터링하고 샌드백의 잠재적 징후를 검토하여 샌드백을 탐지해야 합니다. 오류 발생한 모델에 대한 위험을 평가하기 위해 사용법 위험을 평가하기 위해 설계된 위험한 기능 평가의 일부를 재사용할 수 있지만, 계획 능력과 샌드백을 고려해야 합니다. 그러나 모델이 오류 발생을 숨기고 피해를 입힐 수 있는 능력이 되면 오류 발생에 대한 더 집중된 보증 전략이 필요합니다. **6.8.2. 통제** 모델이 피해를 입힐 수 있는 능력이 되면 안전 사례를 수립하기 위한 다른 접근 방식이 필요합니다. 하나의 유망한 접근 방식은 AI가 오류 발생하더라도 피해를 입힐 수 없도록 안전 장치를 구현하는 것입니다. 이 접근 방식은 일반적으로 AI 통제(Control)라고 불립니다. 제어 안전 사례를 수립하려면 AI 시스템에서 생성된 모든 출력이 안전하도록 보장해야 합니다. AI 시스템의 출력을 모니터링하는 시스템을 통해 제어 안전 사례를 구성하는 가장 간단한 방법은 Section 6.3.6에 설명된 것입니다. 특히, 배포 중 모니터링은 훈련 중 감독과 유사한 방법을 사용하지만 다른 안전 사례에 기여합니다. 강력한 제어 안전 사례를 수립하려면 AI의 안전하지 않은 행동을 탐지해야 합니다. 현재 AI 시스템에서는 인간이 안전하지 않은 출력을 쉽게 탐지할 수 있으며, 주요 도전 과제는 자동 모니터링을 통해 감독을 확장하는 것입니다. 미래 AI 시스템에서는 인간 감독 능력을 강화하기 위해 기술(Section 6.1)을 사용하거나 제한된 인간 감독 용량을 사용하여 대규모 AI 배포를 감독할 수 있는 방법을 찾아야 할 수 있습니다. 확장 가능한 제어 솔루션에는 자동화된 감독 작업을 수행하기 위해 다른 AI 모델을 사용하는 것이 포함될 수 있습니다. 그러나 오류 발생한 모델이 배포된 최전선 모델과 제어 프로토콜을 방해하기 위해 협력하는 경우 제어 안전 사례를 사용하는 AI 자동화가 실패할 수 있습니다. 이는 신뢰할 수 있는 모델만 강력한 신뢰할 수 없는 모델의 출력을 감독하도록 하는 방법이나 협력에 대항하는 특정 조치를 구현함으로써 완화될 수 있습니다. "제어 평가"(Greenblatt et al., 2024c)는 제어 프로토콜이 안전하지 않은 AI 출력을 방지하는 능력을 평가하기 위해 레드 팀을 사용합니다. 제어 평가 동안, 인간 레드 팀은 시나리오 내의 모든 신뢰할 수 없는 모델을 제어하고 제어 설정을 우회하여 안전 위반을 유도하려고 시도합니다. 예를 들어, 코딩 보조 프로그램을 위한 제어 기술을 테스트할 때, 레드 팀은 모델을 수정하여 출력에 백도어를 삽입하려고 시도할 수 있으며, 블루 팀은 레드 팀이 모델에 가한 수정을 탐지하려고 시도할 수 있거나(Marks et al., 2025) 약한 모델을 사용하여 의심스러운 출력을 탐지할 수 있습니다. 신뢰할 수 있는 제어 안전 사례는 잘 설계된 제어 평가에 기반을 두어야 합니다. 예를 들어, 제어 평가 설계는 신뢰할 수 있는 모델과 신뢰할 수 없는 모델을 정의하고 레드 팀과 블루 팀에 제공된 권한을 정의해야 합니다. 안전하지 않은 결과를 정의하는 것은 제어 안전 사례를 수립하는 데 중요합니다. 우리는 (1) 재앙적인 결과를 피하는 데 중점을 두며(Section 1), (2) "안전 마진"을 가진 훈련 목표를 사용하여 불확실한 상황에서 인간 상담과 같은 것을 사용합니다. 이는 일반 경우에 비해 안전하지 않은 결과를 정의하는 범위를 좁히고 단순화하지만 여전히 도전 과제가 됩니다. **6.8.3. 잠재적인 미래 안전 사례** 불능과 제어는 현재 가장 구체적인 방법으로 잠재적으로 오류 발생한 모델에 대한 안전 사례를 구성하는 방법입니다. 그러나 이러한 논증은 고능력 AI 시스템에 대해서는 불충분할 가능성이 큽니다. 이 섹션에서는 미래 시스템에 대한 안전 사례를 구성하기 위한 더 추측적인 접근 방식을 개요로 설명합니다. 이 모든 접근 방식은 상당한 추가 연구가 필요합니다. 실증적 모델 행동에 대한 논증 모델의 행동에 대해 실증적 논증을 할 수 있을지도 모른다. 현재 모델의 불일치 정도를 평가할 수 있는 신뢰할 수 있는 방법은 존재하지 않는다. 그러나 특히 스트레스 테스트 기법(6.7절)을 통해 정렬 기법을 검증하는 데 있어 정렬 연구와 평가 방법에 대한 앞으로의 진전은 특정 모델이 불일치할 가능성에 대한 논증이 가능할 수 있다. 한 접근법은 불일치한 모델과 정렬된 모델이 다르게 행동할 수 있는 현실적인 "꿀벌 트랩" 시나리오에서 모델을 배치하는 것이다. 특히 꿀벌 트랩 시나리오는 실제 배포와 구별하기 어려워야 하며, 불일치한 모델이 꿀벌 트랩에 의도적으로 참여하지 않도록 해야 한다. 이 유형의 논증의 핵심 도전 과제는 불일치한 행동이 입력 분포의 일부에서만 발생할 수 있다는 것이다. 예를 들어, Greenblatt 등(2024a)은 일부 AI 시스템이 해로운 요청을 답변하기 위해 미세 조정될 것이라고 알려지면 정렬을 가장한다는 것을 보여주었다. 이는 AI 시스템이 배포될 때 개발자들이 알고 있지 않았을 가능성이 있다. 한 접근법은 꿀벌 트랩이 수렴된 도구적 부목표를 달성하는 기회를 제공하는 것이다(Omohundro, 2008). 이는 AI의 불일치한 목표에 관계없이 유용할 가능성이 있다. 그러나 AI 시스템이 입력의 희귀한 부분집합에서만 불일치한 목표를 추구하는 경우를 처리하지 못한다. 전체적으로 잠재적인 반역 시나리오에 대한 충분한 커버리지를 달성하여 강력한 안전 사례를 수립하는 것은 매우 도전적일 수 있다. 훈련 인센티브에 대한 실증적 논증 AI가 도구적 목표를 추구하는 것에 대한 우려는 훈련 과정에서 존재하는 인센티브에서 비롯된다(4.2절). 훈련 과정이 원하는 도구적 목표를 유도하지 않는다는 것을 보여주는 것은 결과 모델의 정렬에 대한 신뢰를 크게 높일 수 있다(Grosse, 2024). 이는 완전한 안전 사례를 구성하지 않을 수 있지만, 불가능성이나 제어와 같은 다른 논증에 대한 의존을 줄일 수 있다. 내부 과정 이해 AI 시스템의 내부 과정을 충분히 이해하면 이러한 이해를 활용한 안전 사례 논증을 할 수 있다. 이 접근법은 해석 가능성 연구(6.6절)에 대한 상당한 진전이 필요하지만, 강력한 안전 논증을 가능하게 할 수 있다. 기본적인 예로는 기만과 같은 바람직하지 않은 행동 전에 활성화되는 내부 과정이나 회로를 식별하는 것이다(Templeton 등, 2024). 이 내부 과정을 모니터링하면 해로운 결과가 발생하기 전에 사전에 감지하고 방지할 수 있으며, 충분한 검증 후 강력한 안전 사례를 제공할 수 있다. (증명 가능한) 모델 행동/내부 검증 더 강력한 안전 사례는 모델 행동, 내부, 또는 훈련 과정을 (증명 가능하게) 검증하는 것을 활용할 수 있다(Dalrymple 등, 2024). 이는 AI 시스템이 전체 입력 도메인에서 "X를 하지 않는다"는 것과 같은 진술을 증명하는 것을 포함할 수 있다. 현재는 소규모 신경망에만 적용 가능하며(Liu 등, 2021a), 더 큰 AI 시스템의 하위 시스템의 속성을 검증하는 것은 달성 가능한 목표일 수 있다. 6.9. 기타 영역 불일치와 관련하여 많은 다른 연구 영역이 있지만, 우리 접근법에는 포함되지 않는다. 일반적으로 아직 충분한 가치를 더할 만큼 성숙하지 않기 때문에 우선순위에 따라 가까운 미래에 유용할 것으로 기대되는 접근법에 집중하고 있다. "언제나" 접근법(3.3절)에 맞춰, 이러한 영역에서 유용성을 입증하는 미래의 연구에 대해 기대하고 있으며, 충분한 증거가 있으면 우리의 접근법에 포함시키고 싶다. 특히 에이전트 기초와 심층 학습 및 일반화에 대한 과학과 같은 구체적인 예가 있다. 7. 결론 AGI의 변혁적인 성질은 엄청난 혜택뿐만 아니라 심각한 해로도 이어질 수 있다. 따라서 AGI를 책임 있게 구축하기 위해서는 전방위 AI 개발자들이 심각한 해를 미연에 방지하기 위해 적극적으로 계획을 세우는 것이 중요하다. 이 논문에서는 악용과 불일치에 대한 기술적 완화책을 설명했다. 악용의 경우, 악의적인 배우자가 위험한 능력을 사용할 수 있도록 차단하는 것에 중점을 둔다. 불일치의 경우, 두 가지 접근법이 있다. 첫째, AI 시스템의 행동을 이해하는 것을 목표로 하여 이를 감시할 수 있도록 한다. 둘째, AI 시스템이 행동하는 환경의 강도를 높이는 것을 목표로 한다. 설명된 많은 기술은 아직 초기 단계에 있으며 많은 연구 과제가 남아 있다. 따라서 심각한 위험을 완화하기 위해 할 일은 아직 많다. 이 논문이 더 넓은 커뮤니티가 AGI의 잠재적인 혜택을 안전하고 안전하게 접근할 수 있도록 돕는 데 기여할 수 있기를 바란다. 감사의 말 Been Kim, Kevin Robinson, Lewis Smith, Mark Kurzeja, Mary Phuong, Michael Dennis, Rif A. Saurous, Rory Greig, Sarah Cogan, Verena Rieser 및 Google DeepMind의 많은 연구자들에게 이 논문의 초안을 검토해 주신 것에 대해 감사드린다.

[블로그 홈으로 가기] [더 많은 글 보기]