허깅페이스에 Mistral-Small-24B-Instruct-2501라는 새로운 모델이 등장했습니다. 미스트랄AI에서 오픈소스로 공개한 모델입니다. 2025년 2월 4일 기준입니다. 아래 링크에서 직접 접속하여 모델을 다운받거나 테스트를 해보실 수 있어요. https://huggingface.co/mistralai/Mistral-Small-24B-Instruct-2501 저희가 지금 이 모델에 주목해야 하는 이유가 있는데요. 성능과 효율성을 높이기 위해 MoE(Mixture of Experts) 아키텍처를 채택한 부분에 주목해야 합니다. 그러면 이 모델과 MoE가 가져올 LLM 시장의 변화에 대해 알아보도록 하겠습니다.
Mistral Small 3는 24억 개의 매개변수를 가진 대규모 언어 모델로, 70억 매개변수 이하의 "소형" LLM 카테고리에서 새로운 기준을 세웠습니다. 이 모델은 더 큰 모델과 견줄 만한 최첨단 성능을 자랑합니다. 주요 특징으로는요. 다국어 지원: 영어, 프랑스어, 독일어, 스페인어, 이탈리아어, 중국어, 일본어, 한국어, 포르투갈어, 네덜란드어, 폴란드어 등 여러 언어를 지원합니다. 한국어도 기본으로 지원하기 때문에 즉시 사용은 가능하지만, 파인튜닝이나 딥시크의 GRPO 강화학습 방식으로 학습하면 더 좋아지리라 생각합니다. 1.에이전트 중심 기능 네이티브 함수 호출 및 JSON 출력과 같은 에이전트 기능을 제공합니다. 2.고급 추론 능력 최첨단 대화 및 추론 능력을 갖추고 있습니다. 3.Apache 2.0 라이선스 상업적 및 비상업적 용도로 사용 및 수정이 가능한 오픈 라이선스를 채택하고 있습니다. 4.32k 컨텍스트 윈도우 긴 문맥을 처리할 수 있는 32,768 토큰의 컨텍스트 윈도우를 제공합니다. 5.시스템 프롬프트 지원 시스템 프롬프트에 대한 강력한 준수 및 지원을 제공합니다. 6.Tokenizer: 131,000 어휘 크기의 Tekken 토크나이저를 사용합니다. 성능 벤치마크를 알아보면요. Mistral Small 3는 Llama 3.3 70B, Qwen 32B와 같은 더 큰 모델과 경쟁하며, 동일한 하드웨어에서 3배 이상의 속도로 작동합니다. MMLU 벤치마크에서 81%의 정확도를 달성하였으며, 이는 더 큰 모델과 비교해도 우수한 성능입니다. 이 모델을 적용할 수 있는 사례는 다음과 같습니다. 1.빠른 응답이 필요한 대화형 에이전트: 즉각적이고 정확한 응답이 중요한 가상 비서 등에 적합합니다. 2.저지연 함수 호출: 자동화된 워크플로우에서 빠른 함수 실행이 가능합니다. 전3.문 분야에 대한 미세 조정: 법률 상담, 의료 진단, 기술 지원 등 특정 분야에 대한 전문 지식을 갖춘 모델로 미세 조정할 수 있습니다. 4.로컬 추론: 민감한 정보를 다루는 조직이나 개인이 로컬 환경에서 모델을 실행할 수 있으며, 양자화 시 RTX 4090 또는 32GB RAM의 MacBook에서 실행이 가능합니다. 사용 방법은요. Mistral Small 3는 vLLM, Transformers, Ollama 등 다양한 프레임워크와 호환되며, 사용자는 자신의 기술 스택에 맞게 모델을 통합할 수 있습니다. 이 모델은 Apache 2.0 라이선스 하에 공개되어 있어, 상업적 및 비상업적 용도로 자유롭게 사용 및 수정이 가능합니다. 자세한 내용은 Mistral AI의 공식 블로그 게시물을 참고하시기 바랍니다.
Mistral Small 24B 2501 모델은 24억 개의 매개변수를 가진 대규모 언어 모델로, 성능과 효율성을 높이기 위해 MoE(Mixture of Experts) 아키텍처를 채택했습니다. MoE는 모델의 특정 레이어를 여러 개의 전문가 네트워크(Experts)로 구성하고, 입력 데이터에 따라 가장 적합한 전문가들만 활성화하여 연산을 수행하는 방식입니다. 이러한 구조를 통해 모델은 전체 파라미터 수를 증가시키면서도 실제 연산에 사용되는 파라미터 수를 제한하여 효율성을 높일 수 있습니다. MoE의 주요 특징은 다음과 같습니다. 1.희소성(Sparsity) 입력 데이터마다 전체 전문가 중 일부만 활성화되어 연산되므로, 모델은 거대하지만 실제 연산 비용은 상대적으로 낮습니다. 2.게이트 네트워크(Gate Network) 각 입력 토큰이 어떤 전문가에게 할당될지를 결정하는 네트워크로, 일반적으로 선형 레이어와 소프트맥스 함수를 사용하여 가장 적합한 전문가를 선택합니다. 3.Top-K 게이팅 입력 토큰을 상위 K개의 전문가에게 분배하여, 각 전문가의 출력을 가중합하여 최종 출력을 생성합니다. 이를 통해 모델의 표현력을 높일 수 있습니다. Mistral Small 24B 2501 모델은 이러한 MoE 아키텍처를 활용하여, 더 큰 모델과 유사한 성능을 유지하면서도 연산 효율성을 높였습니다. 예를 들어, Llama 3.3 70B와 같은 더 큰 모델과 경쟁하면서도 동일한 하드웨어에서 3배 이상의 속도로 작동합니다. MoE의 이러한 특성 덕분에, Mistral Small 24B 2501 모델은 빠른 응답이 필요한 대화형 에이전트, 저지연 함수 호출, 전문 분야에 대한 미세 조정, 로컬 추론 등 다양한 적용 분야에서 효율적으로 활용될 수 있습니다.
Mixture of Experts(MoE)는 인공지능 모델을 여러 개의 전문화된 하위 네트워크(전문가)로 분할하여, 각 전문가가 입력 데이터의 특정 부분에 특화되도록 설계된 기법입니다. 이러한 구조는 모델의 용량을 크게 확장하면서도 계산 비용을 최소화할 수 있습니다. MoE의 주요 구성 요소는요. 전문가(Experts): 각 전문가 네트워크는 특정 데이터 패턴이나 작업에 특화되어 학습됩니다. 게이트(Gate): 게이트 네트워크는 주어진 입력에 대해 가장 적합한 전문가를 선택하거나 조합하여 최종 출력을 생성합니다. MoE의 작동 원리는 다음과 같습니다. 입력 데이터가 주어지면, 게이트 네트워크는 해당 입력에 가장 적합한 전문가를 선택합니다. 선택된 전문가는 해당 입력에 대한 출력을 생성하며, 이러한 출력은 최종 결과를 도출하는 데 사용됩니다. 이러한 방식으로, 모델은 전체 네트워크를 활성화하지 않고도 높은 효율성과 성능을 달성할 수 있습니다. MoE의 장점은요. 효율성과 확장성에 있습니다. 모든 입력에 대해 전체 모델을 사용하는 것이 아니라, 관련된 전문가만 활성화하여 계산 효율성을 높입니다. 또, 모델의 전체 파라미터 수를 증가시키면서도 실제 계산 비용은 낮게 유지할 수 있어, 대규모 모델의 학습과 추론이 용이합니다. MoE가 해결해 나가야 할 과제는요. 로드 밸런싱: 일부 전문가는 자주 선택되고, 다른 전문가는 거의 선택되지 않는 불균형이 발생할 수 있습니다. 이를 해결하기 위해 보조 손실 함수를 도입하여 전문가들의 선택 빈도를 조절하는 방법이 연구되고 있습니다. 라우팅 전략: 입력을 어떤 전문가에게 할당할지 결정하는 라우팅 전략은 모델의 성능에 큰 영향을 미칩니다. 다양한 라우팅 기법이 제안되어 왔으며, 각 기법의 장단점을 고려하여 선택해야 합니다. MoE의 실제 적용 사례는 다음과 같습니다. MoE는 대규모 언어 모델에서 주로 사용되며, 모델의 용량을 확장하면서도 계산 효율성을 높이는 데 기여합니다. 예를 들어, Google의 GShard와 Switch Transformer는 MoE 아키텍처를 활용하여 대규모 모델을 효율적으로 학습하였습니다. 또한, 딥시크(DeepSeek)와 같은 AI 스타트업은 MoE를 활용하여 고성능 AI 모델을 경제적인 비용으로 개발하였습니다. 딥시크는 특정 작업 시 문제 해결에 필요한 AI만 활성화하는 MoE 기법을 통해 효율성을 극대화하였으며, 이를 통해 개발 비용을 크게 절감하였습니다. MoE는 이러한 효율성과 확장성 덕분에, 대규모 모델의 학습과 추론에서 중요한 역할을 하고 있습니다.
Mixture of Experts(MoE)와 트랜스포머의 어텐션 메커니즘은 모두 딥러닝 모델의 성능 향상을 목표로 하지만, 그 접근 방식과 특징에서 차이가 있습니다. 차이점에는, 기본적으로 구조적 차이가 있습니다. 트랜스포머 어텐션: 트랜스포머는 셀프 어텐션 메커니즘을 통해 입력 시퀀스의 모든 요소 간의 관계를 계산합니다. 이를 통해 각 단어가 문맥 내 다른 단어와 어떻게 연관되는지를 파악합니다. MoE: MoE는 모델을 여러 전문가 네트워크로 분할하고, 입력 데이터에 따라 가장 적합한 전문가를 선택하여 활성화합니다. 즉, 전체 네트워크 중 일부 전문가만이 활성화되어 연산에 참여합니다. 계산 방식에서도 차이가 납니다. 트랜스포머 어텐션: 모든 입력 토큰 간의 상호작용을 계산하므로, 시퀀스 길이에 따라 계산 복잡도가 증가합니다. MoE: 입력에 따라 선택된 전문가만 활성화되므로, 전체 모델의 파라미터 수는 많지만 실제 연산에 사용되는 파라미터는 제한적입니다. 장점은 다음과 같습니다. 트랜스포머 어텐션의 장점은, 병렬 처리: 모든 단어를 동시에 처리할 수 있어 학습 속도가 빠릅니다. 장거리 의존성 처리: 멀리 떨어진 단어 간의 관계도 효과적으로 모델링할 수 있습니다. 해석 가능성: 어텐션 가중치를 시각화하여 모델의 동작을 이해할 수 있습니다. MoE의 장점은, 효율성: 모델의 용량을 확장하면서도 계산 비용을 최소화할 수 있습니다. 전문화: 각 전문가는 특정 데이터 패턴에 특화되어 학습되므로, 특정 작업에서 높은 성능을 발휘할 수 있습니다. 확장성: 모델의 전체 파라미터 수를 증가시키면서도 실제 계산 비용은 낮게 유지할 수 있습니다. 각각의 단점은 다음과 같습니다. 먼저 트랜스포머 어텐션의 단점은, 높은 계산 비용: 시퀀스 길이가 길어질수록 계산 복잡도가 기하급수적으로 증가합니다. 자원 소모: 대규모 GPU 메모리와 연산 자원이 필요합니다. MoE의 단점은, 로드 밸런싱 문제: 일부 전문가는 자주 선택되고, 다른 전문가는 거의 선택되지 않는 불균형이 발생할 수 있습니다. 이를 해결하기 위해 보조 손실 함수를 도입하여 전문가들의 선택 빈도를 조절하는 방법이 연구되고 있습니다. 라우팅 복잡성: 입력을 어떤 전문가에게 할당할지 결정하는 라우팅 전략은 모델의 성능에 큰 영향을 미칩니다. 다양한 라우팅 기법이 제안되어 왔으며, 각 기법의 장단점을 고려하여 선택해야 합니다. 요약하면, 트랜스포머의 어텐션 메커니즘은 입력 시퀀스의 모든 요소 간의 관계를 계산하여 문맥을 이해하는 데 중점을 두는 반면, MoE는 모델을 여러 전문가로 분할하고 입력에 따라 적절한 전문가를 선택하여 효율성과 전문성을 높이는 데 초점을 맞추고 있습니다.
현재 LLM의 발전 방향은 모델의 규모와 성능을 지속적으로 향상시키는 데 중점을 두고 있습니다. 이 과정에서 계산 효율성과 자원 활용의 최적화가 중요한 과제로 부각되고 있습니다. MoE는 이러한 요구를 충족시키기 위한 유망한 솔루션으로 평가받고 있으며, 실제로 여러 연구와 모델에서 MoE 아키텍처를 도입하여 성능 향상과 효율성 증대를 달성하고 있습니다. 예를 들어, NVIDIA는 LLM 아키텍처에 MoE를 적용하여 모델의 용량을 확장하면서도 계산 비용을 절감하는 연구를 진행하고 있습니다. 또한, Uni-MoE와 같은 연구에서는 MoE 아키텍처를 활용하여 통합된 멀티모달 LLM을 개발함으로써 다양한 모달리티의 데이터를 효율적으로 처리하는 모델을 제안하고 있습니다. 이러한 추세를 고려할 때, LLM의 미래는 MoE 방식을 포함한 다양한 효율성 향상 기법을 통합하여 발전할 것으로 예상됩니다. 다만, MoE의 단점과 과제를 해결하기 위한 지속적인 연구와 개선이 필요하며, 다른 혁신적인 아키텍처와의 조합을 통해 최적의 성능을 추구하는 방향으로 나아갈 것으로 보입니다.