Diverse Expert Ensembles: 다양한 전문가를 기반으로 한 병렬 LLM

이 논문은 병렬 처리로 전문가 앙상블을 훈련할 때 모델 크기와 학습 단계 수의 다양성(이질성)의 장점에 대해 다룹니다. 우리는 다양한 계산 자원에서 서로 다른 시간 동안 학습된 다양한 모델들이 동일한 설정으로 학습된 균일한 모델들보다 결합 시 더 나은 성능을 보인다는 것을 발견했습니다.
다양한 전문가 집합
Mixture-of-Experts(MoE) 모델은 계산 효율성 및 성능 덕분에 계속해서 인기를 끌고 있습니다. 그러나 모듈화 구조가 있음에도 불구하고, 우리는 여전히 그것들을 밀도 높은 단일 네트워크처럼 학습합니다. 즉, 하나의 조직이 관리하는 대형 데이터 센터에서 균일한 계산 자원과 전문가의 하이퍼파라미터를 사용하여 학습을 진행하는 방식입니다.
Gensyn에서는 AGI가 하나의 회사에서 나온 단일 모델이 아니라, 인터넷처럼 상호 연결된 모델들의 개방형 생태계가 될 것이라고 오래전부터 믿어왔습니다. 또한, 모델의 다양성은 이 생태계를 약화시키는 것이 아니라 오히려 강화시킬 것입니다.
오늘 우리는 이 가설을 뒷받침하는 첫 번째 결과를 소개하게 되어 기쁩니다.
Introducing Heterogeneous Domain Expert Ensemble (HDEE)
HDEE는 병렬 학습을 사용하여 학습되는 이질적인 MoE 모델 집합을 생성하는 프레임워크입니다.
HDEE는 병렬 학습 방법인 Branch Train Merge (BTM)을 기반으로 하며, 이 방법에서는 “LLM의 학습을 위해 현재 요구되는 대규모 다중 작업 동기화를 제외하고, 새로운 LLM 클래스의 하위 모델들을 서로 다른 데이터 집합에서 독립적으로 학습할 수 있다”고 보여줍니다. 우리의 연구는 BTM을 확장하여 이질적인 모델 크기와 학습 파라미터를 사용함으로써 (즉, 다양한 계산 능력을 지원함으로써) 결과적으로 결합된 모델의 성능을 향상시킨다는 것을 보여줍니다.
구체적으로, HDEE는 모든 전문가를 동일한 설정으로 학습시키는 대신, 각 전문가를 데이터 도메인과/또는 계산 능력에 맞게 선택합니다. 더 간단한 도메인에는 더 작은 모델(또는 더 적은 학습 단계로 학습된 모델)을 사용하고, 더 복잡한 도메인에는 더 큰 모델과 더 긴 학습을 적용합니다.

이러한 구성은 각 전문가가 최적으로 조정되도록 보장하여 더 능력 있는 집합을 생성합니다. 전반적으로, 이질적인 전문가 집합은 동일한 계산 예산을 사용하여 기준 모델에 비해 21개 도메인 중 20개에서 가장 좋은 perplexity를 달성했습니다.
미래 전망
HDEE는 개방형 모델 생태계의 초기 전망을 제공합니다. 독립적인 개발자들은 자신의 데이터와 전문 분야에 맞는 구성을 사용하여 다양한 장비에서 모델을 학습시킬 수 있습니다. HDEE와 유사한 방법들은 이들을 메타 모델로 결합하여 요청을 최적의 경로로 안내하는데, 이는 인터넷처럼 동작할 수 있습니다.
Gensyn은 이를 위해 기본 인프라를 개발하고 있으며, 이를 통해 개발자들이 학습, 검증 및 전 세계의 ML 장비에서 모델을 결합할 수 있도록 합니다.
자세한 내용을 보려면, 전체 논문을 여기에서 읽을 수 있습니다.
HDEE는 완전히 개방되어 있으며, 우리는 연구 커뮤니티가 이 코드를 기반으로 개발을 구축할 수 있도록 권장합니다.