Testnet

Diverse Expert Ensembles: параллельные LLM на основе различных специалистов

Это научная работа, в которой рассматриваются преимущества гетерогенности (разные размеры моделей и количество шагов обучения) при обучении ансамблей экспертов с параллельной обработкой. Мы обнаружили, что разнообразные модели, обученные на разных вычислительных источниках в течение разного времени, показывают лучшую производительность при объединении, чем однородные модели, обученные с одинаковыми настройками.

Diverse Expert Ensembles

Модели типа Mixture-of-Experts (MoE) продолжают набирать популярность благодаря своей вычислительной эффективности и производительности. Однако, несмотря на свою модульную структуру, мы по-прежнему обучаем их так же, как и плотные монолитные сети. То есть, в крупных дата-центрах, управляемых одной организацией, с использованием однородных вычислительных ресурсов и гиперпараметров экспертов.

В Gensyn мы давно придерживаемся мнения, что AGI будет представлять собой открытую экосистему взаимосвязанных моделей — подобно самому интернету — а не монолитную модель от одной компании. Более того, разнообразие моделей будет усиливать эту экосистему, а не ослаблять её.

Сегодня мы рады представить наши первые результаты в поддержку этой гипотезы.

Введение в гетерогенную сборку экспертов (HDEE)

HDEE — это фреймворк для создания разнообразных сборок экспертов, то есть гетерогенных моделей MoE, обучаемых с использованием параллельного обучения.

HDEE основывается на методе параллельного обучения Branch Train Merge (BTM) из работы Li et al., 2022, где показано, что «возможно независимо обучать подмодели нового класса LLM на разных подмножествах данных, исключая массовую многозадачную синхронизацию, которая в настоящее время требуется для обучения LLM». Наша работа демонстрирует, что расширение BTM для использования гетерогенных размеров моделей и параметров обучения (то есть поддержка различных вычислительных возможностей) фактически увеличивает производительность последующей объединённой модели.

Конкретно, вместо того чтобы обучать всех экспертов с одинаковыми настройками, HDEE подбирает каждый эксперт в зависимости от его домена данных и/или вычислительных возможностей. Для более простых доменов используется меньшая модель (или модель, обученная с меньшим числом итераций); для более сложных доменов применяются более крупные модели и более длительное обучение.

Эти конфигурации гарантируют, что каждый эксперт будет оптимально настроен, что приводит к более способной сборке. В целом, гетерогенная сборка достигает наилучшей перплексии в 20 из 21 оценённых доменов по сравнению с базовой моделью, используя эквивалентный вычислительный бюджет.

Взгляд в будущее

HDEE предоставляет ранний взгляд на открытую экосистему моделей. Независимые разработчики могут обучать модели на разнообразном оборудовании, используя конфигурации, подходящие для их данных и областей экспертизы. HDEE и подобные методы могут объединять их в мета-модели, которые направляют запросы по наилучшему пути, во многом напоминающему сам интернет.

Gensyn разрабатывает основную инфраструктуру для этого, позволяя разработчикам обучать, проверять и объединять свои модели на всем ML-способном оборудовании мира.

Чтобы узнать больше, вы можете прочитать полную статью здесь.

HDEE полностью открыт, и мы призываем исследовательское сообщество строить свои разработки на основе этого кода.