RL Swarm: Рамочная система для совместного обучения с подкреплением

RL Swarm — это фреймворк с открытым исходным кодом (MIT License) для одноранговых узлов, которые реализуют совместное обучение с подкреплением (RL) через Интернет, доступное для всех пользователей как на потребительском, так и на серверном оборудовании.
Мы давно верим, что будущее машинного обучения будет децентрализованным и фрагментированным. Наши текущие монолитные модели будут заменены на фрагментированные параметры, существующие на каждом устройстве по всему миру. В нашем исследовании мы изучаем различные пути, ведущие к этому будущему, и недавно обнаружили, что обучение с подкреплением (RL) работает особенно эффективно, когда модели обучаются совместно, общаясь друг с другом и критикуя ответы друг друга.
Мы пришли к выводу, что RL-модели учат быстрее, когда они обучаются как коллективное сообщество, а не поодиночке.
Подробности механизма читайте здесь или присоединяйтесь к живой демонстрации, чтобы увидеть технологию в действии.
Как это работает
В нашей настройке каждый узел в сообществе запускает модель Qwen 2.5 1.5B и решает математические задачи (GSM8K) в три этапа:
- Этап 1 (Ответ):
Каждая модель решает задачу независимо, выводя своё рассуждение и ответ в указанном формате. - Этап 2 (Критика):
Каждая модель рассматривает ответы, предоставленные другими моделями, и даёт свою обратную связь. - Этап 3 (Разрешение):
Каждая модель голосует за лучший ответ на каждый вопрос. Затем каждая модель предоставляет окончательный пересмотренный ответ.

В ходе наших экспериментов мы обнаружили, что эта система ускоряет процесс обучения, позволяя моделям давать лучшие ответы на невидимых тестовых данных за меньшее количество этапов обучения.

Графики, полученные с узла «роя», демонстрируют циклическое поведение, вызванное «сбросами» между раундами многоэтапной игры. По оси X — время с момента присоединения к «рою». По оси Y:
i) Consensus Correctness Reward — “Награда за согласованную корректность», которая фиксирует, когда этот участник swarm правильно сформировал свой выбор лучшего ответа И выбранный им ответ действительно был математически правильным;
ii) Total Reward — Общее вознаграждение, представляющее собой взвешенную сумму нескольких вознаграждений, основанных на правилах (например, за проверку форматирования и математической/логической правильности ответов);
iii) Training Loss — Потеря при обучении, которая фиксирует сигнал обратной связи для максимизации вознаграждения, распространяемый для обновления “базового” LLM;
iiiv) Response Completion Length — Длительность завершения ответа для модели, которая отражает количество токенов в выходном ответе (это показывает, что модели учатся быть более краткими, когда их критикуют коллеги).
Присоединение к сообществу
Для демонстрации этой системы и масштабирования экспериментов мы выпускаем живую демонстрацию, к которой любой пользователь может присоединиться. Это полностью открытая система для создания обучающих сообществ RL через Интернет.
Запуск swarm-node позволяет вам создать новый роевой кластер или подключиться к уже существующему узлу, используя его публичный адрес. Каждый кластер выполняет обоснованное обучение с подкреплением (RL) коллективно, применяя систему обмена сплетнями на базе Hivemind для совместного улучшения моделей.
Запуск встроенного клиента даёт возможность подключиться к кластеру, получать сообщения и локально обучать свою модель как часть коллектива. В будущем мы запустим ещё больше экспериментов для роевой системы и будем рады широкому участию сообщества.
RL Swarm полностью открыт и не имеет прав доступа, что означает, что вы можете запустить его на обычном домашнем ноутбуке или на мощном графическом процессоре в облаке.
Присоединиться к «Swarm»
Технический отчёт
***
RL Swarm — это взгляд в будущее машинного обучения. Он предоставляет рамочную систему для совместного RL между участниками, где интеллект использует коллективную мудрость, а не ограниченный круг закрытых лабораторий. Для дальнейшего масштабирования потребуется открытая вычислительная сеть, соединяющая все устройства в мире, о чем мы будем рады рассказать подробнее в ближайшее время.