Verde: система верификации машинного обучения на ненадежных узлах

Verde — это протокол верификации для программ машинного обучения, а также основная система Reproducible Operators (RepOps), которая обеспечивает его работу. RepOps — это библиотека, гарантирующая побитовую воспроизводимость работы ML на различных аппаратных средствах.
Сеть Gensyn создает глобальный свободный рынок вычислений для машинного обучения. Она позволяет любому пользователю предоставлять ресурсы — от дата-центров до MacBook — при обеспечении единообразного выполнения на всех устройствах. Это позволяет разработчикам обучать модели сверхвысокого масштаба с низкими затратами и открывает новые формы совместного обучения, которые ранее были невозможны.
Чтобы реализовать эту концепцию, нам необходим механизм для проверки работы ненадежных поставщиков в масштабируемом виде. Наивный подход заключался бы в использовании доверенного посредника для воспроизведения каждой задачи или ручного включения поставщиков в белый список доверенных сторон. В обоих случаях мы быстро сталкиваемся с ограничениями масштабируемости: в первом случае накладные расходы на репликацию будут неприемлемыми; во втором случае мы исключим долгий хвост поставщиков, желающих участвовать.
Более сложные подходы, такие как криптографические системы доказательства, гарантируют правильность, но они слишком дороги для крупных ML-работ (по крайней мере, на данный момент). Эвристические подходы, такие как Proof-of-Learning или Proof-of-Training Data, предлагают эффективность за счет слабых гарантий безопасности.
Мы вместо этого обращаемся к идее арбитражной делегации, которая использует проверяющих для проверки работы каждого поставщика. Если проверяющий считает, что вывод поставщика неверен, он может использовать эффективную игру разрешения споров, чтобы убедить нейтрального арбитра в этом. Эти техники лежат в основе оптимистичной верификации, используемой в блокчейн-роллапах, таких как Arbitrum и Optimism, где валидаторы блокчейна выступают в роли арбитра. Споры по целым блокам транзакций могут быть разрешены …
Однако арбитражная делегация плохо сочетается с современным машинным обучением по двум причинам. Во-первых, она была разработана для программ на CPU и неэффективно переводится на крупномасштабные нейронные сети. Во-вторых, она предполагает, что честные серверы всегда будут вычислять одинаковый результат для одной и той же программы, что часто неверно в машинном обучении, если они используют различное оборудование.
Любой жизнеспособный механизм должен решать эти проблемы в масштабируемом виде.
Представляем Verde
Сегодня мы рады представить Verde — первый протокол верификации, специально разработанный для современного машинного обучения в децентрализованных средах.
Verde состоит из легкой системы разрешения споров, которая определяет первый шаг обучения и оператор в вычислительном графе нейронной сети, с которым тренер и проверяющий не согласны. Теперь, вместо повторного выполнения всей задачи, арбитры, которыми могут быть смарт-контракт или жюри проверяющих, пересчитывают только этот один спорный оператор. Это значительно снижает накладные расходы на верификацию, при этом гарантируя, что, если хотя бы один проверяющий честен, правильный результат будет обеспечен.

Воспроизводимость
Для того чтобы эта система работала, нам необходимо, чтобы программы машинного обучения были воспроизводимы на всех аппаратных настройках, так что различные (честные) узлы будут вычислять одинаковый результат, независимо от того, какое устройство они используют. Обычно это не так по умолчанию, даже для различных устройств одного производителя (например, Nvidia A100 против H100).
Чтобы решить эту проблему, мы создали Reproducible Operators (RepOps), библиотеку, которая реализует побитово воспроизводимые версии популярных ML-операторов. Это решает проблему аппаратной недетерминированности, обеспечивая фиксированный порядок выполнения операций с плавающей точкой при вычислении таких функций, как умножение матриц. Это гарантирует, что честные поставщики всегда будут выдавать побитово идентичные результаты, позволяя протоколу разрешения споров Verde работать надежно.
Заключение
Verde обеспечивает основу для децентрализованного машинного обучения. Это позволяет Gensyn масштабируемо и без ограничений подключать все вычислительные устройства в мире, от центров обработки данных до периферийных устройств.
Чтобы узнать больше об этом, вы можете прочитать полный документ здесь.
Чтобы увидеть, как работает воспроизводимость с использованием RepOps в живой демонстрации, следуйте инструкциям здесь.