Verde: система верифікації машинного навчання на ненадійних вузлах

Це академічна стаття, що описує Verde — протокол верифікації для програм машинного навчання, а також базову систему Reproducible Operators (RepOps), яка його забезпечує. RepOps — це бібліотека, що гарантує побітову відтворюваність результатів роботи ML на різноманітному апаратному забезпеченні.
Мережа Gensyn створює глобальний вільний ринок обчислень для машинного навчання. Вона дозволяє будь-якому користувачеві надавати ресурси — від дата-центрів до MacBook — при забезпеченні єдиного виконання на всіх пристроях. Це дозволяє розробникам навчати моделі надвисокого масштабу з низькими витратами та відкриває нові форми спільного навчання, які раніше були неможливі.
Щоб реалізувати цю концепцію, нам необхідний механізм для перевірки роботи ненадійних постачальників у масштабованому вигляді. Наївний підхід полягав би в використанні довіреного посередника для відтворення кожного завдання або ручного включення постачальників у білий список довірених сторін. У обох випадках ми швидко стикаємось з обмеженнями масштабованості: в першому випадку накладні витрати на реплікацію будуть неприпустимими; в другому випадку ми виключимо довгий хвіст постачальників, які хочуть брати участь.
Більш складні підходи, такі як криптографічні системи доказу, гарантують правильність, але вони занадто дорогі для великих ML-робіт (принаймні, на даний момент). Евристичні підходи, такі як Proof-of-Learning або Proof-of-Training Data, пропонують ефективність за рахунок слабких гарантій безпеки.
Ми натомість звертаємося до ідеї делегування з перевіркою, яка використовує перевіряльників для перевірки роботи кожного постачальника. Якщо перевіряльник вважає, що висновок постачальника неправильний, він може використати ефективну гру для розв’язання спорів, щоб переконати нейтрального арбітра в цьому. Ці техніки лежать в основі оптимістичної верифікації, що використовується в блокчейн-ролапах, таких як Arbitrum і Optimism, де валідатори блокчейну виступають в ролі арбітра. Спори по цілих блоках транзакцій можуть бути вирішені.
Однак делегування з перевіркою погано поєднується з сучасним машинним навчанням з двох причин. По-перше, вона була розроблена для програм на CPU і неефективно переноситься на великомасштабні нейронні мережі. По-друге, вона припускає, що чесні сервери завжди будуть обчислювати однаковий результат для однієї й тієї ж програми, що часто є неправдою в машинному навчанні, якщо вони використовують різне обладнання.
Будь-який життєздатний механізм повинен вирішувати ці проблеми в масштабованому вигляді.
Представляємо Verde
Сьогодні ми раді представити Verde — перший протокол верифікації, спеціально розроблений для сучасного машинного навчання в децентралізованих середовищах.
Verde складається з легкої системи вирішення спорів, яка визначає перший крок навчання та оператор у обчислювальному графі нейронної мережі, з яким тренер і перевіряльник не погоджуються. Тепер, замість повторного виконання всього завдання, арбітри, якими можуть бути смарт-контракт або журі перевіряльників, перераховують лише цей один спірний оператор. Це значно знижує накладні витрати на верифікацію, при цьому гарантуючи, що, якщо хоча б один перевіряльник чесний, правильний результат буде забезпечений. …

Відтворюваність
Для того, щоб ця система працювала, нам необхідно, щоб програми машинного навчання були відтворювані на всіх апаратних налаштуваннях, так що різні (чесні) вузли будуть обчислювати однаковий результат, незалежно від того, яке обладнання вони використовують. Зазвичай цього не відбувається за замовчуванням, навіть для різних пристроїв одного виробника (наприклад, Nvidia A100 проти H100).
Щоб вирішити цю проблему, ми створили Reproducible Operators (RepOps), бібліотеку, яка реалізує побітово відтворювані версії популярних ML-операторів. Це вирішує проблему апаратної недетермінованості, забезпечуючи фіксований порядок виконання операцій з плаваючою комою при обчисленні таких функцій, як множення матриць. Це гарантує, що чесні постачальники завжди будуть видавати побітово ідентичні результати, дозволяючи протоколу вирішення спорів Verde працювати надійно.
Висновок
Verde надає основну будівельну блок-систему для децентралізованого машинного навчання. Вона дозволяє Gensyn підключати кожен обчислювальний пристрій у світі — від дата-центрів до периферійних пристроїв — у масштабованій і безроздільній манері.
Щоб дізнатися більше про це, ви можете прочитати повний документ тут.
Щоб побачити, як працює відтворюваність з використанням RepOps в живій демонстрації, слідуйте інструкціям тут.