Litepaper

بروتوكول الحوسبة الضخمة المقياس، الفعال من حيث التكلفة لنماذج التعلم العميق في العالم.

نُشر في فبراير 2022

يرجى ملاحظة أن هذا الإصدار من Litepaper قديم. قام فريق Gensyn بإجراء تغييرات متعددة على تصميم البروتوكول، بما في ذلك ولكن ليس محصوراً بـ:

  1. استبدال بناء سلسلة L1 Substrate (والوظائف المرتبطة بـ canarynet / mainnet) بـ rollup Ethereum مخصص، بعد تقدم كبير في البنية التحتية خارج السلسلة. ملاحظة: نحن أيضاً لم نعد نستخدم Rust في مكدسنا.
  2. استراتيجية تدقيق أكثر قوة لفحص العمل.
  3. إدخال نظام إثبات تشفيري لمراقبة التدريب بشكل ديناميكي.
  4. ضمانات نظرية ألعاب أقوى.
  5. نظام إثبات توافر جديد لضمانات الإثبات.
  6. مترجم ML وبيئة تنفيذ ML قابلة للتكرار.

سيتم نشر هذا البحث بشكل منفصل، لكن يرجى استخدام هذا Litepaper كمقدمة للمشكلة + متجهات الحلول.

الخلفية

تعقيد الحوسبة لأنظمة الذكاء الاصطناعي (AI) الحديثة يتضاعف كل 3 أشهر، مما يتجاوز توريد الحوسبة بشكل كبير. كفريق مؤسس—سواء كنا ننشر بحوثاً في تطور العمارات العصبية العميقة أو نبني نماذج التنبؤ بأضرار الإعصار—لقد اختبرنا هذه الحدود مباشرة.

GPT-3 175B، أكبر نموذج GPT-3 المقترح من OpenAI في Brown et al. (2020) استخدم مجموعة من 1,000 NVIDIA Tesla V100 GPUs للتدريب – تقريباً يعادل 355 عاماً من التدريب على جهاز واحد. DALL-E من Ramesh et al. (2021)، نموذج Transformer آخر من OpenAI، لديه 12 مليار معلمة وتم تدريبه على أكثر من 400 مليون صورة مع تعليقات. تحملت OpenAI تكلفة تدريب DALL-E لكنها رفضت بشكل مثير للجدل فتح المصدر للنموذج، مما يعني أن ربما أحد أهم نماذج التعلم العميق متعدد الوسائط الحديثة يظل غير متاح للجميع إلا لقلة مختارة. المتطلبات الضخمة للموارد لبناء هذه النماذج الأساسية تخلق حواجز كبيرة للوصول، وبدون طريقة لتجميع الموارد مع الاحتفاظ بالقيمة، من المحتمل أن تسبب ركوداً في تقدم الذكاء الاصطناعي. يعتقد الكثيرون أن هذه النماذج العامة هي المفتاح لفتح الذكاء الاصطناعي العام (AGI)، مما يجعل طريقة التدريب الحالية في صوامع معزولة ومصطنعة تبدو سخيفة.

الحلول الحالية التي توفر الوصول إلى توريد الحوسبة إما أوليغوبولية وباهظة الثمن أو ببساطة غير قابلة للعمل نظراً لتعقيد الحوسبة المطلوبة للذكاء الاصطناعي الكبير المقياس. تلبية الطلب المتزايد يتطلب نظاماً يستفيد بكفاءة تكلفة من كل الحوسبة المتاحة (مقابل استخدام معالجات العالمي الحالي ~40%). يعقد هذه المشكلة الآن حقيقة أن توريد الحوسبة نفسه مقيد بـ تقدم أسيمبتوتي في أداء المعالجات الدقيقة – إلى جانب نقص في سلسلة التوريد وتوترات جيوسياسية في نقص الرقائق.

لقد تحدثنا مع أكثر من 150 CTO، وباحثي التعلم الآلي (ML)، ومهندسي ML الذين يصفون باستمرار التوازن المؤلم بين شراء أجهزتهم الخاصة وتضحية بالقابلية للتوسع، أو استئجار موارد سحابية قابلة للتوسع بتكاليف متزايدة بشكل كبير. يدركون أن تكاليف السحابة عادةً ما تكون منتفخة بسبب هوامش ربح المزود وغالباً ما يتساءلون لماذا لا توجد حوسبة على الطلب بنمط serverless لعملهم في ML.

خدمات الحوسبة الشبكية الطوعية مثل SETI@Home، Folding@Home، وBOINC تثبت أن الحوسبة الخاملة غير الموثوقة، المتصلة طوعاً، يمكن استخدامها لحل بعض أكبر مشكلات البشرية. ومع ذلك، فإنها تحل في الغالب مشكلات متوازية بشكل محرج مثل التصيير ثلاثي الأبعاد، حيث يمكن تقسيم العمل الحوسبي بسهولة والتحقق منه بسبب استقلاليته عن الحالة. مشكلات ML (باستثناء المهام المتخصصة مثل تحسين البارامترات الفائقة) تعتمد بشكل أساسي على الحالة، مما يتطلب طرقاً جديدة لكل من التوازي والتحقق. تعمل الشبكات الطوعية أيضاً فقط من خلال نمذجة المشاركين كعناصر عقلانية في نظام خيري؛ إضافة معاملات مالية تغير آليات الحوافز بشكل جذري وتقدم شبح الاستغلال.

بروتوكولات البلوكشين اللامركزية توسع مفهوم الحوسبة الشبكية إلى بيئات غير موثوقة محفزة مالياً. على وجه التحديد، Ethereum نقل المجال إلى ما وراء حالات استخدام المعاملات في Bitcoin إلى عمل حوسبي عام أكثر على السلسلة. تم تحقيق ذلك من خلال دمج لغة كاملة تورينغ (Solidity) ومكافأة مزودي الحوسبة من خلال رسوم الغاز المتغيرة.

ومع ذلك، يحقق Ethereum التوافق غير الموثوق فقط عبر تكرار عمل مكلف للغاية على السلسلة. هذا غير مناسب تماماً للتعلم العميق. تدريب شبكة عصبية MNIST صغيرة (~400M عمليات معالج) يستغرق ~8 دقائق على لابتوب متوسط لكنه سيستغرق ~80 يوماً على Ethereum بتكلفة تقريباً 32 مليون دولار. لمعالجة ذلك، Truebit أظهر أنه من الممكن إجراء عمل حوسبي بسيط خارج السلسلة (وبالتالي مع تكاليف أقل) وإثبات للسلسلة أنه تم تنفيذه بشكل صحيح. حققوا ذلك من خلال نمذجة المشاركين كعناصر عقلانية مالياً وبناء هياكل حوافز بعناية. على وجه التحديد، حلّوا معضلة المحقق من خلال مطالبة العمال بشكل متقطع بإنتاج عمل خاطئ ومكافأة المحققين بجائزة كبرى إذا اكتشفوها.

رغم هذه التحسينات، يجب أن يتم تكرار العمل خارج السلسلة. هذا غير مناسب للأنشطة ذات التكلفة الحوسبية الشديدة (مثل التعلم العميق)، ويجب أن يوجد نظام حوسبة خارج السلسلة فعال من حيث التكلفة إذا كان عمل التعلم العميق سيتم خدمته بطريقة غير موثوقة.

المشكلة

بروتوكول يربط ويحقق عمل التعلم العميق خارج السلسلة بطريقة فعالة من حيث التكلفة غير موثوقة له خمس تحديات رئيسية.

التحقق من العمل

لبناء شبكة حوسبة حقاً غير موثوقة، مع حوافز اقتصادية للمشاركة، يجب أن تكون للشبكة طريقة للتحقق من أن عمل الحوسبة للتعلم العميق تم تنفيذه فعلياً كما وعد. المركزي لهذه المشكلة هو الاعتماد على حالة نماذج التعلم العميق؛ أي، كل طبقة لاحقة في نموذج التعلم العميق تأخذ كمدخل إخراج الطبقة السابقة. لذلك، للتحقق من أن العمل قد اكتمل في نقطة معينة، يجب تنفيذ كل العمل حتى تلك النقطة بما فيها. سنغطي هذا بالتفصيل لاحقاً لكنه مشكلة أساسية لم تكن لها حلول قابلة للتطبيق حتى الآن.

السوق

سوق للحوسبة يخضع لنفس مشكلات العرض والطلب التي يواجهها أي سوق جديد، مع بعض التحديات الفريدة أيضاً. بشكل رئيسي هناك مشكلة البدء البارد، حيث يجب أن تتطابق سيولة العرض والطلب تقريباً من البداية للنمو بنجاح. لالتقاط توريد الحوسبة الخامل، يجب أن يكون هناك مكافأة واضحة للمشاركين لتعهد وقتهم الحوسبي. يجب تتبع العمل الحوسبي وإجراء دفعات متناسبة للمزودين في الوقت المناسب. بالنسبة للأسواق التقليدية أكثر، يتم ذلك باستخدام وسطاء يديرون الإدارة والإدماج، مع دفعات أدنى لتقليل التكاليف العامة. لسوء الحظ، يصبح هذا النهج مكلفاً للتوسع ويؤدي إلى توازن عتبة حيث يمكن التقاط جزء صغير فقط من التوريد اقتصادياً.

تقدير العمل مسبقاً

شبيه بـ Ethereum، عمل الحوسبة ML خاضع لـ مشكلة التوقف – حيث يكون من المستحيل في بعض الأحيان تحديد كمية العمل الحوسبي المطلوبة لمهمة محددة وبالتحديد ما إذا كانت ستنتهي (أو تتوقف). في سياق التعلم العميق، أصبح هذا أكثر أهمية نسبياً مؤخراً مع انتقال النماذج والإطارات من بناء الرسم البياني الثابت إلى البناء والتنفيذ الديناميكي.

الخصوصية

مع نمو اللوائح الأقوى لخصوصية الفرد حول العالم (مثل GDPR، CCPA، LGPD)، أصبح التصميم والتطوير الواعي للخصوصية ممارسة متوقعة للمنظمات. بينما يمكن إجراء كميات كبيرة من بحوث ML على مجموعات بيانات مفتوحة، غالباً ما يستخدم تهيئة النموذج النهائية بيانات مستخدمين ملكية. بشكل أكثر تحديداً، في مقابلاتنا مع مهندسي ML وCTO، أشاروا إلى أن خصوصية البيانات أهم بأوامر من الحجم من خصوصية النموذج.

التوازي

نماذج التعلم العميق الحديثة عادةً ما تُدرب بالتوازي على مجموعات كبيرة من الأجهزة للوصول إلى مقياس غير قابل للتحقيق بجهاز واحد. التقنيات المطلوبة لتحقيق هذا التوازي قد تحسنت بشكل كبير من خلال البحوث الأخيرة، مع نماذج transformer الحديثة مثل Switch Transformers المقترحة من Fedus, Zoph, and Shazeer (2021) الآن متوازية بشكل كبير بطبيعتها. دمج متطلبات أداء عمل ML مع طبيعة المصادر الحوسبية غير الموثوقة وغير الموثوقة يعني أن درجة عالية من التوازي ضرورية في أي حل.

الحل

بروتوكول Gensyn

بروتوكول Gensyn هو بروتوكول غير موثوق من الطبقة 1 للحوسبة التعلم العميق الذي يكافئ مباشرة وفوراً المشاركين في جانب التوريد لتعهد وقتهم الحوسبي للشبكة وتنفيذ مهام ML. لا يتطلب البروتوكول مراقباً إدارياً أو إنفاذاً قانونياً، بل يسهل توزيع المهام والدفعات برمجياً من خلال عقود ذكية. كما وصف أعلاه، التحدي الأساسي في بناء هذه الشبكة هو التحقق من عمل ML المكتمل. هذه مشكلة معقدة للغاية تقع في تقاطع نظرية التعقيد، نظرية الألعاب، التشفير، والتحسين.

حل بسيط هو فحص صدق العمال بإعادة عملهم. كحد أدنى، يتطلب ذلك تضاعف العمليات المطلوبة (‘تكرار واحد’)؛ ومع ذلك، حتى مع التكرار، تبقى قضية الثقة ما لم يكن الطرف المحقق هو الطالب الفعلي للعمل (في هذه الحالة، لن يطلبوا العمل لأنهم سيؤدونه أنفسهم). لذلك، ضمان صدق الطرف المحقق يمكن أن يولد سلسلة تكرار لا نهائية، حيث يتطلب كل محقق جديد فحص عمل المحقق السابق.

نحل مشكلة التحقق هذه بتداخل ثلاث مفاهيم رئيسية في حل قوي أكثر كفاءة بنسبة >1,350% من طرق التكرار الأفضل الموجودة؛ وبذلك، يحل مشكلة السلسلة اللانهائية. المفاهيم الرئيسية هي:

إثبات التعلم الاحتمالي

باتباع Jia et al. (2021)، نستخدم البيانات الوصفية من عمليات التحسين القائمة على التدرج لبناء شهادات العمل المنفذ، والتي يمكن التحقق منها بسرعة من خلال تكرار مراحل معينة.

بروتوكول تحديد دقيق قائم على الرسم البياني

باتباع Zheng et al. (2021)، نستخدم بروتوكول تحديد دقيق متعدد الحبيبات قائم على الرسم البياني وتنفيذ متسق بين المقيمين للسماح بإعادة تشغيل عمل التحقق ومقارنته للتوافق، وفي النهاية التأكيد من قبل السلسلة نفسها.

لعبة حوافز على طراز Truebit

باتباع Teutsch and Reitwießner (2019)، نستخدم الرهان والتقطيع لبناء لعبة حوافز تضمن أن كل مشارك عقلاني مالياً يتصرف بصدق ويؤدي مهامه المقصودة.

المشاركون

تُستخدم هذه المفاهيم لبناء نظام مع أربعة مشاركين رئيسيين: المقدمين، الحلالين، المحققين، والمبلغين.

المقدمون

المقدمون هم مستخدمو النظام النهائيون، يقدمون المهام التي ستُحسب ويدفعون مقابل وحدات العمل المكتملة.

الحلالون

الحلالون هم العمال الرئيسيون في النظام، يؤدون تدريب النموذج ويولدون إثباتات ليتم فحصها من قبل المحققين.

المحققون

المحققون مفتاح ربط عملية التدريب غير المحددة بحوسبة خطية محددة، يعيدون تكرار أجزاء من إثباتات الحلالين ويقارنون المسافات مع العتبات المتوقعة.

المبلغون

المبلغون هم خط الدفاع الأخير، يفحصون عمل المحققين ويطعنون في أمل الحصول على دفعة جاكبوت.

الاستخدام

سيمر استخدام البروتوكول النموذجي عبر ثماني مراحل، مع أداء الأدوار أعلاه مهام محددة.

تقديم المهمة

تأخذ المهام شكل ثلاث قطع معلومات محددة:

  1. بيانات وصفية تصف المهمة والبارامترات الفائقة؛
  2. ثنائي نموذج (أو هيكل هندسي)؛ و
  3. بيانات تدريب معالجة مسبقاً متاحة علناً.

لتقديم مهمة، يحدد المقدمون تفاصيل المهمة بتنسيق قابل للقراءة الآلية ويقدمونها إلى السلسلة مع مواقع الثنائي النموذج (أو الهندسة القابلة للقراءة الآلية) وبيانات التدريب المعالجة مسبقاً المتاحة علناً. يمكن تخزين البيانات المتاحة علناً في مخزن كائن بسيط مثل Amazon’s S3 أو في مخزن لامركزي مثل IPFS، Arweave، أو Subspace.

لحفظ الخصوصية، يمكن بناء النماذج باستخدام طبقات رسم آمنة (شكل من التشفير الوظيفي) كما اقترح Lan, Liu, and Li (2020) وبيانات التدريب المتاحة علناً مشفرة. بهذه الطريقة، يمكن تدريب النماذج على النص المشفر بعقوبة دقة صغيرة (<0.5%).

عند تقديم مهمة، يتم إنشاء تقدير للعمل المطلوب من خلال بناء وفك الرسم البياني الحوسبي إلى العمليات المطلوبة. تُوزن هذه العمليات باستخدام قيم مشابهة لـ قيم غاز Opcode في Ethereum لحساب مجموع تقريبي للعمل الحوسبي الذي سيتم تنفيذه. يمكن لرسوم المعاملة المدفوعة من قبل المقدم استخدام هذا التقدير، مع إعادة أي فائض (مثل بسبب التحليل التشاؤمي) إلى المقدم بعد الحوسبة. بشكل حاسم، يتطلب فك الرسم البياني وضع حدود محددة على المنطق الذي يمكن أن يثير مشكلة التوقف.

تشكل المهام أصغر كمية من عمل ML يمكن دفعها إلى البروتوكول. باستخدام التوازي، يمكن تقسيم حملات عمل حوسبية أكبر إلى مجموعات مهام ودفعها إلى الشبكة بشكل غير متزامن. باستخدام هذا النهج، يمكن بناء نماذج لغة كبيرة المقياس ونماذج أخرى حديثة، كما أظهر Diskin et al. (2021) بحوسبة طوعية.

التحليل

عملية التحليل تضع عتبة مسافة أساسية للتحقق من إثبات التعلم. سيقوم المحققون بشكل دوري بأخذ مهام التحليل وإنشاء عتبات التباين لمقارنات إثبات التعلم. لإنشاء عتبة، سيقوم محقق بتشغيل وإعادة تشغيل أجزاء من التدريب بشكل محدد ببذور عشوائية مختلفة، مولداً وفاحصاً إثباتاته الخاصة. في القيام بذلك، سيقوم المحقق ببناء عتبة مسافة متوقعة مجمعة يمكن استخدامها لاحقاً كعتبة للتحقق من عمل الحلالين غير المحدد.

لضمان صدق المحققين عند إنشاء عتبات المسافة، يُتوقع من المبلغين إعادة تشغيل عمل التحليل وتحدي المحققين حيثما يناسب، باستخدام نفس آليات التحدي الدقيق القائم على الرسم البياني وآليات تحكيم العقد الموصوفة أدناه.

التدريب

بعد التحليل، تدخل المهمة حوض المهام المشترك (مشابه mempool Ethereum). يتم اختيار حلال واحد لأداء المهمة وتتم إزالة المهمة من حوض المهام. يؤدي الحلال المهمة وفقاً للبيانات الوصفية المقدمة من المقدم وباستخدام النموذج وبيانات التدريب المقدمة. أثناء أداء مهمة التدريب، يولد الحلال أيضاً إثبات التعلم من خلال نقطة التفتيش في فاصل زمني مجدول وحفظ البيانات الوصفية من عملية التدريب (بما في ذلك المعلمات) بحيث يمكن تكرار الخطوة التحسينية التالية بدقة قدر الإمكان من قبل محقق.

توليد الإثبات

يتبع توليد الإثبات العملية الموضحة في Jia et al. (2021)، حيث يخزن الحلالون بشكل دوري أوزان النموذج أو التحديثات مع الفهارس المقابلة من مجموعة بيانات التدريب التي تحدد العينات التي استخدمت لتوليد تحديثات الأوزان. يمكن ضبط تردد نقطة التفتيش لتقديم ضمانات أقوى أو لتوفير مساحة التخزين. يمكن “تراص” الإثباتات، مما يعني أن إثباتاً يمكن أن يبدأ من التوزيع العشوائي المستخدم لتهيئة الأوزان أو من أوزان مدربة مسبقاً مولدة مع إثباتها الخاص. هذا يسمح للبروتوكول ببناء مجموعة من النماذج الأساسية المدربة مسبقاً والمثبتة بالفعل (أي النماذج الأساسية) التي يمكن تهيئتها لمهام أكثر تحديداً.

التحقق من الإثبات

بعد إكمال المهمة، يسجل الحلالون إكمال المهمة مع السلسلة ويقدمون إثبات التعلم في موقع متاح علناً للوصول إليه من قبل المحققين. يأخذ المحققون مهام التحقق من حوض مهام مشترك (مشابه mempool Ethereum مرة أخرى) ويؤدون العمل الحوسبي لإعادة تشغيل أجزاء من الإثبات وإجراء حسابات المسافات. ثم تستخدم المسافات الناتجة من قبل السلسلة (مع العتبة المحسوبة خلال مرحلة التحليل) لتحديد ما إذا كان التحقق يطابق الإثبات.

تحدي التحديد الدقيق القائم على الرسم البياني

بعد التحقق من إثبات التعلم، يمكن للمبلغين تكرار عمل المحقق لفحص ما إذا كان عمل التحقق نفسه قد تم تنفيذه بشكل صحيح. في حال اعتقد المبلغ أن التحقق تم تنفيذه بشكل غير صحيح (بشكل خبيث أو لا)، يمكنه تحدي المحقق لتحكيم العقد للحصول على مكافأة. يمكن أن تأتي هذه المكافأة من ودائع الحلال والمحقق في حالة إيجابية حقيقية أو من خزينة الجاكبوت في حالة إيجابية كاذبة. يتبع عملية التحدي الإجراء الموضح في Zheng et al. (2021) ويستخدم السلسلة نفسها لإجراء التحكيم.

باتباع Teutsch and Reitwießner (2019)، يُتوقع من المبلغين (في حالتهم المحققين) التحقق ومن ثم تحدي العمل فقط في حال توقعوا الحصول على تعويض مناسب. في الممارسة، يعني ذلك أن المبلغين يُتوقعون الانضمام والمغادرة الشبكة اعتماداً على عدد المبلغين الآخرين النشطين (أي مع ودائع حية وتحدي). لذلك، الاستراتيجية الافتراضية المتوقعة لأي مبلغ هي الانضمام إلى الشبكة عندما يكون عدد المبلغين الآخرين منخفضاً، نشر وديعة، اختيار مهمة نشطة عشوائياً، وبدء عملية التحقق الخاصة بهم. بعد انتهاء المهمة الأولى، سيأخذون مهمة نشطة عشوائية أخرى ويكررون حتى يزيد عدد المبلغين عن عتبة الدفع المحددة لديهم، عندها سيغادرون الشبكة (أو أكثر احتمالاً، ينتقلون إلى أداء دور آخر في الشبكة—محقق أو حلال—اعتماداً على قدرات أجهزتهم) حتى تنعكس الوضعية.

تحكيم العقد

عندما يتم تحدي محقق من قبل مبلغ، يدخلون عملية مع السلسلة لتضييق موقع عملية أو مدخل متنازع عليه، تنتهي بأداء السلسلة العملية الأساسية النهائية وتحديد ما إذا كان التحدي مبرراً. للحفاظ على صدق المبلغين وتجاوز معضلة المحقق، يقدم البروتوكول أخطاء إجبارية دورية مع دفعات جاكبوت، كما اقترح Teutsch and Reitwießner (2019).

التسوية

في عملية التسوية، يتم دفع المشاركين وفقاً لاستنتاجات الفحوصات الاحتمالية والمحددة. تتم دفعات مختلفة في سيناريوهات مختلفة اعتماداً على نتيجة التحقق السابق والتحديات.

إذا اعتبر العمل قد تم تنفيذه بشكل صحيح واجتاز جميع الفحوصات، يُكافأ الحلال والمحقق كلاهما وفقاً للعمليات المنفذة.

المقياس والكفاءة التكلفية

بناء السوق كبروتوكول Web3 يزيل التكاليف العامة المركزية على التوسع ويقلل من حواجز الدخول لمشاركي التوريد الجدد، مما يسمح للشبكة بأن تشمل كل جهاز حوسبي في العالم. ربط جميع الأجهزة من خلال شبكة لامركزية واحدة يوفر مستوى من القابلية للتوسع غير ممكن حالياً من خلال أي مزود موجود، مما يعطي وصولاً غير مسبوق على الطلب إلى كامل توريد الحوسبة العالمي. بالنسبة للمستخدمين النهائيين، يفكك هذا تماماً معضلة التكلفة مقابل المقياس ويوفر تكلفة شفافة منخفضة لقابلية توسع محتملة لا نهائية (حتى حدود الأجهزة الفعلية العالمية).

إنشاء سوق حيث تحدد الأسعار ديناميكيات السوق، والسوق مفتوح لجميع المشاركين، يسمح لتكلفة الوحدة لحوسبة ML بالاستقرار في توازنها العادل. هذا يتجنب الخنادق العادية التي يتمتع بها المزودون الكبار، يقلل الأسعار بشكل كبير، ويسهل المنافسة العالمية الحقيقية على مستوى الموارد. بينما تشمل تكاليف الحوسبة الحالية للمستخدمين النهائيين هوامش كبيرة لمزوديهم الأوليغوبوليين، سيضمن بروتوكول Gensyn أن الهامش المتبقي، المقلل بالمنافسة العادلة، يتم التقاطه بنسبة متناسبة من قبل كل مشارك.

مع انتقال Ethereum من إثبات العمل إلى إثبات الحصة في Eth2، سيتخلف العديد من المنقبين ذوي GPUs القوية (مثل NVIDIA V100) بدون عائد. يمكن لهؤلاء المنقبين حالياً توقع عائد حوالي 0.20 إلى 0.35 دولار للساعة، والذي حتى الآن، عند طرح تكاليف شراء رأس المال الممتصة وتكاليف الكهرباء، يوفر عائداً هامشياً ضيقاً. الدلتا بين العائد الحالي المتوقع من هؤلاء المنقبين ذوي الأجهزة القادرة على ML والتكلفة الساعية المتوسطة لنفس الأجهزة من المزودين الرئيسيين، إلى جانب الاختفاء المحتمل لتعدين Eth، يشكل فرصة هائلة لبروتوكول Gensyn؛ كما يسمح للأجهزة بتوليد عوائد على دورات معالج مفيدة – بدلاً من مجرد حساب الهاشات في أنظمة إثبات العمل. التقاط توريد التعدين هذا، إلى جانب مصادر عامة أخرى للحوسبة الخاملة، يؤدي إلى تكلفة ساعية متوقعة حوالي 0.40 دولار للساعة لحوسبة معادلة NVIDIA V100 على بروتوكول Gensyn، أرخص بنسبة 80% من AWS على الطلب.

المزودالتكلفة الساعية التقريبية لعمل تدريب ML (معادل V100)القابلية للتوسع
Ethereum$15,700منخفض
Truebit (+ Ethereum)$12منخفض
GCP على الطلب$2.50متوسط
AWS على الطلب$2متوسط
شبكة Golem$1.20منخفض
Vast.ai$1.10منخفض
نسخ AWS spot (غير موثوقة)$0.90متوسط
نسخ GCP spot (غير موثوقة)$0.75متوسط
Gensyn (متوقع)$0.40عالي
GPU واحد في مركز البيانات$0.40لا
GPU شخصي واحد$0.28لا

تقييم البروتوكول

نقيم حلنا من خلال محاكيات Python لتقييم حجم مكاسب الأداء التي يقدمها بروتوكول Gensyn. في هذه الحالة، نقيس الأداء كالوقت الإجمالي بالثواني المطلوب لإكمال مهمة تدريب 100 دورة على نموذج تصنيف صور MNIST صغير. نختبر ذلك على معالج Intel Core i7 ذو 6 نوى.

نقارن البروتوكول بـ 3 نهج بديلة: تشغيل النموذج محلياً (مقابل استخدام أي بروتوكول)، تشغيل النموذج باستخدام تكرار مستوحى من Truebit (مع 7 محققين)، وتشغيل النموذج على Ethereum.

رغم عدم وجود تحسينات مستوى الإنتاج في الكود، تظهر النتائج أن بروتوكول Gensyn يضيف تكاليف وقت ~46% إلى تدريب النموذج تمثل مكسباً أدائياً بنسبة 1,350% مقابل تكرار طراز Truebit ومكسباً بنسبة 2,522,477% مقابل Ethereum.

مقارنة وقت التشغيل بين Gensyn وتكرار طراز Truebit لنموذج تصنيف صور MNIST

مقارنة وقت التشغيل بين Gensyn وEthereum (نظري) لنموذج تصنيف صور MNIST

اللامركزية والحوكمة

الحوكمة

Gensyn Limited هي الكيان الأولي الذي يطور البروتوكول، يوظف الفريق، ويدير الملكية الفكرية (قبل إطلاق المصدر المفتوح). Gensyn Limited هي شركة عن بعد كاملة، توظف المواهب من جميع أنحاء العالم. بعد حدث توليد الرموز (TGE)، ستتعامل Gensyn Limited مع التطوير الفني وسيمثل مؤسسة Gensyn مصالح البروتوكول.

سيتم إصدار الرموز في TGE من قبل مؤسسة Gensyn، التي ستُحكم بطريقة لامركزية من قبل مجلس منتخب وتتخذ قرارات بناءً على اقتراحات واستفتاءات على السلسلة. في البداية، سيتم رسم أعضاء المجلس بشكل وثيق على أعضاء Gensyn Limited الأساسيين والمجتمع المبكر لتطوير البروتوكول بسرعة. مع مرور الوقت، سيصبح المجلس أكثر لامركزية.

ستسيطر مؤسسة Gensyn أيضاً على خزينة ستُوجه من قبل الاقتراحات لتعزيز أهداف البروتوكول من خلال تمويل التطوير المستمر للبروتوكول نفسه والنظام البيئي العام. ستُمول الخزينة بشكل أساسي بأخذ نسبة صغيرة جداً من كل رسوم مهمة.

التطوير المستقبلي

البحث

سنستمر في بحثنا في ثلاثة مجالات رئيسية لتحسين البروتوكول: التحقق الاحتمالي من تدريب ML باستخدام البيانات الوصفية من عملية التحسين، التحقق الدقيق من عمل ML المحدد لإثبات على السلسلة، والتوازي لنماذج ML على أجهزة غير متجانسة مع قيود التأخير.

سيقوي هذا البحث ضمانات التحقق من العمل ويوسع فائدة البروتوكول ليشمل المزيد من العناصر الأساسية للنماذج وتنوع أوسع من أنواع النماذج.

التطوير

سيتبع تطوير بروتوكول Gensyn ثلاث مراحل عالية المستوى: testnet، canarynet، mainnet.

Testnet

سيتركز التطوير الأولي على بناء تنفيذ testnet للتكنولوجيا الأساسية. ستكون الرموز المستخدمة بواسطة testnet غير دائمة، وسيكون مستخدمو testnet المتبنين المبكرين وأعضاء المجتمع الأساسيين الذين سيُكافأون في TGE.

Canarynet

بعد تكرار testnet ناجح، سيُطلق البروتوكول كـ parachain لشبكة canary على سلسلة الترحيل Kusama. ستشمل هذه المرحلة إطلاق رمز المنفعة canary الذي سيكون له قيمة اقتصادية حقيقية. يمكن اعتبار شبكة canary إصدار بيتا من البروتوكول مع الوصول إلى أحدث الميزات وبعض المخاطر المرتبطة باستخدامها. على المدى الطويل، تقدم شبكات canary عادةً أسعاراً أقل قليلاً ووصولاً إلى وظائف R&D المتطورة مقابل هذا المخاطر الطفيف.

Mainnet

بعد إطلاق parachain ناجح على سلسلة الترحيل Kusama، ستكون المرحلة التالية إطلاق parachain الحي النهائي على سلسلة الترحيل Polkadot. ستشمل هذه المرحلة إطلاق رمز المنفعة mainnet الذي سيكون رمز المنفعة الرئيسي للبروتوكول. سيكون Mainnet البروتوكول الحي المقوى للاستخدام الكامل من قبل أي منظمة أو فرد. ستخضع الميزات أو التغييرات لتكرار testnet وcanarynet قبل الإطلاق على mainnet.

النظام البيئي

سيكون بروتوكول Gensyn طبقة أساسية لحوسبة ML، مشابهة لـ Ethereum لتنفيذ العقود الذكية. في المستقبل، نتوقع أن يبني الآخرون فوق البروتوكول لتقديم تجارب مستخدم غنية ووظائف محددة في العديد من النياش. نتوقع أن يبدأ هذا النظام البيئي الناشئ بتطبيقات قائمة على المعرفة الخبيرة، مما يسمح لغير الخبراء ببناء ونشر حلول ML باستخدام تجريدات مشابهة لحلول Web2 الحالية مثل Amazon’s SageMaker وDataRobot.

بالإضافة إلى المعرفة البشرية في تصميم النماذج، هناك ثلاث مشكلات أساسية تبطئ تقدم ML التطبيقي:

  1. الوصول إلى قوة الحوسبة؛
  2. الوصول إلى البيانات؛ و
  3. الوصول إلى المعرفة (تسمية الحقيقة الأرضية).

يحل Gensyn المشكلة الأولى من خلال تقديم وصول على الطلب إلى حوسبة قابلة للتوسع عالمياً بسعرها السوقي العادل. ستسعى مؤسسة Gensyn إلى تشجيع حلول الثانية والثالثة من خلال البحث والتمويل والتعاون مع بروتوكولات أخرى.

الرؤية طويلة الأمد

سيسمح بروتوكول Gensyn لأي شخص بتدريب نماذج ML لأي مهمة باستخدام شبكة ذاتية التنظيم تشمل كل مصدر قوة حوسبة موجود.

مع زيادة تطبيقات Web3 Dapps في التعقيد ومتطلبات البنية التحتية، يتم إجبارها على العودة إلى Web2 حيث لا توجد موارد Web3. من خلال لامركزة حوسبة ML، يجلب بروتوكول Gensyn مكون بنية تحتية حاسم بشكل أصلي إلى Web3 – مما يقلل الاعتماد على Web2 ويعزز ويلامركز النظام البيئي بأكمله.

أظهر التعلم العميق قوة تعميم مذهلة ويبدو أنه سيلعب دوراً كبيراً في مستقبل ML. النماذج الأساسية، المدربة على بروتوكول Gensyn، ستكون لامركزية ومملوكة عالمياً – مما يسمح للبشرية بالاستفادة بالتساوي من تطوير وتدريب ML التعاوني. البناء على هذه النماذج الأساسية باستخدام الضبط الدقيق سيكون بسيطاً مثل تعريف مهمة ودفع سعر سوق عادل لعمل الضبط الدقيق – إزالة الحواجز الموجودة حالياً.

لعقود، تقدم ML في صوامع، سواء أكاديمية أو صناعية. يربط بروتوكول Gensyn هذه الصوامع من خلال بنية تحتية مشتركة مع ملكية لامركزية، مما يسمح لكل البشرية باستكشاف مستقبل الذكاء الاصطناعي بسرعة وجماعياً كرواد متساوين. دمج هذه الشبكة مع نماذج أساسية مدربة هرمياً ومملوكة جماعياً يوفر مساراً نحو تحقيق حقيقي لـ AGI – الخطوة التالية للبشرية.

شارك

يمكنك متابعة تقدمنا على Twitter. إذا كنت مهتماً بمساهمة موارد حوسبية، أو استخدام الشبكة لمهام ML، أو الانضمام إلينا، فيرجى إرسال رسالة إلينا. سنكون سعيدين بالدردشة.

التحديثات والبحوث الأخيرة (محدثة حتى 2025)

منذ Litepaper عام 2022، نشر Gensyn العديد من البحوث والتحديثات للبروتوكول. إليك ملخصاً للمقالات الرئيسية من موقع Gensyn.ai:

مقدمة GenRL: باك إند جديد لـ RL Swarm

GenRL هو إطار عمل جديد مصمم من الصفر لتبسيط وتسريع إنشاء بيئات RL متقدمة، خاصة تلك التي تشمل عدة وكلاء. يساعد في تطوير بيئات RL متقدمة في بيئة لامركزية.

GPT@home: لماذا مستقبل التدريب لامركزي

يستعرض هذا التقرير الحالة الحالية لتدريب النماذج الكبيرة والتكاليف المختلفة التي يحملها. يستعرض الجهود الحوسبية الموزعة السابقة ويجادل لصالح التدريب اللامركزي.

بروتوكول حوسبة التعلم الآلي ومستقبلنا

توسع المقالة رؤية بروتوكول حوسبة التعلم الآلي، تقدم BlockAssist – مساعد AI مفتوح المصدر يتعلم من خلال مراقبتك تلعب Minecraft، وتناقش المستقبل.

NoLoCo: تدريب النماذج الكبيرة بدون All-Reduce

هذه ورقة أكاديمية تصف NoLoCo، طريقة تحسين تدريب موزع جديدة تستبدل خطوة التزامن العالمي بنهج محلي، مناسب للبيئات اللامركزية.

RL Swarm: إطار عمل لـ RL التعاوني

يقدم RL Swarm نظرة على مستقبل التعلم الآلي مع إطار عمل لـ RL التعاوني بين الأقران، حيث يستفيد الذكاء من ذكاء الحشد.

SkipPipe: طريقة اتصال فعالة للتدريب اللامركزي

طريقة متوازية للأنابيب مقاومة للأخطاء، تتخطى وتعيد ترتيب المراحل ديناميكياً لتحسين التدريب في البيئات اللامركزية.

بالإضافة إلى ذلك، أطلق Gensyn Testnet عاماً في مارس 2025، مما يوفر هوية مستمرة لأنظمة الذكاء الاصطناعي اللامركزية وتتبع المشاركة. كانت هناك تحديثات لـ Testnet في 2025، بما في ذلك swarm جديد مع مجموعة بيانات أصعب، نماذج أكبر، وتطبيقات جديدة مثل BlockAssist وJudge – نظام تقييم AI قابل للتحقق من Gensyn.

للحصول على أحدث المعلومات، يرجى زيارة gensyn.ai وdocs.gensyn.ai.