Testnet

Diverse Expert Ensembles: LLM متوازية مبنية على متخصصين متنوعين

هذه ورقة علمية تناقش فوائد التنوع (أحجام مختلفة من النماذج وعدد مختلف من خطوات التدريب) عند تدريب مجموعات من الخبراء باستخدام المعالجة المتوازية. وجدنا أن النماذج المتنوعة، التي تُدرَّب على مصادر حسابية مختلفة ولفترات زمنية متفاوتة، تُظهر أداءً أفضل عند دمجها مقارنةً بالنماذج المتجانسة التي تُدرَّب بنفس الإعدادات.

Diverse Expert Ensembles

نماذج Mixture-of-Experts (MoE) تواصل اكتساب الشعبية بفضل كفاءتها الحسابية وأدائها. ومع ذلك، على الرغم من بنيتها المعيارية، ما زلنا ندرّبها بنفس الطريقة التي نستخدمها مع الشبكات الأحادية الكثيفة. أي في مراكز بيانات ضخمة تديرها مؤسسة واحدة، باستخدام موارد حسابية متجانسة ومعلمات موحّدة للخبراء.

في Gensyn نؤمن منذ زمن أن الذكاء العام الاصطناعي (AGI) سيكون بمثابة نظام بيئي مفتوح من النماذج المترابطة — أشبه بالإنترنت نفسه — وليس نموذجًا واحدًا ضخمًا من شركة واحدة. علاوة على ذلك، فإن تنوع النماذج سيقوّي هذا النظام البيئي بدلًا من إضعافه.

اليوم نحن سعداء بعرض أولى نتائجنا التي تدعم هذه الفرضية.

Introducing Heterogeneous Domain Expert Ensemble (HDEE)  

HDEE — هو إطار لبناء تجميعات متنوعة من الخبراء، أي نماذج MoE غير متجانسة تُدرَّب باستخدام التعلم المتوازي.

HDEE يستند إلى أسلوب التعلم المتوازي Branch Train Merge (BTM) من عمل Li وآخرين، 2022، حيث أُظهر أنه «يمكن تدريب النماذج الفرعية لفئة جديدة من LLM بشكل مستقل على مجموعات بيانات مختلفة، دون الحاجة إلى المزامنة الجماعية متعددة المهام المطلوبة حاليًا لتدريب LLM». عملنا يبيّن أن توسيع BTM لدعم أحجام نماذج غير متجانسة ومعلمات تدريب مختلفة (أي دعم قدرات حسابية متفاوتة) يؤدي فعليًا إلى زيادة أداء النموذج المدمج النهائي.

على وجه التحديد، بدلًا من تدريب جميع الخبراء بنفس الإعدادات، يقوم HDEE بتهيئة كل خبير وفقًا لمجاله البياني و/أو قدراته الحسابية. للمجالات الأبسط تُستخدم نماذج أصغر (أو نماذج مُدرَّبة بعدد أقل من التكرارات)؛ أما للمجالات الأكثر تعقيدًا فتُستخدم نماذج أكبر وتدريب أطول.

هذه التهيئات تضمن أن كل خبير سيكون مُحسَّنًا بشكل مثالي، مما يؤدي إلى تجميع أكثر كفاءة. بشكل عام، يحقق التجميع غير المتجانس أفضل perplexity في 20 من أصل 21 مجالًا مقيمًا مقارنة بالنموذج الأساسي، باستخدام نفس الميزانية الحسابية المكافئة.

نظرة إلى المستقبل

يوفّر HDEE نظرة مبكرة على النظام البيئي المفتوح للنماذج. يمكن للمطورين المستقلين تدريب النماذج على أجهزة متنوعة باستخدام إعدادات مناسبة لبياناتهم ومجالات خبرتهم. HDEE وأساليب مماثلة يمكن أن توحدها في meta-models، تقوم بتوجيه الطلبات عبر المسار الأفضل، في مشهد يشبه الإنترنت نفسه.

تعمل Gensyn على تطوير البنية التحتية الأساسية لذلك، مما يمكّن المطورين من تدريب، التحقق، ودمج نماذجهم على جميع الأجهزة القادرة على ML في العالم.

لمعرفة المزيد، يمكنك قراءة المقال الكامل هنا.

HDEE مفتوح المصدر بالكامل، وندعو المجتمع البحثي للبناء على هذا الكود.