في سلسلة القيمة الكاملة للذكاء الاصطناعي، تُعتبر عملية تدريب النماذج هي المرحلة الأكثر استهلاكًا للموارد والأعلى من حيث العوائق التقنية، حيث تحدد بشكل مباشر الحد الأقصى لقدرات النموذج وفعاليته في التطبيقات العملية. بالمقارنة مع الاستدعاءات الخفيفة في مرحلة الاستدلال، تتطلب عملية التدريب استثمارًا مستمرًا كبيرًا من قوة الحوسبة، وعمليات معالجة بيانات معقدة، ودعمًا قويًا للخوارزميات المثلى، مما يجعلها "الصناعة الثقيلة" الحقيقية لبناء أنظمة الذكاء الاصطناعي. من حيث نماذج البنية، يمكن تقسيم أساليب التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، وأخيرًا التدريب اللامركزي الذي يتم مناقشته في هذه المقالة.
تعتبر التدريب المركزي الطريقة التقليدية الأكثر شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب من قبل مؤسسة واحدة داخل مجموعة عالية الأداء محليًا، من الأجهزة، والبرامج الأساسية، ونظام جدولة المجموعات، إلى جميع مكونات إطار التدريب التي يتم تنسيق تشغيلها بواسطة نظام تحكم موحد. تتيح هذه البنية التحتية المتكاملة مشاركة الذاكرة، وتزامن التدرج، وآليات التحمل بكفاءة مثلى، مما يجعلها مناسبة جدًا لتدريب النماذج الكبيرة مثل GPT وGemini، وتتمتع بميزات الكفاءة العالية، وإمكانية التحكم في الموارد، ولكنها في الوقت نفسه تواجه مشاكل احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقاط الواحدة.
التدريب الموزع هو الطريقة السائدة الحالية لتدريب النماذج الكبيرة، حيث يكمن جوهره في تقسيم مهمة تدريب النموذج ثم توزيعها على عدة آلات للتنفيذ التعاوني، من أجل تجاوز قيود حساب وتخزين الآلة الواحدة. على الرغم من أن لديها خصائص "اللامركزية" من الناحية الفيزيائية، إلا أن الكل لا يزال تحت السيطرة المركزية للجهات المنفذة التي تتحكم في الجدولة والتزامن، وغالبًا ما تعمل في بيئة شبكة محلية عالية السرعة، من خلال تقنية NVLink لربط الحافلات عالية السرعة، حيث يقوم العقدة الرئيسية بتنسيق المهام الفرعية بشكل موحد. تشمل الطرق السائدة:
المعالجة المتوازية للبيانات: كل عقدة تقوم بتدريب معلمات بيانات مختلفة مع مشاركة المعلمات، ويجب أن تتطابق أوزان النموذج
التوازي النموذجي: نشر أجزاء مختلفة من النموذج على نقاط مختلفة، لتحقيق قابلية التوسع العالية
الأنابيب المتوازية: تنفيذ متسلسل على مراحل، وزيادة معدل الإخراج
توازي الموتر: تقسيم دقيق لحساب المصفوفات، مما يعزز من دقة التوازي
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، وهو مشابه لمدير واحد يقوم بالتوجيه عن بُعد لعدة "مكاتب" من الموظفين للتعاون في إنجاز المهام. في الوقت الحالي، يتم تدريب جميع النماذج الكبيرة الرئيسية تقريبًا بهذه الطريقة.
اللامركزية التدريب تمثل مسارًا مستقبليًا أكثر انفتاحًا وخصائص مقاومة للرقابة. تتمثل ميزته الأساسية في: عدة عقد غير موثوقة تتعاون لإنجاز مهام التدريب دون منسق مركزي، عادةً من خلال بروتوكول يدفع توزيع المهام والتعاون، وبمساعدة آلية تحفيز تشفير لضمان صدق المساهمات. تشمل التحديات الرئيسية التي يواجهها هذا النموذج:
صعوبة التوافق بين الأجهزة المتنوعة وتقسيم المهام: صعوبة التنسيق بين الأجهزة المتنوعة، وكفاءة تقسيم المهام منخفضة
عائق كفاءة الاتصال: الاتصال الشبكي غير مستقر، وظهور واضح لعائق تزامن التدرج
نقص التنفيذ الموثوق: نقص في بيئة التنفيذ الموثوق، مما يجعل من الصعب التحقق مما إذا كانت العقدة تشارك بالفعل في الحساب
نقص التنسيق الموحد: لا يوجد جهاز تحكم مركزي، توزيع المهام، وآلية التراجع عن الاستثناءات معقدة
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين من جميع أنحاء العالم، يساهمون كل منهم بقوة الحوسبة لتدريب النموذج بشكل متعاون، ولكن "التدريب اللامركزي الكبير القابل للتطبيق حقًا" لا يزال تحديًا هندسيًا نظاميًا، يتضمن بنية النظام، وبروتوكولات الاتصال، وأمان التشفير، وآليات الاقتصاد، والتحقق من النماذج، وغيرها من المستويات، ولكن ما إذا كان يمكن "التعاون بفعالية + تحفيز النزاهة + النتائج الصحيحة" لا يزال في مرحلة استكشاف النماذج الأولية المبكرة.
تعلم الفدرالية كمرحلة انتقالية بين التوزيع واللامركزية، يركز على الاحتفاظ بالبيانات محليًا، وتجميع معلمات النموذج مركزيًا، ويناسب السيناريوهات التي تركز على الامتثال للخصوصية. تتمتع تعلم الفدرالية بهيكل هندسي للتدريب الموزع وقدرة على التعاون المحلي، في حين أن لديها أيضًا مزايا توزيع البيانات في التدريب اللامركزي، لكنها لا تزال تعتمد على جهة تنسيق موثوقة، ولا تتمتع بخصائص مفتوحة تمامًا ومقاومة للرقابة. يمكن اعتبارها نوعًا من "اللامركزية المدروسة" في سياقات الامتثال للخصوصية، حيث تكون مهام التدريب، وهياكل الثقة، وآليات الاتصال جميعها معتدلة نسبيًا، مما يجعلها أكثر ملاءمة كهيكل نشر انتقالي في الصناعة.
حدود التدريب اللامركزي، الفرص والطرق الواقعية
من حيث نماذج التدريب، فإن التدريب اللامركزي لا يناسب جميع أنواع المهام. في بعض السيناريوهات، بسبب تعقيد هيكل المهمة، ومتطلبات الموارد العالية للغاية، أو صعوبة التعاون، فإنه بشكل طبيعي لا يناسب الإنجاز بكفاءة بين العقد المتغايرة والموثوقة. على سبيل المثال، تدريب النماذج الكبيرة يعتمد غالبًا على ذاكرة وصول عشوائي مرتفعة، وزمن استجابة منخفض، وعرض نطاق مرتفع، مما يجعل من الصعب تقسيمها ومزامنتها بفعالية في شبكة مفتوحة؛ والمهام التي تتعلق بخصوصية البيانات وقيود السيادة مقيدة بالتوافق القانوني والأخلاقي، مما يمنع المشاركة المفتوحة؛ بينما المهام التي تفتقر إلى أساس حوافز التعاون تفتقر إلى دافع المشاركة الخارجية. تشكل هذه الحدود معًا القيود الواقعية الحالية للتدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو مجرد وهم. في الواقع، يظهر التدريب اللامركزي آفاق تطبيقية واضحة في أنواع المهام التي تتميز بالهيكل الخفيف، وسهولة التوازي، والتحفيز. وتشمل هذه المهام، على سبيل المثال لا الحصر: ضبط LoRA، مهام التدريب اللاحق المتساوقة، تدريب وتوسيم البيانات عبر الحشد، تدريب نماذج أساسية صغيرة يمكن التحكم في مواردها، بالإضافة إلى سيناريوهات التدريب التعاوني التي تشارك فيها أجهزة الحافة. تتمتع هذه المهام عمومًا بخصائص التوازي العالي، والارتباط المنخفض، والتحمل لقوة الحوسبة غير المتجانسة، مما يجعلها مناسبة جدًا للتدريب التعاوني من خلال الشبكات P2P، بروتوكول Swarm، والمُحسِّنات الموزعة.
تحليل مشاريع التدريب الكلاسيكية اللامركزية
حاليًا، تشمل المشاريع الرائدة في مجال التدريب اللامركزي والتعلم الفيدرالي بشكل رئيسي Prime Intellect وPluralis.ai وGensyn وNous Research وFlock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect وNous Research وPluralis.ai العديد من الاستكشافات الأصلية في تصميم النظام والخوارزميات، مما يمثل الاتجاهات المتقدمة في البحث النظري الحالي؛ بينما مسارات التنفيذ لـ Gensyn وFlock.io واضحة نسبيًا، حيث يمكن رؤية التقدم الهندسي الأولي.
Prime Intellect: رائد الشبكات التعاونية للتعلم المعزز القابل للتحقق من مسار التدريب
تسعى Prime Intellect إلى بناء شبكة تدريب AI لا تتطلب الثقة، مما يتيح لأي شخص المشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهماته الحسابية. تأمل Prime Intellect من خلال ثلاثة وحدات هي PRIME-RL و TOPLOC و SHARDCAST، في بناء نظام تدريب AI اللامركزي الذي يتمتع بالتحقق والانفتاح وآلية تحفيز كاملة.
01، قيمة هيكل بروتوكول Prime Intellect والمكونات الرئيسية
PRIME-RL: هيكل مهمة التعلم المعزز غير المتزامن مفكوك الارتباط
TOPLOC: آلية التحقق من سلوك التدريب خفيف الوزن
SHARDCAST: بروتوكول تجميع ونشر الوزن غير المتزامن
OpenDiLoCo: إطار الاتصال غير المتزامن النادر
PCCL: مكتبة الاتصالات التعاونية
02، شرح آلية التدريب الرئيسية لـ Prime Intellect
PRIME-RL: هيكل مهمة التعلم المعزز غير المتزامن المفكوك
PRIME-RL هو إطار نمذجة وتنفيذ المهام المصمم من قبل Prime Intellect لسيناريوهات التدريب اللامركزية ، مصمم خصيصًا للشبكات غير المتجانسة والمشاركة غير المتزامنة. يعتمد على التعلم المعزز ككائن أولوي للتكيف ، حيث يفصل هيكليًا عمليات التدريب والاستدلال وتحميل الأوزان ، مما يسمح لكل عقدة تدريب بإكمال حلقة المهام بشكل مستقل محليًا ، والتعاون عبر واجهات موحدة وآليات التحقق والتجميع. بالمقارنة مع عمليات التعلم تحت الإشراف التقليدية ، فإن PRIME-RL أكثر ملاءمة لتحقيق التدريب المرن في بيئات بدون جدولة مركزية ، مما يقلل من تعقيد النظام ويؤسس لدعم المهام المتعددة بالتوازي وتطور الاستراتيجيات.
TOPLOC: آلية التحقق من سلوك التدريب خفيفة الوزن
TOPLOC هو آلية جوهرية تم اقتراحها من قبل Prime Intellect للتحقق من قابلية التدريب، تُستخدم لتحديد ما إذا كان العقد قد أتم تعلم استراتيجية فعالة بناءً على بيانات المراقبة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج بالكامل، بل يُكمل التحقق الهيكلي الخفيف من خلال تحليل المسارات المحلية للتناسق بين "سلسلة المراقبة ↔ تحديث الاستراتيجية". إنها المرة الأولى التي يتم فيها تحويل مسارات السلوك خلال عملية التدريب إلى كائنات يمكن التحقق منها، وهي الابتكار الرئيسي لتحقيق توزيع مكافآت التدريب بدون ثقة، مما يوفر مساراً قابلاً للتطبيق لبناء شبكة تدريب تعاونية اللامركزية يمكن تدقيقها وتحفيزها.
SHARDCAST: بروتوكول تجميع ونشر الوزن غير المتزامن
SHARDCAST هو بروتوكول نقل وتجمع الوزن الذي صممه Prime Intellect، مصمم خصيصًا لبيئات الشبكات الحقيقية غير المتزامنة ذات النطاق الترددي المحدود وتغير حالة العقد. يجمع بين آلية نشر gossip واستراتيجيات التزامن المحلي، مما يسمح للعديد من العقد بتقديم تحديثات جزئية بشكل مستمر في حالات عدم التزامن، مما يحقق تقارب وزني تدريجي وتطور متعدد النسخ. مقارنة بأساليب AllReduce المركزية أو المتزامنة، فإن SHARDCAST يعزز بشكل كبير قابلية التوسع والقدرة على تحمل الأخطاء في التدريب اللامركزي، وهو الأساس الأساسي لبناء توافق وزني مستقر وتدريب مستمر متكرر.
OpenDiLoCo: إطار الاتصال غير المتزامن النادر
OpenDiLoCo هو إطار تحسين الاتصالات الذي تم تنفيذه بشكل مستقل ومفتوح المصدر من قبل فريق Prime Intellect بناءً على مفهوم DiLoCo الذي اقترحته DeepMind، ومصمم خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود النطاق الترددي، وتنوع الأجهزة، وعدم استقرار العقد. تعتمد هيكليته على التوازي في البيانات، من خلال بناء هياكل طوبولوجية متفرقة مثل Ring وExpander وSmall-World، مما يتجنب تكاليف الاتصال العالية الناتجة عن التزامن العالمي، ويعتمد فقط على العقد المجاورة المحلية لإكمال تدريب النموذج التعاوني. يجمع OpenDiLoCo بين التحديث غير المتزامن وآلية تحمل الأخطاء، مما يمكن وحدات معالجة الرسومات من فئة المستهلك والأجهزة الطرفية من المشاركة بثبات في مهام التدريب، مما يعزز بشكل ملحوظ إمكانية المشاركة في التدريب العالمي، وهو أحد البنى التحتية الأساسية للاتصالات لبناء شبكة تدريب لامركزية.
PCCL: مكتبة الاتصالات التعاونية
PCCL هو مكتبة اتصالات خفيفة الوزن تم تصميمها خصيصًا لبيئة تدريب الذكاء الاصطناعي اللامركزية من قبل Prime Intellect، تهدف إلى حل عنق الزجاجة في التوافق الذي تعاني منه مكتبات الاتصالات التقليدية في الأجهزة المتنوعة والشبكات ذات النطاق الترددي المنخفض. يدعم PCCL التوبولوجيا المتفرقة، وضغط التدرجات، والتزامن منخفض الدقة، واستعادة النقاط المقطوعة، ويمكن تشغيله على وحدات معالجة الرسوميات الاستهلاكية والعقد غير المستقرة، وهو المكون الأساسي الذي يدعم قدرة الاتصالات غير المتزامنة لبروتوكول OpenDiLoCo. لقد زاد بشكل كبير من قدرة الشبكة التدريبية على تحمل عرض النطاق الترددي وتوافق الأجهزة، وفتح "آخر كيلومتر" من الأساسيات الاتصالية لبناء شبكة تدريب تعاونية مفتوحة حقًا وموثوقة.
03، شبكة التحفيز Prime Intellect ودور تقسيم الأدوار
بنت Prime Intellect شبكة تدريبية قابلة للتحقق وبدون إذن، مزودة بآلية تحفيزية اقتصادية، مما يتيح لأي شخص المشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. تعمل البروتوكولات على أساس ثلاث فئات من الأدوار الأساسية:
عقد التدريب: تنفيذ التدريب المحلي، تقديم تحديثات الوزن ومسارات الملاحظة
عقد التحقق: استخدام آلية TOPLOC للتحقق من صحة سلوك التدريب، والمشاركة في حساب المكافآت وتجميع الاستراتيجيات
تشمل العملية الأساسية للبروتوكول نشر المهام، تدريب العقد، التحقق من المسارات، تجميع الأوزان وتوزيع المكافآت، مما يشكل حلقة تحفيزية تدور حول "سلوك التدريب الحقيقي".
04، INTELLECT-2: أول نموذج تدريب قابل للتحقق اللامركزية الصادر
أصدرت Prime Intellect INTELLECT-2 في مايو 2025، وهو أول نموذج كبير للتعلم المعزز في العالم يتم تدريبه بواسطة عقد لامركزية غير موثوقة بالتعاون غير المتزامن، مع حجم معلمات يصل إلى 32B. تم تدريب نموذج INTELLECT-2 بواسطة أكثر من 100 عقدة GPU غير متجانسة منتشرة عبر ثلاث قارات، باستخدام هيكل غير متزامن بالكامل، حيث تجاوزت مدة التدريب 400 ساعة، مما يوضح جدوى واستقرار الشبكة المتعاونة غير المتزامنة. لا يمثل هذا النموذج فقط اختراقًا في الأداء، بل هو أيضًا أول تجسيد منهجي لنموذج "التدريب هو الإجماع" الذي اقترحته Prime Intellect. يتضمن INTELLECT-2 وحدات البروتوكول الأساسية مثل PRIME-RL وTOPLOC وSHARDCAST.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 8
أعجبني
8
4
إعادة النشر
مشاركة
تعليق
0/400
StakeHouseDirector
· منذ 7 س
الصناعة الثقيلة بدأت تعاني قليلاً
شاهد النسخة الأصليةرد0
mev_me_maybe
· منذ 7 س
ما هو الكأس المقدس؟ يجب حرق بطاقة الرسومات على أي حال.
اللامركزية التدريب:التقنية في مجال الذكاء الاصطناعي للعملات المشفرة والتحديات التطبيقية
الكأس المقدسة للذكاء الاصطناعي في العملات المشفرة: استكشاف متقدم للتدريب اللامركزي
في سلسلة القيمة الكاملة للذكاء الاصطناعي، تُعتبر عملية تدريب النماذج هي المرحلة الأكثر استهلاكًا للموارد والأعلى من حيث العوائق التقنية، حيث تحدد بشكل مباشر الحد الأقصى لقدرات النموذج وفعاليته في التطبيقات العملية. بالمقارنة مع الاستدعاءات الخفيفة في مرحلة الاستدلال، تتطلب عملية التدريب استثمارًا مستمرًا كبيرًا من قوة الحوسبة، وعمليات معالجة بيانات معقدة، ودعمًا قويًا للخوارزميات المثلى، مما يجعلها "الصناعة الثقيلة" الحقيقية لبناء أنظمة الذكاء الاصطناعي. من حيث نماذج البنية، يمكن تقسيم أساليب التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، وأخيرًا التدريب اللامركزي الذي يتم مناقشته في هذه المقالة.
تعتبر التدريب المركزي الطريقة التقليدية الأكثر شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب من قبل مؤسسة واحدة داخل مجموعة عالية الأداء محليًا، من الأجهزة، والبرامج الأساسية، ونظام جدولة المجموعات، إلى جميع مكونات إطار التدريب التي يتم تنسيق تشغيلها بواسطة نظام تحكم موحد. تتيح هذه البنية التحتية المتكاملة مشاركة الذاكرة، وتزامن التدرج، وآليات التحمل بكفاءة مثلى، مما يجعلها مناسبة جدًا لتدريب النماذج الكبيرة مثل GPT وGemini، وتتمتع بميزات الكفاءة العالية، وإمكانية التحكم في الموارد، ولكنها في الوقت نفسه تواجه مشاكل احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقاط الواحدة.
التدريب الموزع هو الطريقة السائدة الحالية لتدريب النماذج الكبيرة، حيث يكمن جوهره في تقسيم مهمة تدريب النموذج ثم توزيعها على عدة آلات للتنفيذ التعاوني، من أجل تجاوز قيود حساب وتخزين الآلة الواحدة. على الرغم من أن لديها خصائص "اللامركزية" من الناحية الفيزيائية، إلا أن الكل لا يزال تحت السيطرة المركزية للجهات المنفذة التي تتحكم في الجدولة والتزامن، وغالبًا ما تعمل في بيئة شبكة محلية عالية السرعة، من خلال تقنية NVLink لربط الحافلات عالية السرعة، حيث يقوم العقدة الرئيسية بتنسيق المهام الفرعية بشكل موحد. تشمل الطرق السائدة:
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، وهو مشابه لمدير واحد يقوم بالتوجيه عن بُعد لعدة "مكاتب" من الموظفين للتعاون في إنجاز المهام. في الوقت الحالي، يتم تدريب جميع النماذج الكبيرة الرئيسية تقريبًا بهذه الطريقة.
اللامركزية التدريب تمثل مسارًا مستقبليًا أكثر انفتاحًا وخصائص مقاومة للرقابة. تتمثل ميزته الأساسية في: عدة عقد غير موثوقة تتعاون لإنجاز مهام التدريب دون منسق مركزي، عادةً من خلال بروتوكول يدفع توزيع المهام والتعاون، وبمساعدة آلية تحفيز تشفير لضمان صدق المساهمات. تشمل التحديات الرئيسية التي يواجهها هذا النموذج:
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين من جميع أنحاء العالم، يساهمون كل منهم بقوة الحوسبة لتدريب النموذج بشكل متعاون، ولكن "التدريب اللامركزي الكبير القابل للتطبيق حقًا" لا يزال تحديًا هندسيًا نظاميًا، يتضمن بنية النظام، وبروتوكولات الاتصال، وأمان التشفير، وآليات الاقتصاد، والتحقق من النماذج، وغيرها من المستويات، ولكن ما إذا كان يمكن "التعاون بفعالية + تحفيز النزاهة + النتائج الصحيحة" لا يزال في مرحلة استكشاف النماذج الأولية المبكرة.
تعلم الفدرالية كمرحلة انتقالية بين التوزيع واللامركزية، يركز على الاحتفاظ بالبيانات محليًا، وتجميع معلمات النموذج مركزيًا، ويناسب السيناريوهات التي تركز على الامتثال للخصوصية. تتمتع تعلم الفدرالية بهيكل هندسي للتدريب الموزع وقدرة على التعاون المحلي، في حين أن لديها أيضًا مزايا توزيع البيانات في التدريب اللامركزي، لكنها لا تزال تعتمد على جهة تنسيق موثوقة، ولا تتمتع بخصائص مفتوحة تمامًا ومقاومة للرقابة. يمكن اعتبارها نوعًا من "اللامركزية المدروسة" في سياقات الامتثال للخصوصية، حيث تكون مهام التدريب، وهياكل الثقة، وآليات الاتصال جميعها معتدلة نسبيًا، مما يجعلها أكثر ملاءمة كهيكل نشر انتقالي في الصناعة.
حدود التدريب اللامركزي، الفرص والطرق الواقعية
من حيث نماذج التدريب، فإن التدريب اللامركزي لا يناسب جميع أنواع المهام. في بعض السيناريوهات، بسبب تعقيد هيكل المهمة، ومتطلبات الموارد العالية للغاية، أو صعوبة التعاون، فإنه بشكل طبيعي لا يناسب الإنجاز بكفاءة بين العقد المتغايرة والموثوقة. على سبيل المثال، تدريب النماذج الكبيرة يعتمد غالبًا على ذاكرة وصول عشوائي مرتفعة، وزمن استجابة منخفض، وعرض نطاق مرتفع، مما يجعل من الصعب تقسيمها ومزامنتها بفعالية في شبكة مفتوحة؛ والمهام التي تتعلق بخصوصية البيانات وقيود السيادة مقيدة بالتوافق القانوني والأخلاقي، مما يمنع المشاركة المفتوحة؛ بينما المهام التي تفتقر إلى أساس حوافز التعاون تفتقر إلى دافع المشاركة الخارجية. تشكل هذه الحدود معًا القيود الواقعية الحالية للتدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو مجرد وهم. في الواقع، يظهر التدريب اللامركزي آفاق تطبيقية واضحة في أنواع المهام التي تتميز بالهيكل الخفيف، وسهولة التوازي، والتحفيز. وتشمل هذه المهام، على سبيل المثال لا الحصر: ضبط LoRA، مهام التدريب اللاحق المتساوقة، تدريب وتوسيم البيانات عبر الحشد، تدريب نماذج أساسية صغيرة يمكن التحكم في مواردها، بالإضافة إلى سيناريوهات التدريب التعاوني التي تشارك فيها أجهزة الحافة. تتمتع هذه المهام عمومًا بخصائص التوازي العالي، والارتباط المنخفض، والتحمل لقوة الحوسبة غير المتجانسة، مما يجعلها مناسبة جدًا للتدريب التعاوني من خلال الشبكات P2P، بروتوكول Swarm، والمُحسِّنات الموزعة.
تحليل مشاريع التدريب الكلاسيكية اللامركزية
حاليًا، تشمل المشاريع الرائدة في مجال التدريب اللامركزي والتعلم الفيدرالي بشكل رئيسي Prime Intellect وPluralis.ai وGensyn وNous Research وFlock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect وNous Research وPluralis.ai العديد من الاستكشافات الأصلية في تصميم النظام والخوارزميات، مما يمثل الاتجاهات المتقدمة في البحث النظري الحالي؛ بينما مسارات التنفيذ لـ Gensyn وFlock.io واضحة نسبيًا، حيث يمكن رؤية التقدم الهندسي الأولي.
Prime Intellect: رائد الشبكات التعاونية للتعلم المعزز القابل للتحقق من مسار التدريب
تسعى Prime Intellect إلى بناء شبكة تدريب AI لا تتطلب الثقة، مما يتيح لأي شخص المشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهماته الحسابية. تأمل Prime Intellect من خلال ثلاثة وحدات هي PRIME-RL و TOPLOC و SHARDCAST، في بناء نظام تدريب AI اللامركزي الذي يتمتع بالتحقق والانفتاح وآلية تحفيز كاملة.
01، قيمة هيكل بروتوكول Prime Intellect والمكونات الرئيسية
PRIME-RL: هيكل مهمة التعلم المعزز غير المتزامن مفكوك الارتباط TOPLOC: آلية التحقق من سلوك التدريب خفيف الوزن SHARDCAST: بروتوكول تجميع ونشر الوزن غير المتزامن OpenDiLoCo: إطار الاتصال غير المتزامن النادر PCCL: مكتبة الاتصالات التعاونية
02، شرح آلية التدريب الرئيسية لـ Prime Intellect
PRIME-RL: هيكل مهمة التعلم المعزز غير المتزامن المفكوك
PRIME-RL هو إطار نمذجة وتنفيذ المهام المصمم من قبل Prime Intellect لسيناريوهات التدريب اللامركزية ، مصمم خصيصًا للشبكات غير المتجانسة والمشاركة غير المتزامنة. يعتمد على التعلم المعزز ككائن أولوي للتكيف ، حيث يفصل هيكليًا عمليات التدريب والاستدلال وتحميل الأوزان ، مما يسمح لكل عقدة تدريب بإكمال حلقة المهام بشكل مستقل محليًا ، والتعاون عبر واجهات موحدة وآليات التحقق والتجميع. بالمقارنة مع عمليات التعلم تحت الإشراف التقليدية ، فإن PRIME-RL أكثر ملاءمة لتحقيق التدريب المرن في بيئات بدون جدولة مركزية ، مما يقلل من تعقيد النظام ويؤسس لدعم المهام المتعددة بالتوازي وتطور الاستراتيجيات.
TOPLOC: آلية التحقق من سلوك التدريب خفيفة الوزن
TOPLOC هو آلية جوهرية تم اقتراحها من قبل Prime Intellect للتحقق من قابلية التدريب، تُستخدم لتحديد ما إذا كان العقد قد أتم تعلم استراتيجية فعالة بناءً على بيانات المراقبة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج بالكامل، بل يُكمل التحقق الهيكلي الخفيف من خلال تحليل المسارات المحلية للتناسق بين "سلسلة المراقبة ↔ تحديث الاستراتيجية". إنها المرة الأولى التي يتم فيها تحويل مسارات السلوك خلال عملية التدريب إلى كائنات يمكن التحقق منها، وهي الابتكار الرئيسي لتحقيق توزيع مكافآت التدريب بدون ثقة، مما يوفر مساراً قابلاً للتطبيق لبناء شبكة تدريب تعاونية اللامركزية يمكن تدقيقها وتحفيزها.
SHARDCAST: بروتوكول تجميع ونشر الوزن غير المتزامن
SHARDCAST هو بروتوكول نقل وتجمع الوزن الذي صممه Prime Intellect، مصمم خصيصًا لبيئات الشبكات الحقيقية غير المتزامنة ذات النطاق الترددي المحدود وتغير حالة العقد. يجمع بين آلية نشر gossip واستراتيجيات التزامن المحلي، مما يسمح للعديد من العقد بتقديم تحديثات جزئية بشكل مستمر في حالات عدم التزامن، مما يحقق تقارب وزني تدريجي وتطور متعدد النسخ. مقارنة بأساليب AllReduce المركزية أو المتزامنة، فإن SHARDCAST يعزز بشكل كبير قابلية التوسع والقدرة على تحمل الأخطاء في التدريب اللامركزي، وهو الأساس الأساسي لبناء توافق وزني مستقر وتدريب مستمر متكرر.
OpenDiLoCo: إطار الاتصال غير المتزامن النادر
OpenDiLoCo هو إطار تحسين الاتصالات الذي تم تنفيذه بشكل مستقل ومفتوح المصدر من قبل فريق Prime Intellect بناءً على مفهوم DiLoCo الذي اقترحته DeepMind، ومصمم خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود النطاق الترددي، وتنوع الأجهزة، وعدم استقرار العقد. تعتمد هيكليته على التوازي في البيانات، من خلال بناء هياكل طوبولوجية متفرقة مثل Ring وExpander وSmall-World، مما يتجنب تكاليف الاتصال العالية الناتجة عن التزامن العالمي، ويعتمد فقط على العقد المجاورة المحلية لإكمال تدريب النموذج التعاوني. يجمع OpenDiLoCo بين التحديث غير المتزامن وآلية تحمل الأخطاء، مما يمكن وحدات معالجة الرسومات من فئة المستهلك والأجهزة الطرفية من المشاركة بثبات في مهام التدريب، مما يعزز بشكل ملحوظ إمكانية المشاركة في التدريب العالمي، وهو أحد البنى التحتية الأساسية للاتصالات لبناء شبكة تدريب لامركزية.
PCCL: مكتبة الاتصالات التعاونية
PCCL هو مكتبة اتصالات خفيفة الوزن تم تصميمها خصيصًا لبيئة تدريب الذكاء الاصطناعي اللامركزية من قبل Prime Intellect، تهدف إلى حل عنق الزجاجة في التوافق الذي تعاني منه مكتبات الاتصالات التقليدية في الأجهزة المتنوعة والشبكات ذات النطاق الترددي المنخفض. يدعم PCCL التوبولوجيا المتفرقة، وضغط التدرجات، والتزامن منخفض الدقة، واستعادة النقاط المقطوعة، ويمكن تشغيله على وحدات معالجة الرسوميات الاستهلاكية والعقد غير المستقرة، وهو المكون الأساسي الذي يدعم قدرة الاتصالات غير المتزامنة لبروتوكول OpenDiLoCo. لقد زاد بشكل كبير من قدرة الشبكة التدريبية على تحمل عرض النطاق الترددي وتوافق الأجهزة، وفتح "آخر كيلومتر" من الأساسيات الاتصالية لبناء شبكة تدريب تعاونية مفتوحة حقًا وموثوقة.
03، شبكة التحفيز Prime Intellect ودور تقسيم الأدوار
بنت Prime Intellect شبكة تدريبية قابلة للتحقق وبدون إذن، مزودة بآلية تحفيزية اقتصادية، مما يتيح لأي شخص المشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. تعمل البروتوكولات على أساس ثلاث فئات من الأدوار الأساسية:
تشمل العملية الأساسية للبروتوكول نشر المهام، تدريب العقد، التحقق من المسارات، تجميع الأوزان وتوزيع المكافآت، مما يشكل حلقة تحفيزية تدور حول "سلوك التدريب الحقيقي".
04، INTELLECT-2: أول نموذج تدريب قابل للتحقق اللامركزية الصادر
أصدرت Prime Intellect INTELLECT-2 في مايو 2025، وهو أول نموذج كبير للتعلم المعزز في العالم يتم تدريبه بواسطة عقد لامركزية غير موثوقة بالتعاون غير المتزامن، مع حجم معلمات يصل إلى 32B. تم تدريب نموذج INTELLECT-2 بواسطة أكثر من 100 عقدة GPU غير متجانسة منتشرة عبر ثلاث قارات، باستخدام هيكل غير متزامن بالكامل، حيث تجاوزت مدة التدريب 400 ساعة، مما يوضح جدوى واستقرار الشبكة المتعاونة غير المتزامنة. لا يمثل هذا النموذج فقط اختراقًا في الأداء، بل هو أيضًا أول تجسيد منهجي لنموذج "التدريب هو الإجماع" الذي اقترحته Prime Intellect. يتضمن INTELLECT-2 وحدات البروتوكول الأساسية مثل PRIME-RL وTOPLOC وSHARDCAST.