AI

علماء الذكاء الاصطناعي القابلون للتدريب: NVIDIA NeMo Gym وNeMo RL لأتمتة الاكتشاف العلمي

ع
عبدالله الفضلي
· · 3 دقائق قراءة
علماء الذكاء الاصطناعي القابلون للتدريب: NVIDIA NeMo Gym وNeMo RL لأتمتة الاكتشاف العلمي

في مجال البحث العلمي، يمكن للطبيعة المملة والمتكررة للمهام مثل مراجعة الأدبيات وإدارة التجارب والتعامل مع البيانات أن تعيق التقدم بشكل كبير. تتعمق منشور المدونة هذا في كيفية قيام أطري عمل NVIDIA NeMo Gym وNeMo RL، جنبًا إلى جنب مع عمل Edison Scientific وبيئة Aviary الخاصة بهم، بإحداث ثورة في هذا المجال من خلال تمكين إنشاء وتدريب وكلاء علميين مدعومين بالذكاء الاصطناعي. يمكن لهؤلاء الوكلاء أتمتة العديد من المهام المستهلكة للوقت، مما يحرر الباحثين للتركيز على حل المشكلات الإبداعي والاكتشاف العلمي.

التعلم المعزز: توسيع قدرات LLM للعلوم

تتفوق نماذج تعلم اللغة التقليدية (LLMs) في التنبؤ بالرمز المميز التالي، مما يؤدي إلى معرفة واسعة ولكنها غالبًا ما تفتقر إلى المهارات الخاصة بمجال معين. يعمل التعلم المعزز (RL) على سد هذه الفجوة من خلال السماح للنماذج بالتفكير والتصرف خارج نطاق البيانات الخاضعة للإشراف. تسلط المشاركة الضوء على الجوانب الرئيسية التالية:

  • التدريب المسبق: يوفر فهمًا أساسيًا ولكنه يفتقر إلى الخبرة الخاصة بالمجال.
  • الضبط الدقيق الخاضع للإشراف (SFT): يتعلم من أزواج التعليمات والاستجابة ولكنه مقيد بتغطية مجموعة البيانات ويكافئ فقط إعادة إنتاج الإجابة المرجعية.
  • التعلم المعزز (RL): يستخدم دالة المكافأة لتسجيل مخرجات، مما يمكّن النماذج من التحسين لتحقيق أهداف محددة.
    • RLHF (التعلم المعزز من ملاحظات الإنسان): يعتمد على تفضيلات الإنسان للحصول على إشارات المكافأة.
    • RLAIF (التعلم المعزز من ملاحظات الذكاء الاصطناعي): يستخدم LLMs كقضاة.
    • RLVR (التعلم المعزز مع المكافآت القابلة للتحقق): يستخدم الفحوصات الحسابية للحصول على إشارات مكافأة موضوعية، وهي ضرورية للمهام العلمية.
  • RL العلمي: يمكّن الوكلاء من تصميم وإجراء التجارب وتقييم النتائج والتحسين لتحقيق المقاييس العلمية.

NeMo Gym وNeMo RL: تحسين التدريب Agentic

يوفر تكامل NeMo Gym وNeMo RL إطارًا قويًا لبناء وتقييم وكلاء LLM للبحث العلمي.

  • NeMo RL: يوفر خوارزميات التدريب ويدير موارد الحساب وينظم تحديثات النموذج. يدعم أحدث إصدار ميزات مثل تقطير السياسة على السياسة، وasyncRL، وخوارزميات RL المتقدمة، وتدريب FP8 RL من طرف إلى طرف.
  • NeMo Gym: إطار عمل مفتوح المصدر لبناء بيئات تدريب RL على نطاق واسع، والتعامل مع التبعيات المتنوعة والمتطلبات الخاصة بالمجال.
    • يقدم ثلاثة تجريدات خادم أساسية:
      • النموذج: يلتف حول نقاط نهاية متوافقة مع OpenAI لتقديم الدعم في مجال التفكير واستدعاء الأدوات.
      • الموارد: يوفر تطبيقات الأدوات ومنطق التحقق.
      • الوكلاء: ينظم التفاعلات بين النماذج والموارد.
  • الوظائف الرئيسية: يقوم NeMo Gym بإنشاء عمليات طرح ومكافآت، مما يسمح بالتدريب القابل للتطوير والتكامل مع الأنظمة الحالية.

Edison Scientific وAviary: مثال عملي

تستخدم Edison Scientific NeMo Gym وNeMo RL مع إطار Aviary الخاص بها لأتمتة الاكتشاف العلمي في مجالات علم الأحياء والكيمياء والمجالات ذات الصلة. توفر Aviary بيئات تدريب RL لمهام مختلفة، بما في ذلك البحث في الأدبيات وتحليل بيانات المعلوماتية الحيوية والاستنساخ الجزيئي.

  • طرق Aviary الأساسية:
    • reset(): يقوم بتهيئة البيئة وإرجاع الملاحظة الأولى.
    • step(): يقوم بتنفيذ إجراء وإرجاع ملاحظات جديدة ومكافآت وإشارات إنهاء.
  • حالة الاستخدام على سبيل المثال: تقوم Edison Scientific بتدريب وكيل تحليل بيانات دفتر ملاحظات Jupyter لمهام المعلوماتية الحيوية. لقد قاموا بتنفيذ ميزات إدارة السياق للتعامل مع دفاتر الملاحظات الكبيرة، بما في ذلك إسقاط محفوظات التفاعل وتجميع GRPO على خطوات فردية.
  • BixBench: معيار قياس للأسئلة القابلة للتحقق في مجال المعلوماتية الحيوية تم إنشاؤه بواسطة Edison Scientific لاختبار نظامهم والتحقق من صحته.

بناء بيئات Agentic باستخدام NeMo Gym

تقدم مدونة النشر دليلًا تفصيليًا لبناء بيئات agentic في NeMo Gym. تتضمن الخطوات الرئيسية ما يلي:

  1. تثبيت NeMo Gym: استنساخ المستودع وإعداد بيئة افتراضية.
  2. تكوين النموذج: استخدام نموذج مستضاف أو نشره محليًا باستخدام vLLM، وتمكين استدعاء الأدوات.
  3. اختبار بيئة Aviary: تشغيل وكيل بسيط من خلال بيئة GSM8K، وعرض الوظائف الأساسية.
  4. بناء بيئة جديدة: إضافة بيئة Aviary HotPotQA إلى NeMo Gym، وعرض قابلية التوسع.

أفضل الممارسات لبناء وكلاء علميين

يقدم المؤلفون نصائح قيمة لبناء وكلاء علميين فعالين:

  • ابدأ بسيطًا: ابدأ بوكيل أساسي وقم بزيادة التعقيد تدريجيًا.
  • توصيف المكافأة: قياس إحصائيات المكافأة لإنشاء بيئة تدريب فعالة.
  • مراقبة مقاييس التدريب: تتبع المقاييس لتحديد المشكلات مثل مشاكل أخذ العينات أو انهيار النموذج.
  • التدريب لفترة أطول: قد تتطلب طرق RLVR فترات تدريب طويلة لتحقيق تعلم كبير.

في الختام، يوفر إطارا عمل NeMo Gym وNeMo RL، جنبًا إلى جنب مع مبادرات مثل Aviary الخاصة بـ Edison Scientific، نظامًا أساسيًا قويًا وقابلاً للتطوير لتطوير وكلاء الذكاء الاصطناعي القادرين على أتمتة الاكتشاف العلمي. من خلال اتباع أفضل الممارسات والاستفادة من هذه الأدوات، يمكن للباحثين إطلاق إمكانات جديدة وتسريع التقدم العلمي.


المصدر: DEVELOPER