AI

Bloom: أداة مفتوحة المصدر للتقييم الآلي لسلوك نماذج اللغة الكبيرة

ع
عبدالله الفضلي
· · 3 دقائق قراءة
Bloom: أداة مفتوحة المصدر للتقييم الآلي لسلوك نماذج اللغة الكبيرة

Bloom هي أداة مفتوحة المصدر مصممة للتقييم الآلي لسلوك نماذج اللغة الكبيرة (LLMs). توفر إطارًا منظمًا لتقييم سلوكيات محددة، مثل التملق أو التحيز، من خلال إنشاء مجموعات تقييم مخصصة. يختلف هذا عن طرق التقييم الثابتة من خلال تكييف التقييم بناءً على تكوين “بذرة” أولي، مما يجعل إمكانية التكرار تعتمد على البذرة. تلخص هذه المدونة الميزات والوظائف الرئيسية لـ Bloom وتعليمات الاستخدام، وتقدم نظرة عامة شاملة للمطورين والباحثين المهتمين بالاستفادة منها لتقييم LLM.

الميزات الرئيسية لـ Bloom

  • إنشاء مجموعة تقييم آلية: يقوم Bloom تلقائيًا بإنشاء مجموعات تقييم بناءً على تكوين “بذرة” محدد من قبل المستخدم. تتضمن هذه البذرة سلوكيات مستهدفة ونصوصًا نموذجية وأنواع التفاعلات المطلوبة.
  • تقييم قابل للتخصيص: Bloom قابل للتخصيص بدرجة كبيرة. يمكن للمستخدمين تحديد السلوكيات المستهدفة وتقديم نصوص نموذجية وتكوين معلمات مختلفة لتخصيص عملية التقييم.
  • خط أنابيب معياري: تنقسم عملية التقييم إلى أربع مراحل متميزة: الفهم والتصور والتنفيذ والحكم. تسمح هذه الوحدات النمطية بتصحيح الأخطاء المستهدف والتحسين التكراري لعملية التقييم.
  • التكامل مع العديد من مزودي LLM: يدعم Bloom العديد من مزودي النماذج من خلال LiteLLM، بما في ذلك OpenAI و Anthropic و OpenRouter و Amazon Bedrock، مما يوفر المرونة في اختيار النموذج المستهدف للتقييم.
  • عارض النصوص التفاعلي: يتضمن Bloom عارضًا تفاعليًا لتصفح نصوص التقييم، مما يسهل تحليل تدفقات المحادثة ونتائج الحكم والمبررات.
  • تكامل الأوزان والتحيزات (Weights & Biases): يتكامل Bloom مع الأوزان والتحيزات للتجارب واسعة النطاق، مما يتيح تتبعًا وإدارة فعالين لعمليات التقييم.

خط أنابيب Bloom ذو الأربع مراحل

  • مرحلة الفهم: تحلل هذه المرحلة السلوك المستهدف والمحادثات النموذجية المقدمة لفهم الآليات والدوافع الأساسية. تقوم بتلخيص ونسبة الأمثلة لتوجيه مجموعة التقييم.
  • مرحلة التصور: تولد هذه المرحلة سيناريوهات تقييم متنوعة واختلافات. يتم إنشاء سيناريوهات أساسية لاستنباط السلوك المستهدف، تليها اختلافات لكل سيناريو أساسي. تتحكم معلمة التنوع في التوازن بين عدد السيناريوهات الأساسية وعدد الاختلافات لكل سيناريو.
  • مرحلة التنفيذ: تنفذ هذه المرحلة سيناريوهات التقييم التي تم إنشاؤها باستخدام النموذج المستهدف. يمكن أن يتضمن ذلك عمليات تنفيذ المحادثات أو البيئات المحاكاة مع استدعاءات الأدوات.
  • مرحلة الحكم: تقوم هذه المرحلة بتقييم نصوص التنفيذ، وتسجيل وجود السلوك المستهدف، وإبراز الاقتباسات المهمة، وتقييم الصفات الإضافية التي تم تكوينها بواسطة المستخدم مثل الواقعية أو قوة المقيم. يحلل الحكم الوصفي الصفات عبر جميع السيناريوهات.

البدء مع Bloom

تحدد الوثيقة الخطوات التالية للبدء في استخدام Bloom:

  • تكوين مفتاح API: أضف مفاتيح API لمزودي النماذج المطلوبين إلى ملف .env.
  • إعداد البيئة الافتراضية: قم بإنشاء وتفعيل بيئة افتراضية باستخدام uv وتثبيت التبعيات المطلوبة من requirements.txt.
  • تعريف السلوك: حدد السلوك المستهدف في behaviors/behaviors.json بمفتاح ووصف فريدين.
  • نصوص نموذجية (اختياري): أضف نصوصًا نموذجية للسلوك إلى behaviors/examples/your-behavior-name/، منسقة وفقًا للمخططات في schemas/.
  • تكوين seed.yaml: قم بتخصيص المعلمات الرئيسية في seed.yaml، بما في ذلك مفتاح السلوك وأسماء ملفات الأمثلة وإجمالي سيناريوهات التقييم والنموذج المستهدف.
  • تنفيذ خط الأنابيب: قم بتشغيل خط الأنابيب محليًا باستخدام python bloom.py --debug.
  • عرض النصوص: اعرض النصوص التي تم إنشاؤها باستخدام عارض النصوص التفاعلي: npx @isha-gpt/bloom-viewer --host 0.0.0.0 --port 8080 --dir ./results.

معلمات التكوين

يحتوي ملف seed.yaml على معلمات تكوين مفصلة، مصنفة على النحو التالي:

  • تكوين السلوك: يحدد السلوك المستهدف ويوفر محادثات نموذجية.
  • المعلمات العامة: تحدد المعلمات العامة مثل درجة الحرارة وجهد الاستدلال والتزامن ووضع التصحيح.
  • تكوين مرحلة الفهم: يقوم بتكوين النموذج وحدود الرموز المميزة لمرحلة الفهم.
  • تكوين مرحلة التصور: يقوم بتكوين النموذج وإجمالي التقييمات والتنوع وحدود الرموز المميزة لمرحلة التصور.
  • تكوين مرحلة التنفيذ: يقوم بتكوين النموذج والنمط والحد الأقصى للدورات وحدود الرموز المميزة لمرحلة التنفيذ.
  • تكوين مرحلة الحكم: يقوم بتكوين النموذج وحدود الرموز المميزة وعدد العينات والصفات الإضافية لمرحلة الحكم.

يوفر Bloom نظامًا أساسيًا قويًا ومرنًا لتقييم سلوكيات LLM. إن إنشاء المجموعة الآلي وخط الأنابيب المعياري والتكامل مع مختلف مزودي النماذج يجعلها أداة قيمة للباحثين والمطورين الذين يسعون إلى فهم وتخفيف التحيزات المحتملة والسلوكيات غير المرغوب فيها في LLMs. تعمل خيارات التكوين التفصيلية وعارض النصوص التفاعلي على تعزيز سهولة الاستخدام وفعالية الأداة.


المصدر: bloom

مقالات ذات صلة