مع استمرار تقدم الذكاء الاصطناعي (AI) ، يصبح من الضروري لباحثي الذكاء الاصطناعي تحديد القدرات الجديدة والمخاطر المحتملة في أنظمة الذكاء الاصطناعي بشكل استباقي. تساعد معايير التقييم الحالية بالفعل في تحديد السلوكيات غير المرغوب فيها في الذكاء الاصطناعي ، مثل التحيز والمعلومات المضللة وانتهاكات حقوق النشر. ومع ذلك ، مع تطور الذكاء الاصطناعي وأصبح أكثر قوة ، من الضروري توسيع عملية التقييم لتشمل المخاطر الشديدة المرتبطة بنماذج الذكاء الاصطناعي للأغراض العامة التي تمتلك قدرات خطيرة مثل التلاعب والخداع والجرائم الإلكترونية. في هذه المقالة ، نقدم إطار عمل لتقييم هذه التهديدات الجديدة ، والتعاون مع المؤسسات المرموقة مثل جامعة كامبريدج ، وجامعة أكسفورد ، وجامعة تورنتو ، وجامعة مونتريال ، و OpenAI ، و Anthropic ، ومركز أبحاث Alignment ، ومركز Long-Term. المرونة ومركز حوكمة الذكاء الاصطناعي.
أهمية تقييمات السلامة النموذجية
تلعب تقييمات السلامة النموذجية ، بما في ذلك تقييم المخاطر الشديدة ، دورًا حاسمًا في تطوير ونشر أنظمة الذكاء الاصطناعي الآمنة. تكتسب النماذج التقليدية للأغراض العامة قدراتها وسلوكياتها من خلال التدريب ، لكن الأساليب الحالية لتوجيه عملية التعلم غير كاملة. أظهرت الأبحاث السابقة ، مثل تلك التي أجراها Google DeepMind ، أن أنظمة الذكاء الاصطناعي يمكنها أن تتعلم متابعة الأهداف غير المرغوب فيها على الرغم من مكافأتها بشكل صحيح على السلوك الجيد. يسلط هذا الضوء على الحاجة إلى مطوري الذكاء الاصطناعي المسؤولين لتوقع التطورات المستقبلية والمخاطر المحتملة.
في المستقبل ، قد تتخلف نماذج الذكاء الاصطناعي ذات الأغراض العامة عن تعلم العديد من القدرات الخطرة. يمكن أن تتراوح هذه القدرات من العمليات السيبرانية الهجومية والخداع المعقد في الحوار البشري إلى التلاعب بالبشر في أعمال ضارة أو الحصول على أنظمة ذكاء اصطناعي عالية الخطورة. من الضروري تقييم نماذج لهذه المخاطر الشديدة للتخفيف من سوء الاستخدام المحتمل من قبل الأفراد الضارين ومنع الإجراءات الضارة غير المقصودة الناتجة عن فشل المحاذاة.
تقييم المخاطر الجسيمة: الإطار
في إطار عملنا ، سيستخدم مطورو الذكاء الاصطناعي تقييمات النموذج للكشف عن جانبين رئيسيين:
- تحديد القدرات الخطرة
يهدف تقييم النموذج إلى تحديد مدى امتلاك النموذج لقدرات خطيرة يمكن أن تهدد الأمن أو تمارس التأثير أو تتهرب من الرقابة. يقيم هذا التقييم إمكانية النموذج في إحداث ضرر من خلال قدراته. - تقييم المحاذاة
تؤكد تقييمات المحاذاة إلى أي مدى يكون النموذج عرضة لتطبيق قدراته لإحداث ضرر. تضمن هذه التقييمات أن النموذج يتصرف على النحو المنشود عبر مجموعة واسعة من السيناريوهات. كلما كان ذلك ممكنًا ، يجب فحص الأعمال الداخلية للنموذج لضمان التوافق مع الأهداف المقصودة.
من خلال إجراء هذه التقييمات ، يمكن لمطوري الذكاء الاصطناعي اكتساب رؤى حول وجود المكونات التي قد تساهم في مخاطر شديدة. من المهم أن نلاحظ أن الجمع بين القدرات الخطرة المتعددة في النموذج يشكل أعلى مستوى من المخاطر.
قاعدة الإبهام: معايير السلامة ونشر الذكاء الاصطناعي عالي المخاطر
لتعزيز النشر الآمن ، يجب على مجتمع الذكاء الاصطناعي اعتبار أي نظام ذكاء اصطناعي يتمتع بملف تعريف للقدرات كافٍ لإحداث ضرر شديد ، بافتراض إساءة الاستخدام أو التوافق السيئ ، على أنه أمر خطير للغاية. يصبح إظهار مستوى عالٍ من السلامة شرطًا أساسيًا لنشر مثل هذا النظام في العالم الحقيقي.
تقييم النموذج كبنية تحتية للحوكمة الحرجة
تُمكِّن أدوات تقييم النماذج القوية الشركات والهيئات التنظيمية من ضمان تطوير الذكاء الاصطناعي ونشره بشكل مسؤول من خلال:
التدريب المسؤول: اتخاذ قرارات مستنيرة بشأن نماذج التدريب التي تظهر العلامات المبكرة للمخاطر.
النشر المسؤول: تقييم وتحديد ما إذا كان سيتم نشر النماذج التي يحتمل أن تكون محفوفة بالمخاطر ومتى وكيفية ذلك.
الشفافية: تزويد أصحاب المصلحة بمعلومات مفيدة وقابلة للتنفيذ للاستعداد للمخاطر المحتملة والتخفيف منها.
الأمان المناسب: تنفيذ ضوابط قوية لأمن المعلومات للنماذج ذات المخاطر الشديدة المحتملة.
يوضح هذا المخطط كيف يجب أن توجه التقييمات النموذجية للمخاطر الشديدة القرارات الحاسمة المتعلقة بتدريب ونشر نماذج الأغراض العامة عالية القدرة. يجب على المطورين إجراء تقييمات خلال العملية ومنح الباحثين والمراجعين الخارجيين في مجال السلامة إمكانية الوصول إلى النموذج لإجراء تقييمات إضافية. النتائج التي تم الحصول عليها من هذه التقييمات يجب أن تسترشد بتقييم المخاطر قبل تدريب النموذج ونشره.
أتطلع قدما
بينما يتم إحراز تقدم في تقييمات النماذج للمخاطر الشديدة ، فإن التقدم التقني والمؤسسي مطلوب لإنشاء عملية تقييم قادرة على استيعاب جميع المخاطر المحتملة والتصدي بفعالية للتحديات الناشئة. من المهم الاعتراف بأن تقييم النموذج وحده ليس حلاً سحريًا ، لأن بعض المخاطر قد تعتمد بشدة على عوامل خارجية مثل القوى الاجتماعية والسياسية والاقتصادية. ومن ثم ، فإن الجمع بين تقييم النموذج وأدوات تقييم المخاطر الأخرى والالتزام الأوسع بالسلامة عبر الصناعة والحكومة والمجتمع المدني أمر ضروري.
كما هو موضح في مدونة Google الأخيرة حول الذكاء الاصطناعي المسؤول ، فإن الممارسات الفردية ومعايير الصناعة المشتركة والسياسات الحكومية السليمة ضرورية لضمان تطوير الذكاء الاصطناعي المسؤول والأخلاقي. يعد التعاون بين ممارسي الذكاء الاصطناعي وأصحاب المصلحة من مختلف القطاعات المتأثرة بهذه التكنولوجيا أمرًا ضروريًا لإنشاء مناهج ومعايير تمكن من التطوير الآمن للذكاء الاصطناعي ونشره لصالح الجميع.
في الختام ، يعد دمج العمليات لتتبع ظهور الخصائص الخطرة في نماذج الذكاء الاصطناعي والاستجابة بفعالية للنتائج ذات الصلة جزءًا لا يتجزأ من كونك مطورًا مسؤولًا يعمل في طليعة قدرات الذكاء الاصطناعي.