سلطت الدراسة المنشورة على خادم ما قبل الطباعة medRxiv الضوء على الأداء المتفوق لـ GPT-4 ، أحدث نموذج لغة من OpenAI ، على GPT-3.5 و Google Bard في اختبار المجلس الشفوي لجراحة الأعصاب. تم إجراء الدراسة من قبل باحثين في الولايات المتحدة قاموا بتقييم أداء نماذج اللغة الكبيرة العامة الثلاثة (LLMs) في الأسئلة عالية المستوى التي تمثل امتحان المجلس الشفوي للبورد الأمريكي للجراحة العصبية (ABNS).
يعتبر امتحان المجلس الشفوي لجراحة الأعصاب ABNS تقييمًا أكثر صرامة من نظيره المكتوب ويتم إجراؤه من قبل الأطباء بعد عامين إلى ثلاثة أعوام من تخرج الإقامة. وهي تتألف من ثلاث جلسات مدة كل منها 45 دقيقة ، ولم يتجاوز معدل نجاحها 90٪ منذ عام 2018. قيمت الدراسة أداء GPT-3.5 و GPT-4 و Google Bard على وحدة مكونة من 149 سؤالًا تحاكي امتحان المجلس الشفوي لجراحة الأعصاب .
أظهرت جميع LLMs الثلاثة التي تم تقييمها في هذه الدراسة القدرة على اجتياز امتحانات المجلس الطبي بأسئلة الاختيار من متعدد. ومع ذلك ، لم تختبر أي دراسات سابقة أو قارنت أداء العديد من LLM في أسئلة ذات ترتيب أعلى في الغالب من مجال تخصص طبي فرعي عالي الأهمية ، مثل جراحة الأعصاب.
وجدت الدراسة أن GPT-4 حصل على درجة 82.6٪ في الوحدة المكونة من 149 سؤالًا ، متفوقًا على درجة ChatGPT البالغة 62.4٪. بالإضافة إلى ذلك ، أظهر GPT-4 أداءً أفضل من ChatGPT في التخصصات الفرعية للعمود الفقري ، وسجل 90.5٪ مقارنة بـ ChatGPT’s 64.3٪. أنتج Google Bard إجابات صحيحة لـ 44.2٪ من الأسئلة ، بينما لم يرفض GPT-3.5 و GPT-4 أبدًا الإجابة على سؤال نصي.
تؤكد نتائج الدراسة على الحاجة الملحة لجراحي الأعصاب للبقاء على اطلاع حول LLMs الناشئة ومستويات أدائها المتفاوتة للتطبيقات السريرية المحتملة. مع التقدم في مجال الذكاء الاصطناعي ، قد يستخدم المتدربون في جراحة الأعصاب LLMs ويعتمدون عليها لإعداد المجلس ، ويقدمون رؤى سريرية جديدة ويعملون كأداة مساعدة للمحادثة لتدريب السيناريوهات السريرية المختلفة حول الموضوعات الصعبة للمجالس.
ومع ذلك ، هناك حاجة ملحة لتطوير المزيد من الثقة في أنظمة LLM ، وبالتالي ، يجب استمرار التحقق الصارم من أدائها على السيناريوهات ذات الترتيب الأعلى والمفتوحة بشكل متزايد. سيضمن التكامل الآمن والفعال لهذه LLMs في عمليات صنع القرار السريرية. تسلط الدراسة الضوء على أهمية طرق تحديد وفهم الهلوسة ، وفي النهاية ، سيتم دمج LLMs التي تقلل وتتعرف على الهلوسة في الممارسة السريرية.
تشير نتائج الدراسة أيضًا إلى أن أنماط فحص الاختيار من متعدد قد تصبح قديمة في التعليم الطبي ، بينما تكتسب التقييمات اللفظية أهمية أكبر. علاوة على ذلك ، تشير الدراسة إلى أن GPT-4 أظهر معدلات منخفضة من الهلوسة والقدرة على التنقل بين المفاهيم الصعبة مثل التصريح بعدم الجدوى الطبية. ومع ذلك ، فقد كافح في سيناريوهات أخرى ، مثل احتساب الخصائص على مستوى المريض ، مثل الضعف.
في الختام ، أظهرت الدراسة المنشورة على خادم ما قبل الطباعة medRxiv أن GPT-4 يتفوق على GPT-3.5 و Google Bard في اختبار المجلس الشفوي لجراحة الأعصاب. تؤكد نتائج الدراسة على الحاجة إلى التحقق الصارم من أداء النماذج اللغوية على السيناريوهات ذات الترتيب الأعلى والمفتوحة بشكل متزايد. بالإضافة إلى ذلك ، تسلط الدراسة الضوء على أهمية بقاء جراحي الأعصاب على اطلاع بنماذج اللغة الناشئة ومستويات أدائهم المتفاوتة للتطبيقات السريرية المحتملة.