دراسة هارفارد منشورة في Science: دقة تشخيص الطوارئ بواسطة OpenAI o1 بلغت 67%، متفوقة على طبيبين بشريين.

جامعة هارفارد للطب وفريق من مركز بيث إسرائيل ديكونيس الطبي نشروا دراسة في مجلة Science، باستخدام 76 مريضًا في الطوارئ كعينة اختبار، لاختبار قدرة نموذج OpenAI o1 على اتخاذ القرارات التشخيصية. أظهرت النتائج أن دقة o1 بلغت 67%، متفوقة بشكل ملحوظ على طبيبين متخصصين في الأمراض الداخلية بنسبة 55% و50%. ومع ذلك، أصدر الباحثون تحذيرًا هامًا في الوقت نفسه: لم يكن مجموعة المقارنة من أطباء الطوارئ المختصين، ولم يدعوا أن الذكاء الاصطناعي قادر على اتخاذ قرارات حياة أو موت في الواقع الحقيقي.
(ملخص سابق: دراسة جامعة كاليفورنيا عن ظاهرة “ضبابية الذكاء الاصطناعي”: 14% من الموظفين يجنون من الوكيل أو الأتمتة، ورغبة ترك العمل تصل إلى أربعين بالمئة)
(معلومات إضافية: مؤلف “تاريخ البشرية”: الذكاء الاصطناعي أصبح تهديدًا، لقد اخترق أنظمة عمل الحضارة البشرية! مثل الأسلحة النووية)

ورقة من جامعة هارفارد، سرًا، وضعت اسمها على مجلة علمية رائدة، مما جعل نقاش الذكاء الاصطناعي في المجال الطبي من مجرد عرض تجريبي إلى دخول رسمي في الأبحاث السريرية.

هذه الدراسة، التي أجرتها جامعة هارفارد بالتعاون مع مركز بيث إسرائيل ديكونيس الطبي، استندت إلى سجلات 76 مريضًا حقيقيًا في الطوارئ، وطلبت من نموذج OpenAI o1، وGPT-4o، وطبيبين متخصصين في الأمراض الداخلية، تقديم تشخيص لكل حالة. المعيار التقييمي كان: نسبة الحالات التي حصلت على “إجابة دقيقة أو قريبة جدًا من الصحيحة”.

النتيجة النهائية جعلت الكثيرين يتوقفون ليلتقطوا أنفاسهم — حيث بلغت دقة o1 67%، بينما كانت نسبتي الأطباء البشريين 55% و50% على التوالي. كما شمل الاختبار نموذج GPT-4o، لكنه أداؤه كان أدنى من o1.

ما الذي يميز o1 في هذا الجانب؟

أشار فريق البحث بشكل خاص إلى أن الفارق الأكبر بين o1 والأطباء البشريين حدث في مرحلة “تصنيف الحالة الأولي” — أي عندما يدخل المريض إلى الطوارئ، وتكون المعلومات قليلة، وعدم اليقين عالي.

في هذا السياق، يحتاج o1 إلى الاعتماد على الوصف النصي للأعراض، والأعراض الحيوية، وتوليفها لتكوين توجيه تشخيصي مبدئي. وهذا يتوافق تمامًا مع نقاط قوة نماذج اللغة الكبيرة: التعرف على أنماط النص المنسق، والدمج السريع لمعارف متعددة التخصصات، والقدرة على تقديم استنتاجات منظمة حتى في ظل نقص المعلومات.

على الرغم من أن GPT-4o شارك أيضًا في الاختبار، إلا أن أداؤه لم يكن ثابتًا بنفس مستوى o1، وكان الفارق بينه وبين الأطباء أقل. يعتقد الباحثون أن ذلك مرتبط بشكل مباشر بالبنية الأكثر قوة في سلسلة الاستدلال الخاصة بـ o1.

من حيث الأهمية، لم تعد هذه مجرد قصة “الذكاء الاصطناعي يفوز في الاختبارات القياسية” — حيث أن العينة جاءت من سجلات حقيقية للمرضى في الطوارئ، وليس من أسئلة مصممة بشكل اصطناعي، مما يمنح الأرقام قيمة مرجعية سريرية معينة.

لا تنخدع بالعنوان الرئيسي: ثلاث حقائق يجب أن تعرفها قبل أن تتسرع

قبل أن تثير هذه الدراسة نقاشات واسعة، هناك ثلاثة أمور تستحق أن نبطئ ونراجعها بوعي.

الأول، مجموعة المقارنة ليست من أطباء الطوارئ المختصين. الاختبار قارن بين النموذج وطبيبين متخصصين في الأمراض الداخلية، وليس مع أطباء الطوارئ المدربين بشكل خاص على الطوارئ. التحدي في تشخيص الطوارئ يكمن في الضغط العالي، وتعدد المهام، وتجزئة المعلومات، حيث أن الطبيب الداخلي ليس هو المعيار الأفضل للمقارنة في هذا السياق — الإطار المقارن نفسه قابل للطعن.

الثاني، هذا “تصنيف نصي”، وليس مشهد طوارئ متعدد الوسائط حقيقي. صرح رئيس الدراسة بوضوح: “هذه مجرد تصنيف نصي، وليست الطوارئ الحقيقية متعددة الوسائط.” فالطوارئ الحقيقي مليء بتفسير الصور، والملاحظة الجسدية، والتواصل المباشر، والإجراءات الطارئة — وهذه كلها مجالات لا يستطيع نماذج اللغة الكبيرة التدخل فيها بعد.

الثالث، فريق الدراسة نفسه لا يدعي أن الذكاء الاصطناعي يمكنه اتخاذ قرارات حياة أو موت. مع نشر النتائج، أكد الباحثون في الوقت ذاته على محدودية الدراسة، ولم يوصوا باستخدام الذكاء الاصطناعي مباشرة في الممارسة السريرية.

من وجهة نظر التطبيق، فإن هذه الدراسة تمثل بالفعل علامة فارقة تقنية — حيث أن “التشخيص النصي المنظم” أصبح مجالًا تتفوق فيه الذكاء الاصطناعي على أطباء بشريين في سياقات معينة. لكن بين “الدقة المختبرية” و"الانتشار في الواقع الطبي"، لا تزال هناك حواجز تتعلق بالتنظيم، والدمج متعدد الوسائط، والتكامل مع أنظمة المستشفى، والأهم: من يتحمل المسؤولية عند الخطأ. قد تكون التقنية قد تجاوزت العقبات، لكن تطبيق الذكاء الاصطناعي في المجال الطبي لا يزال يواجه تحديات كبيرة.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت