تم الكشف عن نموذج OpenAI الجديد الغامض Q * ، والذي كان قويا جدا بحيث لا يمكن لمجلس الإدارة أن يكون يقظا ، أو فتيل طرد Ultraman

مصدر المقال: الكيوبتات

* مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود *

انتهت دراما قتال قصر OpenAI للتو ، وستثير على الفور ضجة أخرى!

كشفت رويترز أنه قبل طرد ألتمان ، كتب العديد من الباحثين رسائل تحذير إلى مجلس الإدارة ربما تكون قد تسببت في الحادث بأكمله:

نموذج الذكاء الاصطناعي من الجيل التالي ، المسمى داخليا Q (ينطق Q-Star) ، قوي جدا ومتقدم بحيث لا يهدد البشرية.

Q \ * يقودها الشخصية المركزية لهذه العاصفة ، كبير العلماء إيليا سوتسكيفر.

سرعان ما ربط الناس تصريحات ألتمان السابقة في قمة أبيك:

كانت هناك أربع مرات في تاريخ OpenAI ، كان آخرها في الأسابيع القليلة الماضية ، عندما كنت في الغرفة عندما تجاوزنا حجاب الجهل ووصلنا إلى حدود الاكتشاف ، والتي كانت أعلى شرف في مسيرتي المهنية. "

قد يكون ل Q \ * الخصائص الأساسية التالية التي تعتبر خطوة رئيسية على الطريق إلى الذكاء الاصطناعي العام أو الذكاء الفائق.

  • اختراق قيود البيانات البشرية ويمكن أن تنتج كميات هائلة من بيانات التدريب بنفسك
  • القدرة على التعلم والتحسين بشكل مستقل

سرعان ما أثارت الأخبار نقاشا كبيرا ، وسأل ماسك أيضا برابط.

أحدث ميم هو أنه ، على ما يبدو بين عشية وضحاها ، انتقل الناس من كونهم خبراء في مجلس إدارة Ultraman و OpenAI إلى خبراء Q \ *.

كسر حدود البيانات

وفقا لآخر الأخبار من The Information ، كان Q '* يعرف سابقا باسم GPT-Zero ، وهو مشروع بدأه Ilya Sutskever ، باسم يكرم Alpha-Zero من DeepMind.

لا يحتاج Alpha-Zero إلى تعلم ألعاب الشطرنج البشرية ، ولكنه يتعلم لعب Go من خلال اللعب ضد نفسه.

يتيح GPT-Zero تدريب نماذج الذكاء الاصطناعي من الجيل التالي باستخدام البيانات التركيبية بدلا من الاعتماد على بيانات العالم الحقيقي مثل النصوص أو الصور المستخرجة من الإنترنت.

في عام 2021 ، تم إنشاء GPT-Zero رسميا ، ولم يكن هناك الكثير من الأخبار ذات الصلة المباشرة منذ ذلك الحين.

لكن قبل بضعة أسابيع فقط ، ذكر إيليا في مقابلة:

دون الخوض في الكثير من التفاصيل ، أريد فقط أن أقول إنه يمكن التغلب على قيود البيانات وسيستمر التقدم.

استنادا إلى GPT-Zero ، تم تطوير Q \ * بواسطة Jakub Pachocki و Szymon Sidor.

كان كلاهما من أوائل الأعضاء في OpenAI ، وكانا أيضا أول أعضاء يعلنون أنهم سيتبعون Ultraman إلى Microsoft.

كان جاكوب باتشوكي ، الذي تمت ترقيته إلى مدير الأبحاث الشهر الماضي ، مساهما أساسيا في العديد من اختراقاته السابقة ، بما في ذلك مشروع Dota 2 والتدريب المسبق GPT-4.

عمل Szymon Sidor أيضا في مشروع Dota 2 ، وسيرته الذاتية هي “بناء AGI ، سطرا بسطر”.

في رسالة رويترز ، ذكر أن Q * أعطيت موارد حوسبة ضخمة لتكون قادرة على حل بعض المشكلات الرياضية. على الرغم من أن القدرة الرياضية الحالية هي فقط على مستوى المدرسة الابتدائية ، إلا أن الباحثين متفائلون جدا بشأن النجاح في المستقبل.

بالإضافة إلى ذلك ، ذكر أن OpenAI قد أنشأت فريقا جديدا من “علماء الذكاء الاصطناعي” ، وهو عبارة عن اندماج لفريقي “Code Gen” و “Math Gen” في الأيام الأولى ، ويتم استكشافه وتحسينه لتحسين القدرة المنطقية الذكاء الاصطناعي ، وفي النهاية إجراء الاستكشاف العلمي.

ثلاثة تخمينات

لا توجد كلمة أكثر تحديدا حول ماهية Q * بالضبط ، لكن البعض تكهن من الاسم بأنه قد يكون له علاقة ب Q-Learning.

Q-Learning ، التي يعود تاريخها إلى عام 1989 ، هي خوارزمية تعلم معززة خالية من النماذج لا تتطلب نمذجة البيئة ، حتى بالنسبة لوظائف النقل ذات العوامل العشوائية أو وظائف المكافأة ، ويمكن تكييفها دون تغييرات خاصة.

على عكس خوارزميات التعلم المعزز الأخرى ، يركز Q-Learning على تعلم قيمة كل زوج من الإجراءات الحكومية لتحديد الإجراء الذي سيحقق أكبر عائد على المدى الطويل ، بدلا من التعلم المباشر لاستراتيجية العمل نفسها.

التخمين الثاني يتعلق بإصدار OpenAI في مايو أنه يحل مشاكل الرياضيات من خلال “الإشراف على العملية” بدلا من “الإشراف على النتائج”.

ومع ذلك ، لا تظهر أسماء جاكوب باتشوكي وسزيمون سيدور في قائمة المساهمين في هذه الدراسة.

هناك أيضا تكهنات بأن نعوم براون ، “والد ديبو الذكاء الاصطناعي” الذي انضم إلى OpenAI في يوليو ، قد يشارك أيضا في المشروع.

عندما انضم ، قال إنه يريد تعميم الأساليب التي كانت تنطبق فقط على الألعاب ، وأن هذا المنطق قد يكون أبطأ 1000 مرة وأكثر تكلفة ، ولكنه قد يكتشف عقاقير جديدة أو يثبت التخمينات الرياضية.

إنه يتماشى مع الأوصاف المشاع عن “تتطلب موارد حوسبة ضخمة” و “القدرة على حل بعض المشكلات الرياضية”.

في حين أن المزيد من التكهنات لا تزال جارية ، فإن ما إذا كانت البيانات التركيبية والتعلم المعزز يمكن أن تأخذ الذكاء الاصطناعي إلى المستوى التالي أصبحت واحدة من أكثر الموضوعات التي نوقشت في الصناعة.

يعتقد عالم Nvidia Fan Linxi أن البيانات الاصطناعية ستوفر تريليونات من رموز التدريب عالية الجودة ، والسؤال الرئيسي هو كيفية الحفاظ على الجودة وتجنب الوقوع في الاختناقات قبل الأوان.

يوافق ماسك على ذلك ، مشيرا إلى أن كل كتاب كتبه إنسان يمكن وضعه على محرك أقراص ثابت ، وستكون البيانات التركيبية أبعد من ذلك بكثير.

لكن LeCun، أحد الثلاثي الحائزين على جائزة تورينج، يجادل بأن المزيد من البيانات التركيبية هو إجراء مؤقت، وأن الذكاء الاصطناعي سيحتاجون في النهاية إلى التعلم باستخدام القليل جدا من البيانات، تماما مثل البشر أو.

قال كاميرون آر وولف ، دكتوراه في جامعة رايس ، إن Q-Learning قد لا يكون سر فتح AGI.

لكن الجمع بين “البيانات الاصطناعية” و “خوارزميات التعلم المعزز الموفرة للبيانات” قد يكون المفتاح لتطوير نموذج البحث الذكاء الاصطناعي الحالي.

وقال إن الضبط الدقيق من خلال التعلم المعزز هو سر تدريب النماذج الكبيرة عالية الأداء ، مثل ChatGPT / GPT-4. ومع ذلك ، فإن التعلم المعزز غير فعال بطبيعته من حيث البيانات ، ومن المكلف للغاية ضبط التعلم المعزز باستخدام مجموعات البيانات المصنفة يدويا من قبل البشر. مع وضع ذلك في الاعتبار ، فإن تطوير أبحاث الذكاء الاصطناعي (على الأقل في النموذج الحالي) سيعتمد بشكل كبير على هدفين أساسيين:

  • جعل التعلم المعزز يعمل بشكل أفضل مع بيانات أقل.
  • توليف وتوليد بيانات عالية الجودة باستخدام نماذج كبيرة وكمية صغيرة من البيانات المشروحة يدويا كلما أمكن ذلك.

… إذا التزمنا بالتنبؤ بنموذج الرمز المميز التالي (أي > SFT -> RLHF المدرب مسبقا) باستخدام محول وحدة فك التشفير فقط … إن الجمع بين هاتين الطريقتين سيتيح للجميع الوصول إلى تقنيات التدريب المتطورة ، وليس فقط فرق البحث التي لديها الكثير من المال!

شيء آخر

لم يستجب أحد داخل OpenAI حتى الآن لرسالة Q.

لكن ألتمان كشف للتو أنه أجرى بضع ساعات من المحادثة الودية مع مؤسس Quora آدم دانجيلو ، الذي ظل في مجلس الإدارة.

يبدو أن ما إذا كان آدم دانجيلو وراء الحادث أم لا ، كما تكهن الجميع ، قد توصل الآن إلى تسوية.

الروابط المرجعية:
[1]
[2]
[3]
[4]
[5]
[6]

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت