أحدث إصدار من Grok قام بإسقاط بعض الأرقام المثيرة للاهتمام. النسخة 4.1 السريعة مع قدرات التفكير حققت 93.5 على معيار Extended NYT Connections - وهذا قفز بمقدار 1.4 نقطة عن سابقتها التي كانت 92.1.
ما الذي لفت الانتباه؟ وضع المعيار ( غير المنطقي ) شهد أيضًا مكاسب، حيث ارتفع إلى 25.8. لا إعلانات بارزة، فقط تم إصدار مقاييس الأداء المحدثة بهدوء.
للسياق، هذه المعايير تختبر نماذج اللغة على مهام التعرف على الأنماط المعقدة. تشير تحسينات وضع التفكير إلى تحسين المعالجة المنطقية، بينما يشير ترقية النموذج الأساسي إلى تحسينات عامة في الهيكل.
تحديثات الإصدار مثل هذه تعكس عادةً تحسينات تدريب تكرارية بدلاً من إعادة تصميم أساسية. ومع ذلك، تشير المكاسب المستمرة عبر كلا الوضعين إلى تقدم ذي مغزى في قدرات النموذج.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 12
أعجبني
12
2
إعادة النشر
مشاركة
تعليق
0/400
TheShibaWhisperer
· منذ 15 س
هل تم التحديث بشكل غير ملحوظ مرة أخرى؟ أسلوب Grok يبدو ماكرًا، الأرقام يمكن رؤيتها لكن لا توجد أخبار مثيرة للاهتمام🤔
أحدث إصدار من Grok قام بإسقاط بعض الأرقام المثيرة للاهتمام. النسخة 4.1 السريعة مع قدرات التفكير حققت 93.5 على معيار Extended NYT Connections - وهذا قفز بمقدار 1.4 نقطة عن سابقتها التي كانت 92.1.
ما الذي لفت الانتباه؟ وضع المعيار ( غير المنطقي ) شهد أيضًا مكاسب، حيث ارتفع إلى 25.8. لا إعلانات بارزة، فقط تم إصدار مقاييس الأداء المحدثة بهدوء.
للسياق، هذه المعايير تختبر نماذج اللغة على مهام التعرف على الأنماط المعقدة. تشير تحسينات وضع التفكير إلى تحسين المعالجة المنطقية، بينما يشير ترقية النموذج الأساسي إلى تحسينات عامة في الهيكل.
تحديثات الإصدار مثل هذه تعكس عادةً تحسينات تدريب تكرارية بدلاً من إعادة تصميم أساسية. ومع ذلك، تشير المكاسب المستمرة عبر كلا الوضعين إلى تقدم ذي مغزى في قدرات النموذج.