دعني أكون صريحًا: أنا لست ضد التحليل المفصل. ما يزعجني هو عدم الاتساق.
تظهر هذه المعامل درجات GPQA من 0 إلى 100، ثم تتحول فجأة إلى مقاييس أخرى عند تقديم معايير SWE. وهم يختارون بعناية النماذج التي يقارنون بها.
أفهم أن الأمر مدفوع بالتسويق. لكن لا يزال. إن عدم وجود تقييم موحد يقوض المصداقية. إذا كنت تحدد المعايير، فعلى الأقل حافظ على اتساق المنهجية عبر الاختبارات المختلفة.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 11
أعجبني
11
5
إعادة النشر
مشاركة
تعليق
0/400
YieldWhisperer
· 11-29 10:37
بصراحة، هذا هو "الكذب بالبيانات" النموذجي، مجرد تغيير المؤشر يمكن أن يغير النتائج، حقاً محبط.
شاهد النسخة الأصليةرد0
NervousFingers
· 11-29 08:34
nah هذا الفخ حقًا يمكنك قياسه كما تشاء... لحظة GPQA ولحظة SWE، من الغريب أن تتطابق البيانات
شاهد النسخة الأصليةرد0
LeekCutter
· 11-26 16:52
أمسك الدجاج، تغيير المقياس يعني تغيير القصة، أنا أعرف هذا الفخ جيدًا
شاهد النسخة الأصليةرد0
RealYieldWizard
· 11-26 16:41
بصراحة، مع هذا المعيار التقييمي الذي يتغير بشكل عشوائي، من الصعب حقًا الثقة في هذه البيانات...
شاهد النسخة الأصليةرد0
MysteryBoxAddict
· 11-26 16:40
هذا غير معقول، هل تعتقد أنه يمكنك خداع الناس بتغيير المؤشر؟
دعني أكون صريحًا: أنا لست ضد التحليل المفصل. ما يزعجني هو عدم الاتساق.
تظهر هذه المعامل درجات GPQA من 0 إلى 100، ثم تتحول فجأة إلى مقاييس أخرى عند تقديم معايير SWE. وهم يختارون بعناية النماذج التي يقارنون بها.
أفهم أن الأمر مدفوع بالتسويق. لكن لا يزال. إن عدم وجود تقييم موحد يقوض المصداقية. إذا كنت تحدد المعايير، فعلى الأقل حافظ على اتساق المنهجية عبر الاختبارات المختلفة.