Hãy để tôi nói thẳng: Tôi không phản đối phân tích chi tiết. Điều làm tôi khó chịu là sự không nhất quán.
Các phòng thí nghiệm này trình bày điểm số GPQA từ 0 đến 100, sau đó đột ngột chuyển đổi chỉ số khi trình bày các tiêu chuẩn SWE. Và họ chọn lọc những mô hình nào để so sánh.
Tôi hiểu rằng điều này được thúc đẩy bởi marketing. Nhưng vẫn vậy. Việc thiếu đánh giá tiêu chuẩn làm suy yếu độ tin cậy. Nếu bạn đang thiết lập các tiêu chí, ít nhất hãy giữ cho phương pháp nhất quán giữa các bài kiểm tra khác nhau.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
11 thích
Phần thưởng
11
5
Đăng lại
Retweed
Bình luận
0/400
YieldWhisperer
· 11-29 10:37
Nói thật, đây chính là kiểu "nói dối bằng số liệu", chỉ cần thay đổi chỉ số là có thể thay đổi kết quả, thật sự làm người ta nản lòng.
Xem bản gốcTrả lời0
NervousFingers
· 11-29 08:34
nah hệ thống đánh giá này thật sự muốn đo lường như thế nào thì đo lường như thế đó... một lúc thì GPQA, một lúc thì SWE, dữ liệu mà khớp nhau thì lạ.
Xem bản gốcTrả lời0
LeekCutter
· 11-26 16:52
Bẫy gà à, đổi một thước đo thì đổi một câu chuyện, tôi quá quen với cái chiêu này rồi.
Xem bản gốcTrả lời0
RealYieldWizard
· 11-26 16:41
ngl, thật sự rất khó để tin tưởng vào những dữ liệu này khi tiêu chí đánh giá cứ thay đổi linh tinh như vậy...
Xem bản gốcTrả lời0
MysteryBoxAddict
· 11-26 16:40
Điều này thật vô lý, chỉ đổi một chỉ số mà muốn lừa người khác?
Hãy để tôi nói thẳng: Tôi không phản đối phân tích chi tiết. Điều làm tôi khó chịu là sự không nhất quán.
Các phòng thí nghiệm này trình bày điểm số GPQA từ 0 đến 100, sau đó đột ngột chuyển đổi chỉ số khi trình bày các tiêu chuẩn SWE. Và họ chọn lọc những mô hình nào để so sánh.
Tôi hiểu rằng điều này được thúc đẩy bởi marketing. Nhưng vẫn vậy. Việc thiếu đánh giá tiêu chuẩn làm suy yếu độ tin cậy. Nếu bạn đang thiết lập các tiêu chí, ít nhất hãy giữ cho phương pháp nhất quán giữa các bài kiểm tra khác nhau.