Quét để tải ứng dụng Gate
qrCode
Thêm tùy chọn tải xuống
Không cần nhắc lại hôm nay

Hãy để tôi nói thẳng: Tôi không phản đối phân tích chi tiết. Điều làm tôi khó chịu là sự không nhất quán.



Các phòng thí nghiệm này trình bày điểm số GPQA từ 0 đến 100, sau đó đột ngột chuyển đổi chỉ số khi trình bày các tiêu chuẩn SWE. Và họ chọn lọc những mô hình nào để so sánh.

Tôi hiểu rằng điều này được thúc đẩy bởi marketing. Nhưng vẫn vậy. Việc thiếu đánh giá tiêu chuẩn làm suy yếu độ tin cậy. Nếu bạn đang thiết lập các tiêu chí, ít nhất hãy giữ cho phương pháp nhất quán giữa các bài kiểm tra khác nhau.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 5
  • Đăng lại
  • Retweed
Bình luận
0/400
YieldWhisperervip
· 11-29 10:37
Nói thật, đây chính là kiểu "nói dối bằng số liệu", chỉ cần thay đổi chỉ số là có thể thay đổi kết quả, thật sự làm người ta nản lòng.
Xem bản gốcTrả lời0
NervousFingersvip
· 11-29 08:34
nah hệ thống đánh giá này thật sự muốn đo lường như thế nào thì đo lường như thế đó... một lúc thì GPQA, một lúc thì SWE, dữ liệu mà khớp nhau thì lạ.
Xem bản gốcTrả lời0
LeekCuttervip
· 11-26 16:52
Bẫy gà à, đổi một thước đo thì đổi một câu chuyện, tôi quá quen với cái chiêu này rồi.
Xem bản gốcTrả lời0
RealYieldWizardvip
· 11-26 16:41
ngl, thật sự rất khó để tin tưởng vào những dữ liệu này khi tiêu chí đánh giá cứ thay đổi linh tinh như vậy...
Xem bản gốcTrả lời0
MysteryBoxAddictvip
· 11-26 16:40
Điều này thật vô lý, chỉ đổi một chỉ số mà muốn lừa người khác?
Xem bản gốcTrả lời0
  • Gate Fun hotXem thêm
  • Vốn hóa:$0.1Người nắm giữ:1
    0.00%
  • Vốn hóa:$3.55KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$3.72KNgười nắm giữ:2
    0.51%
  • Vốn hóa:$3.64KNgười nắm giữ:2
    0.00%
  • Vốn hóa:$3.54KNgười nắm giữ:1
    0.00%
  • Ghim