ARC-AGI-3 công bố thử nghiệm lớn nhất trong lịch sử về con người: tất cả các cấp độ đều bị con người chinh phục, AI vẫn còn khoảng cách

robot
Đang tạo bản tóm tắt

Thông tin từ ME News, ngày 15 tháng 4 (UTC+8), theo theo dõi của Động Chấn Beating, Quỹ ARC Prize đã công bố bộ dữ liệu hiệu suất của con người trong ARC-AGI-3, đây là nghiên cứu thử nghiệm lớn nhất từ trước đến nay trong loạt ARC-AGI, với tổng cộng 458 người tham gia. Bộ dữ liệu gồm 342 bản ghi lại toàn bộ các thao tác của con người, bao gồm 25 môi trường công khai, đã được mở mã nguồn hoàn toàn. ARC-AGI-3 bao gồm 135 môi trường suy luận trừu tượng, người thử nghiệm không nhận bất kỳ hướng dẫn chơi nào, buộc phải tự khám phá, suy luận quy tắc và xây dựng chiến lược. Các bài kiểm tra diễn ra tại trung tâm thử nghiệm trực tiếp ở San Francisco, mỗi lượt kéo dài 90 phút, người tham gia nhận khoảng 130 USD tiền lương cơ bản cộng 5 USD thưởng cho mỗi môi trường vượt qua. Tất cả các bài kiểm tra đều theo điều kiện “vượt qua lần đầu tiên”, nghĩa là mỗi người chỉ xem một lần, chỉ thử một lần, nhằm đo lường khả năng học hỏi và thích nghi khi đối mặt với vấn đề mới hoàn toàn. Con người và AI đều có thông tin hoàn toàn giống nhau, không có sự chênh lệch về thông tin. Kết luận chính: Tất cả các môi trường trong ARC-AGI-3 đều được con người vượt qua, mỗi môi trường ít nhất có hai người tham gia độc lập hoàn thành, đa số môi trường có hơn năm người vượt qua. Quỹ ARC Prize cho biết “Chúng tôi vẫn chưa đạt được AGI, bộ dữ liệu này chính là bằng chứng”. Kể từ khi ra mắt trước xem trước của ARC-AGI-3, gần 1 triệu bài đánh giá AI đã được gửi đến từ các môi trường công khai. Dựa trên dữ liệu này, quỹ cũng công bố hai điều chỉnh về quy tắc chấm điểm: thứ nhất, thay đổi tiêu chuẩn đánh giá con người từ “người chơi thứ hai tốt nhất” thành “người chơi trung vị”, nhằm giảm ảnh hưởng của may mắn đến điểm số; thứ hai, nâng giới hạn điểm tối đa cho mỗi lượt từ 100% lên 115%, để tránh việc hiệu suất kém trong một lượt làm giảm điểm tổng thể. Hiệu quả ròng của hai điều chỉnh này là điểm của con người và AI đều tăng nhẹ khoảng 0,5 điểm phần trăm. (Nguồn: BlockBeats)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim