Quỹ ARC Prize đã công bố bộ dữ liệu thể hiện khả năng của con người ARC-AGI-3, bao gồm kết quả kiểm tra của 458 người tham gia trong 135 môi trường suy luận trừu tượng không có hướng dẫn chơi. Tất cả các môi trường đều được con người vượt qua, và chứng minh rằng AGI vẫn chưa đạt được. Đồng thời, quỹ đã điều chỉnh quy tắc chấm điểm để điểm của con người và AI đều tăng nhẹ.

MeNews

2026-04-15 06:22:49

Đang tạo bản tóm tắt

Thông tin từ ME News, ngày 15 tháng 4 (UTC+8), theo theo dõi của Động Chấn Beating, Quỹ ARC Prize đã công bố bộ dữ liệu hiệu suất của con người trong ARC-AGI-3, đây là nghiên cứu thử nghiệm lớn nhất từ trước đến nay trong loạt ARC-AGI, với tổng cộng 458 người tham gia. Bộ dữ liệu gồm 342 bản ghi lại toàn bộ các thao tác của con người, bao gồm 25 môi trường công khai, đã được mở mã nguồn hoàn toàn. ARC-AGI-3 bao gồm 135 môi trường suy luận trừu tượng, người thử nghiệm không nhận bất kỳ hướng dẫn chơi nào, buộc phải tự khám phá, suy luận quy tắc và xây dựng chiến lược. Các bài kiểm tra diễn ra tại trung tâm thử nghiệm trực tiếp ở San Francisco, mỗi lượt kéo dài 90 phút, người tham gia nhận khoảng 130 USD tiền lương cơ bản cộng 5 USD thưởng cho mỗi môi trường vượt qua. Tất cả các bài kiểm tra đều theo điều kiện “vượt qua lần đầu tiên”, nghĩa là mỗi người chỉ xem một lần, chỉ thử một lần, nhằm đo lường khả năng học hỏi và thích nghi khi đối mặt với vấn đề mới hoàn toàn. Con người và AI đều có thông tin hoàn toàn giống nhau, không có sự chênh lệch về thông tin. Kết luận chính: Tất cả các môi trường trong ARC-AGI-3 đều được con người vượt qua, mỗi môi trường ít nhất có hai người tham gia độc lập hoàn thành, đa số môi trường có hơn năm người vượt qua. Quỹ ARC Prize cho biết “Chúng tôi vẫn chưa đạt được AGI, bộ dữ liệu này chính là bằng chứng”. Kể từ khi ra mắt trước xem trước của ARC-AGI-3, gần 1 triệu bài đánh giá AI đã được gửi đến từ các môi trường công khai. Dựa trên dữ liệu này, quỹ cũng công bố hai điều chỉnh về quy tắc chấm điểm: thứ nhất, thay đổi tiêu chuẩn đánh giá con người từ “người chơi thứ hai tốt nhất” thành “người chơi trung vị”, nhằm giảm ảnh hưởng của may mắn đến điểm số; thứ hai, nâng giới hạn điểm tối đa cho mỗi lượt từ 100% lên 115%, để tránh việc hiệu suất kém trong một lượt làm giảm điểm tổng thể. Hiệu quả ròng của hai điều chỉnh này là điểm của con người và AI đều tăng nhẹ khoảng 0,5 điểm phần trăm. (Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GatePreIPOsLaunchesWithSpaceX
183.75K Phổ biến
#
Gate13thAnniversaryLive
592.29K Phổ biến
#
IsraelStrikesIranBTCPlunges
29.99K Phổ biến
#
AltcoinsRallyStrong
7.31M Phổ biến
#
AnthropicvsOpenAIHeatsUp
1.06M Phổ biến

Ghim

sơ đồ trang web

ARC-AGI-3 công bố thử nghiệm lớn nhất trong lịch sử về con người: tất cả các cấp độ đều bị con người chinh phục, AI vẫn còn khoảng cách

Chủ đề thịnh hành

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

IsraelStrikesIranBTCPlunges

AltcoinsRallyStrong

AnthropicvsOpenAIHeatsUp

Ghim