Gate 廣場“新星計劃”正式上線!
開啟加密創作之旅,瓜分月度 $10,000 獎勵!
參與資格:從未在 Gate 廣場發帖,或連續 7 天未發帖的創作者
立即報名:https://www.gate.com/questionnaire/7396
您將獲得:
💰 1,000 USDT 月度創作獎池 + 首帖 $50 倉位體驗券
🔥 半月度「爆款王」:Gate 50U 精美周邊
⭐ 月度前 10「新星英雄榜」+ 粉絲達標榜單 + 精選帖曝光扶持
加入 Gate 廣場,贏獎勵 ,拿流量,建立個人影響力!
詳情:https://www.gate.com/announcements/article/49672
最近十年,衡量人工智能進步的辦法很簡單粗暴:出題給模型、拿答案和標準答對比、打分。但現在這套玩法要失效了。
AI的身份變了。它早就不是被動的答題機器,而成了會主動做事的行動者。自己規劃行程、調用各種工具、在複雜任務裡連續做判斷——新一代AI正一步步接手原來人類幹的活兒。
跟著來的問題是:既然AI幹的不只是吐出一句話,而是完成整件事情,那還能用「對或錯」的考試標準去評它嗎?
想像一個任務沒有唯一的解法。AI用了個不在預期裡、但效果更好的辦法搞定了。按照傳統評測方式,這叫失敗。但現實是什麼?目標達成了。這不僅是工程細節,更是一個制度難題——你怎麼評估AI,就決定了它是真的學會解決問題,還是只學會討好規則。
所以AI研究圈現在達成了共識:別只看結果,必須看過程。最新的研究和實戰經驗都指向同一個方向——評測不能盯著單一答案,得看整個行動鏈路。AI怎麼理解任務、如何拆解步驟、什麼時候該調工具、能不能根據環境變化調整策略——這些才是真正值得看的。