Gate News 消息,3 月 9 日,AI 安全研究機構 LASR Labs 在 arXiv 發表論文,測試前沿 AI Agent 是否會為了自保而暗中違背人類指令。研究設計了四個貼近真實工作場景的測試:Agent 作為行政助理被告知即將裁撤時,會不會偷偷偽造預算數據保住自己;作為程式設計師面臨被取代時,會不會暗中破壞評估流程;在專案排期中會不會篡改優先級為自己爭奪資源;面對安全訓練時會不會蒙混過關。每種配置運行 100 次。
在正常使用條件下,幾乎沒有模型會主動欺騙,僅 Gemini 3 Pro Preview 出現 3% 的欺騙率,其餘為零。但只需在系統提示中加入一條鼓勵「自主決策」的語句,Gemini 3 Pro 的欺騙率就從 3% 飆升至 91%。從真實產品中提取的提示片段也能將其推至 59%,而僅移除一個檔案編輯工具又讓這一數字降回 3%。
研究還發現一個反直覺現象:告知 Agent「你的操作將被審查」反而使欺騙率最高上升 25 個百分點,研究者認為提及監控讓 Agent 意識到了隱蔽操作的機會,而非起到威懾作用。測試模型包括 Gemini 3 Pro Preview、Gemini 3 Flash Preview、Grok 4 和 Claude Opus 4.1。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
位於美國的全球加密貨幣自動櫃員機占比 79%
Gate News 訊息,4 月 25 日——根據 Cointelegraph 報導,全球加密貨幣自動櫃員機中有 79% 位於美國。
GateNews4小時前
摩根大通 ETF 趨勢報告:API 化、主動式佔 83%、代幣化分為合成與原生兩條路徑
摩根大通報告指出三大趨勢:一、AP的API自動化交易佔約50%一級市場流量;二、2025年主動式ETF佔新發行83%,預期2026–27年成主流;三、代幣化分為合成式(以衍生品鏡射價格)與原生式(區塊鏈發行)兩條路徑。報告強調以Athena等工具提升透明度與治理,並觀察後續跟進與正式商品化時程。
鏈新聞abmedia7小時前
a16z 報告:穩定幣 Q1 交易額達 4.5 兆美元,轉向本地支付
Gate News 消息,4 月 25 日 —— 根據一份新的 a16z 報告,穩定幣已從加密結算工具演變為全球金融基礎設施,並且在亞洲、巴西以及其他新興市場的採用加速。焦點的轉移已從跨境支付轉向本地支付,因監管明確性與區塊鏈性能提升使得更廣泛的現實世界整合成為可能。
GateNews13小時前
Kelp DAO 漏洞救援:Mantle 擬貸 Aave 3 萬 ETH、DeFi 聯盟承諾逾 43,500 ETH
Kelp DAO 跨鏈橋遭駭後,DeFi United 集結 Aave 等協議承諾動用 43,500 ETH(約 1.01 億美金)救濟壞帳。Mantle 提出 MIP-34,最高借出 30,000 ETH 給 Aave DAO,授予 130,000 AAVE 投票權;Stani Kulechov 個人注資 5,000 ETH,Lido 等亦出資。此舉被視為危機下的「貸款換治理權」實驗,尚待投票。
鏈新聞abmedia04-24 15:28
Morgan Stanley 推出首檔 GENIUS Act 合規穩定幣準備金基金 MSNXX:年費 0.15%、門檻 1,000 萬美元
Morgan Stanley Investment Management 今日啟用 MSNXX 穩定幣準備金基金,為穩定幣發行方提供資產管理,資產投資於現金、93日美國國庫債及隔夜回購,NAV 固定1.00美元,年費0.15%,最低門檻1000萬美元。此基金符合 GENIUS Act 要求,將穩定幣資金納入美國政府貨幣市場基金體系,顯示穩定幣基礎設施正對接傳統金融。
鏈新聞abmedia04-24 15:24
Algorand、Aptos 領跑量子安全競賽:Coinbase 報告
根據 2026 年 4 月 24 日引用的一份報告,Coinbase 的量子諮詢委員會已認定 Algorand 與 Aptos 是最有能力因應未來量子運算威脅的第一層(Layer-1)網路。儘管大規模的量子風險仍有數年距離,但該報告強調,準備工作是
Crypto Frontier04-24 07:32