Gate 廣場|3/5 今日話題: #比特币创下近一月新高
🎁 解讀行情走勢,抽 5 位錦鯉送出 $2,500 仓位體驗券!
隨著白宮表示已向參議院提交凱文·沃什擔任美聯儲主席的提名,美國參議院未通過叫停特朗普打擊伊朗的投票,比特幣於今日凌晨創下 2 月 5 日以來新高,最高觸及 74,050 美元,加密貨幣總市值回升突破 2.538 萬億美元。
💬 本期熱議:
1️⃣ 凱文·沃什的提名是否意味著降息預期升溫?
2️⃣ 當前關口,你是持幣待漲、順勢追多,還是反手布局回調?
分享觀點,瓜分好禮 👉️ https://www.gate.com/post
📅 3/6 15:00 - 3/8 12:00 (UTC+8)
Physical Intelligence 引入 MEM 架構,賦予機器人執行現實世界任務所需的記憶能力
簡要介紹
研究人員開發了多尺度具身記憶(Multi-Scale Embodied Memory,MEM)系統,為機器人提供短期與長期記憶,使其能追蹤進展並完成複雜任務,而不僅僅是執行孤立的動作。
多年來,真正有用的家庭機器人夢想一直看似觸手可及。機器人已能遵循指令如「洗平底鍋」、「摺衣服」或「做三明治」。在實驗室環境中,這些系統展現出令人印象深刻的靈巧與精確。然而,儘管機器人基礎模型快速進步,卻缺少一個根本元素:記憶。
能執行單一任務的機器人,並不等同於能完成整個工作流程的機器人。清理整個廚房、烹飪一餐或準備食材,這些都超越了孤立技能的範疇。它們需要連貫性——能記住已完成的步驟、仍需完成的任務,以及所有物品的位置。沒有這樣的敘事線,即使是最有能力的機器人,也會變得令人驚訝的無能。
這正是物理智能(Physical Intelligence)研究人員目前試圖解決的挑戰,透過一個名為多尺度具身記憶(MEM)的新架構——一個旨在賦予機器人短期與長期記憶的系統,使其能執行持續數分鐘而非數秒的任務。
結果暗示了一個重要的事實:未來的機器人或許較依賴更好的機械手臂,更應著重於更優秀的認知架構。
現代機器人模型已擁有豐富的運動技能庫。它們能抓取脆弱物品、操控工具、穿梭雜亂環境。但當你要求一台機器人打掃整個廚房——擦拭櫃台、收拾雜貨、洗碗、整理餐具——限制便立刻顯現。
人類的認知能輕鬆做到這點。直到最近,機器幾乎無法做到。存儲每個觀察到的資訊數分鐘或數小時,在計算上是不可行的。但丟棄這些資訊,又會導致行為混亂——重複錯誤、遺忘步驟或做出與先前決策矛盾的行動。在機器人研究中,這個挑戰有時被稱為「因果混淆」(causal confusion),即系統誤解過去事件,並強化錯誤行為。
結果是:在短暫演示中看似令人印象深刻的機器人,卻難以完成真實世界的任務。
物理智能的記憶系統
MEM架構通過引入多層次的記憶結構來解決這個問題。它不將所有資訊一視同仁,而是將記憶分為兩種互補的形式:
短期視覺記憶,利用高效的影片編碼架構捕捉近期觀察。這讓機器人能理解運動、追蹤物體在幀間的變化,並記住幾秒前發生的事件——對於像翻轉烤麵包或擦洗碗碟這樣的精細動作至關重要。
長期概念記憶則以自然語言存儲任務進展。它不會無限期存放原始視覺資料,而是讓機器人寫下簡短的文字“筆記”,描述已發生的事情——如「我將鍋子放進水槽」或「我從冰箱取出了牛奶」。
這些摘要成為機器人推理過程的一部分。實際上,系統會建立自己的任務敘事。推理引擎同時決定:下一步要執行什麼動作,以及哪些資訊值得記憶。這種組合使模型能追蹤長達十五分鐘的任務——遠超過以往大多數機器人演示的時間。
MEM帶來的其中一個最令人著迷的能力,是情境內適應(in-context adaptation)。機器人會犯錯,這是不可避免的。但大多數系統會無限重複這些錯誤,因為它們沒有失敗的記憶。
在簡單的實驗中,差異變得明顯。一個測試中,機器人試圖用平底筷子夾取物品。沒有記憶,機器人會反覆嘗試同樣失敗的握持方式。有了記憶,機器人會記住失敗的嘗試,並嘗試不同的方法——最終成功。
另一個例子是打開冰箱。僅憑視覺資料,機器人無法立即判斷門的開啟方向。沒有記憶的系統會一再重複同樣的動作。具備記憶的機器人會嘗試一個方向,記住失敗,然後改用相反的方向。
這些微調代表著一個深遠的突破:在任務中學習的能力。它不再完全依賴訓練資料,而是能即時調整。
研究人員在越來越複雜的任務上評估了這個記憶系統。首先是一個較簡單的挑戰:製作烤起司三明治。這需要短期記憶來管理時間,並執行細膩的物理步驟,如翻轉麵包和擺盤。
接著是一個物流任務:取回食譜所需的食材。機器人必須記得已收集的物品、它們的位置,以及抽屜和櫥櫃是否已關閉。最後是最具挑戰性的場景:清理整個廚房。
這包括收拾物品、洗碗、擦拭櫃檯,並追蹤已清潔的區域。
這個記憶增強模型明顯優於沒有結構化記憶的版本,展現出更高的可靠性與任務完成率。
這一差異彰顯了機器人學的一個關鍵轉變。研究人員不再只追求孤立動作的優化,而是打造能持續運作的系統。
為何記憶是機器人領域的下一個前沿
MEM的更廣泛意義在於,機器人正進入一個新階段。數十年來,該領域專注於感知與控制:幫助機器看見世界、操控物體。近期,大型多模態模型大幅提升了機器人理解指令與執行複雜運動的能力。
但隨著這些能力日益成熟,瓶頸也逐漸浮現。下一個挑戰是認知連續性——讓機器人能在較長時間內運作而不失去目標。像MEM這樣的記憶系統,為這種連續性提供了支撐。機器人不再是瞬間反應,而是能維持內部敘事,記錄行動、決策與環境。這個敘事正是複雜行為得以產生的關鍵。
如果這種方法持續演進,其影響將遠超清理廚房。未來的機器人或許能理解持續數小時甚至數天的指令。想像對家庭助理說:
「我晚上六點到家——請準備晚餐並在星期三打掃房子。」
執行這樣的請求,將需要解析長指令、規劃子任務、記錄進度,並在出錯時調整。
長時間維持每個動作的原始影片記錄,幾乎不可能。相反,機器人可能會依賴層級式記憶系統,將經驗壓縮成越來越抽象的表徵。
MEM是邁向該架構的早期步伐。它暗示,讓機器人更強大的關鍵,可能不在於更強的馬達或更敏銳的感測器,而在於更好的記憶——以及對記憶的推理能力。如果機器人終於能記住自己在做什麼,它們也終將能完成任務。