Physical Intelligence 引入 MEM 架構,賦予機器人執行現實世界任務所需的記憶能力

簡要介紹

研究人員開發了多尺度具身記憶(Multi-Scale Embodied Memory,MEM)系統,為機器人提供短期與長期記憶,使其能追蹤進展並完成複雜任務,而不僅僅是執行孤立的動作。

Physical Intelligence Introduces MEM Architecture To Give Robots The Memory Needed For Real-World Tasks

多年來,真正有用的家庭機器人夢想一直看似觸手可及。機器人已能遵循指令如「洗平底鍋」、「摺衣服」或「做三明治」。在實驗室環境中,這些系統展現出令人印象深刻的靈巧與精確。然而,儘管機器人基礎模型快速進步,卻缺少一個根本元素:記憶。

能執行單一任務的機器人,並不等同於能完成整個工作流程的機器人。清理整個廚房、烹飪一餐或準備食材,這些都超越了孤立技能的範疇。它們需要連貫性——能記住已完成的步驟、仍需完成的任務,以及所有物品的位置。沒有這樣的敘事線,即使是最有能力的機器人,也會變得令人驚訝的無能。

這正是物理智能(Physical Intelligence)研究人員目前試圖解決的挑戰,透過一個名為多尺度具身記憶(MEM)的新架構——一個旨在賦予機器人短期與長期記憶的系統,使其能執行持續數分鐘而非數秒的任務。

結果暗示了一個重要的事實:未來的機器人或許較依賴更好的機械手臂,更應著重於更優秀的認知架構。

現代機器人模型已擁有豐富的運動技能庫。它們能抓取脆弱物品、操控工具、穿梭雜亂環境。但當你要求一台機器人打掃整個廚房——擦拭櫃台、收拾雜貨、洗碗、整理餐具——限制便立刻顯現。

問題不在技能本身,而在於這些技能的協調。複雜任務需要持續的意識。機器人必須記得已打開的櫥櫃、放置鍋蓋的位置,或是否已洗過碗。它還必須追蹤視線外的物品,並在執行新動作時維持環境的心智地圖。

人類的認知能輕鬆做到這點。直到最近,機器幾乎無法做到。存儲每個觀察到的資訊數分鐘或數小時,在計算上是不可行的。但丟棄這些資訊,又會導致行為混亂——重複錯誤、遺忘步驟或做出與先前決策矛盾的行動。在機器人研究中,這個挑戰有時被稱為「因果混淆」(causal confusion),即系統誤解過去事件,並強化錯誤行為。

結果是:在短暫演示中看似令人印象深刻的機器人,卻難以完成真實世界的任務。

物理智能的記憶系統

MEM架構通過引入多層次的記憶結構來解決這個問題。它不將所有資訊一視同仁,而是將記憶分為兩種互補的形式:

短期視覺記憶,利用高效的影片編碼架構捕捉近期觀察。這讓機器人能理解運動、追蹤物體在幀間的變化,並記住幾秒前發生的事件——對於像翻轉烤麵包或擦洗碗碟這樣的精細動作至關重要。

長期概念記憶則以自然語言存儲任務進展。它不會無限期存放原始視覺資料,而是讓機器人寫下簡短的文字“筆記”,描述已發生的事情——如「我將鍋子放進水槽」或「我從冰箱取出了牛奶」。

這些摘要成為機器人推理過程的一部分。實際上,系統會建立自己的任務敘事。推理引擎同時決定:下一步要執行什麼動作,以及哪些資訊值得記憶。這種組合使模型能追蹤長達十五分鐘的任務——遠超過以往大多數機器人演示的時間。

MEM帶來的其中一個最令人著迷的能力,是情境內適應(in-context adaptation)。機器人會犯錯,這是不可避免的。但大多數系統會無限重複這些錯誤,因為它們沒有失敗的記憶。

在簡單的實驗中,差異變得明顯。一個測試中,機器人試圖用平底筷子夾取物品。沒有記憶,機器人會反覆嘗試同樣失敗的握持方式。有了記憶,機器人會記住失敗的嘗試,並嘗試不同的方法——最終成功。

另一個例子是打開冰箱。僅憑視覺資料,機器人無法立即判斷門的開啟方向。沒有記憶的系統會一再重複同樣的動作。具備記憶的機器人會嘗試一個方向,記住失敗,然後改用相反的方向。

這些微調代表著一個深遠的突破:在任務中學習的能力。它不再完全依賴訓練資料,而是能即時調整。

研究人員在越來越複雜的任務上評估了這個記憶系統。首先是一個較簡單的挑戰:製作烤起司三明治。這需要短期記憶來管理時間,並執行細膩的物理步驟,如翻轉麵包和擺盤。

接著是一個物流任務:取回食譜所需的食材。機器人必須記得已收集的物品、它們的位置,以及抽屜和櫥櫃是否已關閉。最後是最具挑戰性的場景:清理整個廚房。

這包括收拾物品、洗碗、擦拭櫃檯,並追蹤已清潔的區域。

這個記憶增強模型明顯優於沒有結構化記憶的版本,展現出更高的可靠性與任務完成率。

這一差異彰顯了機器人學的一個關鍵轉變。研究人員不再只追求孤立動作的優化,而是打造能持續運作的系統。

為何記憶是機器人領域的下一個前沿

MEM的更廣泛意義在於,機器人正進入一個新階段。數十年來,該領域專注於感知與控制:幫助機器看見世界、操控物體。近期,大型多模態模型大幅提升了機器人理解指令與執行複雜運動的能力。

但隨著這些能力日益成熟,瓶頸也逐漸浮現。下一個挑戰是認知連續性——讓機器人能在較長時間內運作而不失去目標。像MEM這樣的記憶系統,為這種連續性提供了支撐。機器人不再是瞬間反應,而是能維持內部敘事,記錄行動、決策與環境。這個敘事正是複雜行為得以產生的關鍵。

如果這種方法持續演進,其影響將遠超清理廚房。未來的機器人或許能理解持續數小時甚至數天的指令。想像對家庭助理說:

「我晚上六點到家——請準備晚餐並在星期三打掃房子。」

執行這樣的請求,將需要解析長指令、規劃子任務、記錄進度,並在出錯時調整。

長時間維持每個動作的原始影片記錄,幾乎不可能。相反,機器人可能會依賴層級式記憶系統,將經驗壓縮成越來越抽象的表徵。

MEM是邁向該架構的早期步伐。它暗示,讓機器人更強大的關鍵,可能不在於更強的馬達或更敏銳的感測器,而在於更好的記憶——以及對記憶的推理能力。如果機器人終於能記住自己在做什麼,它們也終將能完成任務。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
  • 熱門 Gate Fun

    查看更多
  • 市值:$0.1持有人數:2
    0.00%
  • 市值:$2491.38持有人數:2
    0.00%
  • 市值:$2455.17持有人數:1
    0.00%
  • 市值:$0.1持有人數:1
    0.00%
  • 市值:$2458.62持有人數:1
    0.00%