Physical Intelligence 引入 MEM 架構，賦予機器人執行現實世界任務所需的記憶能力

Mpost Media Group

2026-03-05 14:49:19

簡要介紹

研究人員開發了多尺度具身記憶（Multi-Scale Embodied Memory，MEM）系統，為機器人提供短期與長期記憶，使其能追蹤進展並完成複雜任務，而不僅僅是執行孤立的動作。

多年來，真正有用的家庭機器人夢想一直看似觸手可及。機器人已能遵循指令如「洗平底鍋」、「摺衣服」或「做三明治」。在實驗室環境中，這些系統展現出令人印象深刻的靈巧與精確。然而，儘管機器人基礎模型快速進步，卻缺少一個根本元素：記憶。

能執行單一任務的機器人，並不等同於能完成整個工作流程的機器人。清理整個廚房、烹飪一餐或準備食材，這些都超越了孤立技能的範疇。它們需要連貫性——能記住已完成的步驟、仍需完成的任務，以及所有物品的位置。沒有這樣的敘事線，即使是最有能力的機器人，也會變得令人驚訝的無能。

這正是物理智能（Physical Intelligence）研究人員目前試圖解決的挑戰，透過一個名為多尺度具身記憶（MEM）的新架構——一個旨在賦予機器人短期與長期記憶的系統，使其能執行持續數分鐘而非數秒的任務。

結果暗示了一個重要的事實：未來的機器人或許較依賴更好的機械手臂，更應著重於更優秀的認知架構。

現代機器人模型已擁有豐富的運動技能庫。它們能抓取脆弱物品、操控工具、穿梭雜亂環境。但當你要求一台機器人打掃整個廚房——擦拭櫃台、收拾雜貨、洗碗、整理餐具——限制便立刻顯現。

問題不在技能本身，而在於這些技能的協調。複雜任務需要持續的意識。機器人必須記得已打開的櫥櫃、放置鍋蓋的位置，或是否已洗過碗。它還必須追蹤視線外的物品，並在執行新動作時維持環境的心智地圖。

人類的認知能輕鬆做到這點。直到最近，機器幾乎無法做到。存儲每個觀察到的資訊數分鐘或數小時，在計算上是不可行的。但丟棄這些資訊，又會導致行為混亂——重複錯誤、遺忘步驟或做出與先前決策矛盾的行動。在機器人研究中，這個挑戰有時被稱為「因果混淆」（causal confusion），即系統誤解過去事件，並強化錯誤行為。

結果是：在短暫演示中看似令人印象深刻的機器人，卻難以完成真實世界的任務。

物理智能的記憶系統

MEM架構通過引入多層次的記憶結構來解決這個問題。它不將所有資訊一視同仁，而是將記憶分為兩種互補的形式：

短期視覺記憶，利用高效的影片編碼架構捕捉近期觀察。這讓機器人能理解運動、追蹤物體在幀間的變化，並記住幾秒前發生的事件——對於像翻轉烤麵包或擦洗碗碟這樣的精細動作至關重要。

長期概念記憶則以自然語言存儲任務進展。它不會無限期存放原始視覺資料，而是讓機器人寫下簡短的文字“筆記”，描述已發生的事情——如「我將鍋子放進水槽」或「我從冰箱取出了牛奶」。

這些摘要成為機器人推理過程的一部分。實際上，系統會建立自己的任務敘事。推理引擎同時決定：下一步要執行什麼動作，以及哪些資訊值得記憶。這種組合使模型能追蹤長達十五分鐘的任務——遠超過以往大多數機器人演示的時間。

MEM帶來的其中一個最令人著迷的能力，是情境內適應（in-context adaptation）。機器人會犯錯，這是不可避免的。但大多數系統會無限重複這些錯誤，因為它們沒有失敗的記憶。

在簡單的實驗中，差異變得明顯。一個測試中，機器人試圖用平底筷子夾取物品。沒有記憶，機器人會反覆嘗試同樣失敗的握持方式。有了記憶，機器人會記住失敗的嘗試，並嘗試不同的方法——最終成功。

另一個例子是打開冰箱。僅憑視覺資料，機器人無法立即判斷門的開啟方向。沒有記憶的系統會一再重複同樣的動作。具備記憶的機器人會嘗試一個方向，記住失敗，然後改用相反的方向。

這些微調代表著一個深遠的突破：在任務中學習的能力。它不再完全依賴訓練資料，而是能即時調整。

研究人員在越來越複雜的任務上評估了這個記憶系統。首先是一個較簡單的挑戰：製作烤起司三明治。這需要短期記憶來管理時間，並執行細膩的物理步驟，如翻轉麵包和擺盤。

接著是一個物流任務：取回食譜所需的食材。機器人必須記得已收集的物品、它們的位置，以及抽屜和櫥櫃是否已關閉。最後是最具挑戰性的場景：清理整個廚房。

這包括收拾物品、洗碗、擦拭櫃檯，並追蹤已清潔的區域。

這個記憶增強模型明顯優於沒有結構化記憶的版本，展現出更高的可靠性與任務完成率。

這一差異彰顯了機器人學的一個關鍵轉變。研究人員不再只追求孤立動作的優化，而是打造能持續運作的系統。

為何記憶是機器人領域的下一個前沿

MEM的更廣泛意義在於，機器人正進入一個新階段。數十年來，該領域專注於感知與控制：幫助機器看見世界、操控物體。近期，大型多模態模型大幅提升了機器人理解指令與執行複雜運動的能力。

但隨著這些能力日益成熟，瓶頸也逐漸浮現。下一個挑戰是認知連續性——讓機器人能在較長時間內運作而不失去目標。像MEM這樣的記憶系統，為這種連續性提供了支撐。機器人不再是瞬間反應，而是能維持內部敘事，記錄行動、決策與環境。這個敘事正是複雜行為得以產生的關鍵。

如果這種方法持續演進，其影響將遠超清理廚房。未來的機器人或許能理解持續數小時甚至數天的指令。想像對家庭助理說：

「我晚上六點到家——請準備晚餐並在星期三打掃房子。」

執行這樣的請求，將需要解析長指令、規劃子任務、記錄進度，並在出錯時調整。

長時間維持每個動作的原始影片記錄，幾乎不可能。相反，機器人可能會依賴層級式記憶系統，將經驗壓縮成越來越抽象的表徵。

MEM是邁向該架構的早期步伐。它暗示，讓機器人更強大的關鍵，可能不在於更強的馬達或更敏銳的感測器，而在於更好的記憶——以及對記憶的推理能力。如果機器人終於能記住自己在做什麼，它們也終將能完成任務。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
按讚
留言
轉發
分享

留言

0/400

暫無留言

熱門話題
查看更多
#
GateforAI重磅上線
985.02萬熱度
#
加密市場小幅下跌
460.71萬熱度
#
黃金白銀走高
1.08萬熱度
#
美伊局勢影響
19.63萬熱度
#
AI板塊逆勢上漲
14.76萬熱度

熱門 Gate Fun
查看更多

1
PI
PI
市值:$0.1持有人數:2
0.00%
2
Ayan
ARGT
市值:$2491.38持有人數:2
0.00%
3
π
zaicheng
市值:$2455.17持有人數:1
0.00%
4
SJZ
三角洲
市值:$0.1持有人數:1
0.00%
5
£
low
市值:$2458.62持有人數:1
0.00%

Physical Intelligence 引入 MEM 架構，賦予機器人執行現實世界任務所需的記憶能力

物理智能的記憶系統

為何記憶是機器人領域的下一個前沿

熱門話題

GateforAI重磅上線

加密市場小幅下跌

黃金白銀走高

美伊局勢影響

AI板塊逆勢上漲

熱門 Gate Fun

PI

PI

Ayan

ARGT

π

zaicheng

SJZ

三角洲

£

low

置頂