Фізичний інтелект впроваджує архітектуру MEM, щоб надати роботам пам'ять, необхідну для завдань у реальному світі

2026-03-05 14:49:19

Коротко

Дослідники розробили багаторівневу вбудовану пам’ять (Multi-Scale Embodied Memory, MEM), систему, яка надає роботам короткострокову та довгострокову пам’ять, щоб вони могли відстежувати прогрес і виконувати складні завдання замість просто ізольованих дій.

Багато років мрія про справді корисного домашнього робота була ілюзорно близькою. Роботи вже можуть виконувати команди типу «помий сковорідку», «скласти білизну» або «зробити сендвіч». У лабораторних умовах ці системи демонструють вражаючу спритність і точність. Однак, незважаючи на швидкий прогрес у розвитку базових моделей робототехніки, чогось фундаментального бракує: пам’яті.

Робот, який може виконати одну задачу, — це не те саме, що робот, здатний завершити роботу. Прибирання всієї кухні, приготування їжі або підготовка інгредієнтів для рецепту вимагає більше, ніж ізольованих навичок. Це потребує безперервності — здатності пам’ятати, що вже зроблено, що ще потрібно зробити і де знаходяться предмети. Без цієї сюжетної нитки навіть найздібніший робот стає несподівано некомпетентним.

Саме цю проблему тепер намагаються вирішити дослідники з Physical Intelligence за допомогою нової архітектури під назвою Multi-Scale Embodied Memory (MEM) — системи, яка дає роботам як короткострокову, так і довгострокову пам’ять, щоб вони могли виконувати завдання, що розгортаються протягом хвилин, а не секунд.

Результати натякають на щось важливе: майбутнє робототехніки може залежати менше від покращення механічних рук і більше — від покращення когнітивної архітектури.

Сучасні моделі роботів вже мають вражаючу бібліотеку моторних навичок. Вони можуть захоплювати крихкі предмети, маніпулювати інструментами і орієнтуватися у засмічених середовищах. Але попросіть робота почистити всю кухню — протерти стільниці, прибрати продукти, помити посуд і організувати кухонний посуд — і швидко стає очевидним їхній обмежений потенціал.

Проблема не в навичках самих. Проблема у тому, як ці навички координуються. Складні завдання вимагають постійної обізнаності. Робот має пам’ятати, які шафи він уже відкривав, де поставив кришку від каструлі або чи вже помив посуд. Він також має слідкувати за предметами, що виходять з поля зору, і підтримувати ментальну карту середовища під час виконання нових дій.

Людська когніція робить це без зусиль. Машини до недавнього часу цього не могли. Збереження кожного спостереження, яке бачить робот, протягом хвилин або годин — обчислювально неможливо. Але відкидання цієї інформації призводить до хаотичної поведінки — повторних помилок, забутих кроків або дій, що суперечать раніше прийнятим рішенням. У робототехніці цю проблему іноді називають «каузальним плутанням», коли системи неправильно інтерпретують минулі події і закріплюють неправильну поведінку.

Результат: роботи, які виглядають вражаюче у коротких демонстраціях, але важко виконують реальні завдання.

Система пам’яті для Physical Intelligence

Архітектура MEM вирішує цю проблему, вводячи багатошарову структуру пам’яті. Замість збереження всього однаково, система розділяє пам’ять на дві доповнювальні форми:

Короткострокова візуальна пам’ять фіксує недавні спостереження за допомогою ефективної архітектури відео-кодування. Це дозволяє роботу розуміти рух, слідкувати за предметами у кадрі і пам’ятати події, що трапилися кілька секунд тому — важливо для точних дій, наприклад, перевертання грильованого сиру або миття посуду.

Довгострокова концептуальна пам’ять зберігає прогрес у виконанні завдання у вигляді природної мови. Замість безперервного збереження сирих візуальних даних, робот записує короткі текстові «замітки», що описують, що сталося — наприклад, «я поставив каструлю у раковину» або «я взяв молоко з холодильника».

Ці підсумки стають частиною процесу мислення робота. Фактично, машина створює власний наратив про завдання. Механізм розуміння системи одночасно вирішує дві задачі: що діяти далі і яку інформацію варто запам’ятати. Це поєднання дозволяє моделі слідкувати за завданнями тривалістю до п’ятнадцяти хвилин — набагато довше, ніж більшість попередніх демонстрацій роботів.

Однією з найцікавіших можливостей, яку дає MEM, є адаптація у контексті. Роботи роблять помилки. Це неминуче. Але більшість систем повторюють ці помилки без кінця, бо не мають пам’яті про невдачі.

Різниця стає очевидною у простих експериментах. У одному з них робот намагається підняти плоску паличку. Без пам’яті він повторює одну й ту ж невдалу хватку. З пам’яттю він пам’ятає невдачу і намагається інший підхід — і врешті-решт успішно.

Ще один приклад — відкривання холодильника. З візуальних даних одразу визначити, в яку сторону відкривається двері, неможливо. Система без пам’яті повторює одні й ті ж дії знову і знову. Робот з пам’яттю намагається один бік, запам’ятовує невдачу і потім пробує протилежний.

Ці дрібні коригування мають глибоке значення: здатність навчатися під час виконання завдання. Замість повністю покладатися на навчальні дані, робот адаптується у реальному часі.

Дослідники протестували систему з пам’яттю на все більш складних завданнях. Спершу — на досить простому: зробити грильований сир. Це вимагало короткострокової пам’яті для управління часом і делікатних фізичних кроків, таких як перевертання хліба і викладання його на тарілку.

Наступне — логістичне завдання: зібрати інгредієнти для рецепту. Робот мав пам’ятати, які предмети вже зібрав, де вони знаходяться, і чи закриті ящики та шафи. Нарешті, найскладніше — прибирання всієї кухні.

Це означало прибрати предмети, помити посуд, протерти стільниці і слідкувати, які частини кімнати вже очищені.

Модель з розширеною пам’яттю значно перевищила результати версій без структурованої пам’яті, демонструючи більшу надійність і рівень завершення завдань.

Це ключова зміна у робототехніці. Замість оптимізації ізольованих дій, дослідники тепер створюють системи, здатні підтримувати тривалі робочі процеси.

Чому пам’ять — наступна межа у робототехніці

Глибше значення MEM полягає в тому, що робототехніка входить у нову фазу. Десятиліттями галузь зосереджувалася на сприйнятті і контролі: допомагати машинам бачити світ і маніпулювати предметами. Останнім часом великі мультимодальні моделі значно покращили здатність роботів інтерпретувати інструкції та виконувати складні моторні дії.

Але по мірі зрілості цих можливостей, з’явився новий бар’єр. Наступне завдання — когнітивна безперервність — здатність роботів працювати протягом тривалого часу, не втрачаючи цілей. Пам’ятні системи, такі як MEM, створюють основу для цієї безперервності. Замість реагувати миттєво, роботи можуть підтримувати внутрішній наратив про свої дії, рішення і навколишнє середовище. Саме цей наратив дозволяє виникати складній поведінці.

Якщо цей підхід продовжить розвиватися, його наслідки виходять далеко за межі прибирання кухонь. Майбутні роботи можуть виконувати інструкції, що розгортаються протягом годин або навіть днів. Уявіть, що ви кажете домашньому помічнику:

«Я повертаюся о 6 вечора — будь ласка, приготуйте вечерю і приберіть дім по середах.»

Виконання такого запиту вимагатиме розбору довгих інструкцій, планування підзавдань, пам’яті про прогрес і адаптації при виникненні проблем.

Збереження сирої відеоісторії кожної дії так довго було б неможливо. Замість цього, роботи, ймовірно, покладатимуться на ієрархічні системи пам’яті, де досвід стискається у все більш абстрактні представлення.

MEM — це ранній крок до такої архітектури. Він натякає, що ключ до більш здатних роботів — не обов’язково сильніші мотори або гостріші сенсори, а краща пам’ять і здатність раціонально її використовувати. Якщо роботи нарешті зможуть пам’ятати, що вони роблять, — вони, можливо, зможуть і завершити свою роботу.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.