Секретний R&D, «загрозливий людству», кодове ім'я викликало паніку у всій мережі?Що таке Q* OpenAI?

巴比特_

2023-11-26 09:03:09

Джерело статті: GenAI New World

Автор: Мяо Чжен

Джерело зображення: Створено Unbounded AI

Давайте відкладемо в сторону Polar Smash Bros. в керівництві OpenAI і поговоримо про останні чутки про цю компанію - Q*. 22 листопада OpenAI надіслала співробітникам внутрішній лист, в якому визнала Q і описала проєкт як «автономну систему за межами людей». Це дуже страшно.

Хоча OpenAI офіційно не оприлюднила жодної новини про Q*, ми все ще маємо можливість зрозуміти це поверхово.

Перш за все, першим кроком є розуміння вимови Q*, офіційна назва Q-Star, що перекладається як Q-Star. Так, ви правильно прочитали, хоча в глибокому навчанні блоки вирішуються множенням, але в Q* “*” означає не множення, а “зірочку”. Буква «**Q» позначає очікувану винагороду за дію в навчанні з підкріпленням. **

У сфері штучного інтелекту все, що має хоч якесь відношення до Q з великої літери, по суті, є навчанням Q. Q-навчання можна розглядати як різновид навчання з підкріпленням, засноване на поточних критеріях оцінки, що відноситься до способу в процесі навчання, до способу запису історичної цінності винагороди навчання, підказуючи агенту, як вибрати наступний крок, щоб він був таким же, як і найвище історичне значення винагороди. Однак, будь ласка, зверніть увагу, що історичне максимальне значення винагороди не відображає максимальне значення винагороди моделі, воно може бути, а може і не бути, і воно може навіть не досягти. Іншими словами, Q-навчання і агенти схожі на відносини між аналітиком і тренером команди. Тренер відповідає за тренування команди, а аналітик використовується для допомоги тренеру.

У процесі навчання з підкріпленням вихідні рішення агента повертаються назад в навколишнє середовище для отримання значень винагороди. Q-навчання, з іншого боку, фіксує лише цінність винагороди, тому йому не потрібно моделювати середовище, що еквівалентно «хороші результати, все добре».

Однак, дивлячись на це з цієї точки зору, здається, що Q-навчання не таке хороше, як моделі глибокого навчання, які зазвичай використовуються в штучному інтелекті, особливо великі моделі. З мільярдами і десятками мільярдів параметрів, подібних до нинішнього, навчання Q не тільки не допомагає моделі, але й збільшує складність і, таким чином, знижує надійність.

Не хвилюйтеся, це пов’язано з тим, що сама ідея, що лежить в основі вищезгаданого навчання Q, є лише базовою концепцією, яка народилася в 1989 році. **

У 2013 році DeepMind запустив алгоритм під назвою Deep Q Learning, покращивши Q-навчання, найхарактернішою рисою якого є використання відтворення досвіду, вибірки з кількох результатів у минулому, а потім використання Q-навчання, щоб покращити стабільність моделі та зменшити розбіжність напрямку навчання моделі через певний результат.

Однак, по правді кажучи, є причина, чому ця концепція не стала популярною, і з практичної точки зору, найбільшою роллю глибокого навчання Q в академічному співтоваристві став розвиток DQN.

DQN відноситься до мережі Deep Q, яка народилася з глибокого Q-навчання. Ідея DQN точно така ж, як і у Q-навчання, але процес знаходження максимального значення винагороди в Q-навчанні реалізується нейронними мережами. Раптом це стало модним.

DQN генерує лише один вузол одночасно. При цьому DQN формує чергу з пріоритетом, а потім зберігає в черзі пріоритетів вузли, що залишилися, і предків дій. Очевидно, що одного вузла точно недостатньо, і якщо весь процес є лише одним вузлом, остаточне рішення має бути до смішного неправильним. Коли вузол і предок дії видаляються з черги, новий вузол буде згенерований на основі асоціації, що дія застосовується до вже згенерованого вузла, і так далі.

Люди, які трохи знають про історію штучного інтелекту, відчують, що чим більше вони дивляться на нього, тим більш знайомими вони стають, хіба це не висококласна версія Фрейда, яка просить довжину сторони?

У сучасних комп’ютерах основним принципом, який використовується процесорами, є алгоритм Фрейда, який використовується для знаходження найкоротшого шляху між двома точками шляхом порівняння його з історичним оптимумом. Призначення пам’яті полягає в тому, щоб зберігати обчислення в пріоритетному порядку, і кожен раз, коли процесор завершує обчислення, пам’ять передає наступні обчислення процесору.

DQN по суті те ж саме.

По суті, це те, що означає Q, так що ж означає *?

**Судячи з аналізу багатьох інсайдерів галузі, дуже ймовірно, що * відноситься до алгоритму А*. **

Це евристика. Не поспішаючи вдаватися в те, що таке евристика, дозвольте мені розповісти вам анекдот:

А запитує В: «Швидко знайти добуток 1928749189571*1982379176», а Б тут же відповідає: «32». Коли я це почула, то здивувалася, що при множенні двох чисел такого великого числа відповідь не може бути двозначною. Б запитав А: «Ти скажеш, що це швидко?»

Це здається обурливим, але евристика однакова.

Його суть полягає в оцінці, і ви можете вибрати тільки одне між ефективністю і позитивним рішенням. Або він дуже ефективний, але іноді неправильний, або дуже точний, а іноді займає багато часу. Алгоритм A* спочатку використовує евристичний алгоритм для оцінки приблизного значення, яке, ймовірно, сильно відхиляється від правильного розв’язку. Після того, як оцінка завершена, цикл починає проходити, і якщо немає можливості його розв’язати, він переоцінюється до тих пір, поки не почне з’являтися розв’язок. Це повторюється, щоб, нарешті, прийти до найкращого рішення.

Хоча найкраще рішення можна отримати, А* є другим типом, згаданим вище, і відповідь правильна, і це займає багато часу. Можна помістити його в лабораторне середовище, але якщо цей алгоритм розмістити на персональному пристрої, це може спричинити переповнення пам’яті та спричинити системні проблеми, такі як сині екрани.

Таким чином, це обмеження робить алгоритм A* часто застосовуваним до деяких менш складних моделей у минулому, найбільш типовим є пошук шляху персонажа в онлайн-іграх. У деяких великих іграх момент, коли персонаж починає шукати шлях, це відбувається через алгоритм A*.

Загалом, поточний консенсус у колі штучного інтелекту полягає в тому, що**Алгоритм Q*, згаданий у внутрішньому листі OpenAI, ймовірно, є комбінацією Q-навчання та A, тобто економії обчислювальної потужності, економії пам’яті та отримання найкращого рішення – тому що він не завжди може витрачати більше обчислювальної потужності та витрачати пам’ять, і, нарешті, не може отримати найкраще рішення!

І так само, як OpenAI нарешті створила базову модель, вона також існувала довгий час і навіть ігнорувалася людьми протягом деякого часу, поки OpenAI не відкрила свій потенціал заново за допомогою конкретних та інноваційних методів. Сьогодні у людей, природно, є підстави вважати, що у двох давніх алгоритмічних ідеях Q і A, OpenAI може повторити старі трюки і знову творити чудеса - звичайно, шкода, яку це диво може принести людству, також змусила більше людей хвилюватися через нещодавній фарс OpenAI.

Тому, повертаючись до цього алгоритму, Q*, швидше за все, скористається Q-навчанням для швидкого знаходження значення майже оптимального рішення, а потім використає алгоритм A* для його розв’язання на невеликій площі, усуваючи безліч безглуздих обчислювальних процесів, щоб швидко знайти найкращий розв’язок. Але що саме збирається робити OpenAI, доведеться дочекатися публічного паперу (якщо він зможе почекати).

Поява **Q* насправді показує проблему, і провідні компанії штучного інтелекту усвідомлюють, що процес вирішення в нинішньому розвитку штучного інтелекту є більш осмисленим, ніж розв’язання. Тому що зараз тільки гонитва за правильністю відповіді вже не може задовольнити потреби людей у штучному інтелекті. Наприклад, на OpenCompass, навіть якщо середня різниця в балах становить 10 або 20 балів, якщо подивитися на точність розуміння, немає великого розриву між найкращою моделлю та найгіршою моделлю.

На тлі спекуляцій і паніки, одне з тверджень про Q полягає в тому, що Q може розв’язувати дуже складні математичні задачі. Ендрю Рогоскі, директор Інституту штучного інтелекту, орієнтованого на людину Суррея, сказав: «Ми знаємо, що існуючий штучний інтелект показав, що здатний виконувати математику на рівні бакалаврату, але не здатний вирішувати більш складні математичні проблеми. Але Q*, швидше за все, використовується для розв’язування складних математичних задач. "Можливо, коли Q* вийде, ви зможете перевірити його гіпотезу Гольдбаха. Математика вважається однією з найбільших кристалізацій людської мудрості, тому Q* – це лише кодове ім’я, яке викликало паніку в Інтернеті.

А за Q* також пов’язана місія OpenAI – тобто дослідження штучного загального інтелекту (AGI) і навіть суперінтелекту. OpenAI визначає AGI як автономну систему, яка перевершує людину в найбільш економічно цінних завданнях, а Q* – це крок до AGI від OpenAI.

На даний момент OpenAI не прокоментувала Q і внутрішній витік листів, але у мене змішані почуття. Я радий, що Q* має потужні можливості, і розвиток штучного інтелекту піде далі. У той же час я також переживав, що трюк Q* був більшим за реальність, і врешті-решт результати тестів були саме такими в день їх оприлюднення, що змусило мене отримати ляпаса.

Переглянути оригінал

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Прокоментувати

0/400

Немає коментарів