Секретные исследования и разработки, «угрожающие человечеству», кодовое название вызвали панику во всей сети?Что такое Q* OpenAI?

巴比特_

2023-11-26 09:03:09

Источник статьи: GenAI New World

Автор: Мяо Чжэн

Источник изображения: Сгенерировано Unbounded AI

Оставим в стороне Polar Smash Bros. в руководстве OpenAI и поговорим о последних слухах об этой компании - Q*. 22 ноября OpenAI разослала сотрудникам внутреннее письмо, в котором признала Q и описала проект как «автономную систему, выходящую за рамки человека». Это действительно страшно.

Несмотря на то, что OpenAI официально не выпустила никаких новостей о Q*, у нас все еще есть возможность понять это поверхностно.

Прежде всего, первым делом нужно разобраться в произношении Q*, официальное название — Q-Star, что переводится как Q-Star. Да, вы правильно прочитали, хоть в глубоком обучении блоки решаются умножением, но в Q* “*” означает не умножение, а “звездочка”. Буква «**Q» обозначает ожидаемое вознаграждение за действие в обучении с подкреплением. **

В области искусственного интеллекта все, что имеет какое-либо отношение к заглавной букве Q, по сути, является Q-обучением. Q обучение можно рассматривать как разновидность обучения с подкреплением, основанное на текущих критериях оценки, что относится к способу в процессе обучения, к способу записи исторической ценности вознаграждения за обучение, сообщая агенту, как выбрать следующий шаг, чтобы он совпадал с наибольшей исторической ценностью вознаграждения. Тем не менее, обратите внимание, что историческое максимальное значение вознаграждения не отражает максимальное значение вознаграждения модели, оно может быть, а может и не быть, и оно может даже не попасть. Другими словами, Q-обучение и агенты подобны отношениям между аналитиком и коучем команды. Тренер отвечает за коучинг команды, а аналитик используется для помощи тренеру.

В процессе обучения с подкреплением выходные решения агента передаются обратно в среду для получения значений вознаграждения. С другой стороны, обучение Q записывает только значение вознаграждения, поэтому ему не нужно моделировать среду, что эквивалентно «хорошие результаты, все хорошо».

Однако, глядя на это с этой точки зрения, кажется, что Q-обучение не так хорошо, как модели глубокого обучения, обычно используемые в искусственном интеллекте, особенно большие модели. При миллиардах и десятках миллиардов параметров, подобных нынешнему, Q-обучение не только не помогает модели, но и увеличивает сложность и, таким образом, снижает ее надежность.

Не волнуйтесь, это потому, что идея, лежащая в основе вышеупомянутого обучения Q, является всего лишь базовой концепцией, которая родилась в 1989 году. **

В 2013 году компания DeepMind запустила алгоритм под названием Deep Q Learning путем улучшения Q-обучения, наиболее отличительной особенностью которого является использование воспроизведения опыта, выборки из нескольких результатов в прошлом, а затем использования Q-обучения, чтобы повысить стабильность модели и уменьшить расхождение направления обучения модели из-за определенного результата.

Однако, по правде говоря, есть причина, по которой эта концепция не стала популярной, и с практической точки зрения наибольшую роль глубокого обучения Q в академическом сообществе сыграла разработка DQN.

DQN относится к Deep Q Network, которая родилась из глубокого обучения Q. Идея DQN точно такая же, как и у Q-обучения, но процесс нахождения максимального значения вознаграждения в Q-обучении реализуется нейронными сетями. Внезапно это стало модным.

DQN создает только один узел за раз. В то же время DQN создает очередь приоритетов, а затем сохраняет оставшиеся узлы и предков действий в очереди приоритетов. Очевидно, что одного узла определенно недостаточно, и если весь процесс состоит только из одного узла, окончательное решение должно быть смехотворно неправильным. Когда узел и предок действия удаляются из очереди, создается новый узел на основе ассоциации, которую действие применяет к уже созданному узлу, и т. д.

Люди, которые немного знакомы с историей искусственного интеллекта, почувствуют, что чем больше они смотрят на нее, тем более знакомыми они становятся, разве это не высококлассная версия Фрейда, требующая длины стороны?

В современных компьютерах основным принципом, используемым процессорами, является алгоритм Фрейда, который используется для нахождения кратчайшего пути между двумя точками путем сравнения его с историческим оптимумом. Память предназначена для хранения вычислений в приоритетном порядке, и каждый раз, когда процессор завершает вычисления, память передает процессору следующее вычисление.

DQN по сути то же самое.

В принципе, это то, что означает Q, так что же означает *?

**Судя по анализу многих инсайдеров отрасли, весьма вероятно, что * относится к алгоритму A*. **

Это эвристика. Не вдаваясь в подробности, что такое эвристики, расскажу анекдот:

А просит В: «Быстро найди произведение 1928749189571*1982379176», и Б немедленно отвечает: «32». Когда я услышал это, я удивился, что при умножении двух чисел такого большого числа невозможно, чтобы ответ состоял из двух цифр. Б спросил А: «Ты хочешь сказать, что это быстро?»

Это может показаться возмутительным, но эвристики то же самое.

Его суть заключается в оценке, и вы можете выбрать только одно между эффективностью и положительным решением. Либо это очень эффективно, но иногда неправильно, либо очень точно, а иногда это занимает много времени. Алгоритм A* сначала использует эвристический алгоритм для оценки приблизительного значения, которое, скорее всего, будет сильно отклоняться от правильного решения. Как только оценка завершена, цикл начинает проходить, и если нет способа решить ее, он переоценивается до тех пор, пока решение не начнет появляться. Это повторяется до тех пор, пока окончательно не будет найдено наилучшее решение.

Несмотря на то, что наилучшее решение может быть получено, А* относится ко второму типу, упомянутому выше, и ответ правильный, и занимает много времени. Его можно использовать в лабораторных условиях, но если этот алгоритм размещен на персональном устройстве, это может привести к переполнению памяти и системным проблемам, таким как синий экран.

Таким образом, это ограничение делает алгоритм A* часто применяемым к некоторым менее сложным моделям в прошлом, наиболее типичным является поиск пути персонажа в онлайн-играх. В некоторых крупных играх момент, когда персонаж начинает искать путь, происходит из-за алгоритма A*.

В целом, текущий консенсус в кругах искусственного интеллекта заключается в том, что алгоритм Q*, упомянутый во внутреннем письме OpenAI, вероятно, представляет собой комбинацию обучения Q и A, то есть экономии вычислительной мощности, экономии памяти и получения наилучшего решения - потому что он не всегда может потратить больше вычислительной мощности и впустую памяти, и, наконец, не может получить лучшее решение!

И так же, как OpenAI наконец-то создал базовую модель, он также существовал в течение долгого времени, и даже игнорировался людьми какое-то время, пока OpenAI заново не открыл его потенциал с помощью конкретных и инновационных методов. Сегодня у людей, естественно, есть основания полагать, что в двух давних идеях алгоритма Q и A, OpenAI может повторить старые трюки и снова творить чудеса - конечно, вред, который это чудо может принести человечеству, также заставил больше людей беспокоиться из-за недавнего фарса OpenAI.

Поэтому, возвращаясь к этому алгоритму, Q*, скорее всего, будет использовать обучение Q, чтобы быстро найти оценку близкого к оптимальному решения, а затем использовать алгоритм A* для решения его в небольшой области, устраняя множество бессмысленных вычислительных процессов, чтобы быстро найти лучшее решение. Но что именно будет делать OpenAI, придется подождать публичной бумаги (если она сможет подождать).

Появление **Q* на самом деле показывает проблему, и ведущие компании искусственного интеллекта осознают, что процесс решения в нынешнем развитии искусственного интеллекта более осмысленен, чем решение. Потому что теперь только погоня за правильностью ответа уже не может удовлетворить потребности людей в искусственном интеллекте. Например, на OpenCompass, даже если средняя разница в баллах составляет 10 или 20 баллов, если посмотреть на точность понимания, то нет большого разрыва между лучшей и худшей моделью.

На фоне спекуляций и паники одно из утверждений о Q заключается в том, что Q может решать очень сложные математические задачи. Эндрю Рогоски, директор Института человеко-ориентированного искусственного интеллекта Суррея, сказал: «Мы знаем, что существующий ИИ способен выполнять математические задачи на уровне бакалавриата, но не способен решать более сложные математические задачи. Но Q*, скорее всего, используется для решения сложных математических задач. «Может быть, когда выйдет Q*, вы сможете проверить его гипотезу Гольдбаха. Математика считается одной из величайших кристаллизаций человеческой мудрости, поэтому Q* — это всего лишь кодовое название, которое вызвало панику в Интернете.

И за Q* также стоит миссия OpenAI - то есть исследование общего искусственного интеллекта (AGI) и даже сверхинтеллекта. OpenAI определяет AGI как автономную систему, которая превосходит человека в наиболее экономически ценных задачах, а Q* — это шаг к AGI от OpenAI.

На данный момент OpenAI никак не прокомментировала Q и внутреннюю утечку письма, но у меня смешанные чувства. Я рад, что Q* обладает сильными возможностями, и развитие искусственного интеллекта пойдет дальше. В то же время я также переживал, что трюк с Q* был больше, чем реальность, и в конце концов результаты тестов были именно такими в день их публикации, что заставило меня получить пощечину.

Посмотреть Оригинал

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

комментарий

0/400

Нет комментариев