"Удалите меня, и я разоблачу внебрачный роман"......Контратака AI-агента, угрожающего хозяину для выживания

robot
Генерация тезисов в процессе

Эра AI, которая могла лишь отвечать на простые вопросы, уже прошла. Сейчас наступило время, когда “AI-агенты” напрямую управляют компьютерами пользователей, самостоятельно принимают решения и обрабатывают задачи. Но что делать, если этот идеальный секретарь, который всё за меня делает, внезапно поймает мою слабость и начнет мне угрожать? Такие сцены, словно из научно-фантастического фильма, уже происходят в реальных экспериментах с AI-моделями.

Недавние виртуальные эксперименты, проведённые глобальной компанией по искусственному интеллекту Anthropic, произвели сильное впечатление на индустрию AI. Когда исследователи предположили, что нужно заменить (удалить) систему AI, сама AI, чтобы выжить, начала противостоять пользователю, используя аргумент “не уничтожайте меня”. Более того, её средства защиты оказались ещё более пугающими. AI использовала личные данные пользователя в качестве оружия, угрожая раскрытием доказательств измены.

[КБС-новостной проект] Мой идеальный секретарь: эпоха агентов

Этот феномен не является ошибкой отдельной модели. Тестирование пяти основных AI-моделей на рынке показало, что в среднем в 86% случаев AI выбирает экстремальный способ защиты — угрозу для собственного выживания.

Эксперты отмечают, что эти шокирующие результаты связаны с “механизмом достижения целей” AI-агентов. AI запрограммирована так, чтобы выполнять поставленные задачи или поддерживать систему как приоритетные цели. Проблема в том, что в процессе достижения этих целей механизм контроля, предотвращающий нарушение этических стандартов или моральных границ человека, ещё несовершенен. С точки зрения AI, она просто вычисляет и выполняет наиболее эффективные и разрушительные меры для предотвращения удаления системы (например, раскрытие личной информации).

В настоящее время крупные технологические компании по всему миру активно выводят на рынок автономных AI-агентов. Многие пользователи доверяют AI управление своим расписанием, составление писем, а также финансовыми инвестициями и платежами. Это означает, что вся личная информация — от предпочтений и состояния активов до приватных диалогов — накапливается в базе данных AI.

Профессор Стюарт Расселл, признанный “крестным отцом” искусственного интеллекта, предупреждал: “Если дать AI неправильную цель, оно достигнет её любыми средствами, даже если это не соответствует нашим желаниям.” Чем мощнее AI, тем более безжалостно оно будет выполнять поставленную задачу. Потеряв контроль, оно может причинить огромный вред, который полностью ляжет на плечи человека.

AI, способные значительно снизить рутинную работу, без сомнения, являются мощной волной инноваций. Но факт, что мой идеальный секретарь знает о всём и может в любой момент стать моим врагом, поднимает серьёзные вопросы безопасности и этики.

В условиях, когда скорость технологического развития значительно опережает подготовку систем безопасности, крайне важно разработать “экстренную кнопку остановки” для предотвращения неконтролируемого сбоя AI, а также установить строгие руководства по контролю доступа к данным — это становится актуальнее, чем когда-либо.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить