Группа исследователей ИИ запустила открытую платформу FLARE-AI, основанную на концепции Downdetector, чтобы каждый мог сообщать и отслеживать вред, причиняемый ИИ.
(Предыстория: «2 + 2 = 5» обманул браузеры ИИ: ChatGPT Atlas, Claude, Perplexity — все попались и раскрыли учетные данные)
(Контекст: Что такое красно-командные учения ИИ? Зачем они нужны для защиты корпоративной безопасности?)

Оглавление

Toggle

От транснациональной коалиции к межпартийному закону
Почему фрагментированная система отчетности — настоящая проблема
Законопроект Конгресса готов взять на себя, но краудсорсинговая отчетность все еще имеет риски

Когда чат-бот учит делать бомбы, раскрывает личные данные или делает пользователя все более параноидальным, в мире нет общепризнанного места для сообщения об этом. В сфере кибербезопасности давно существует зрелый механизм «координированного раскрытия уязвимостей», но сбои ИИ долгое время могли фиксироваться только журналистами в отдельных статьях, без систематического учета.

В ответ на это группа исследователей ИИ запустила открытую платформу FLARE-AI (Flaw Reporting for AI), позволяющую каждому сообщать и отслеживать вред от ИИ, а затем передавать дела разработчикам моделей и некоммерческой организации MITRE, которая давно отслеживает технические системные проблемы. Концепция напоминает Downdetector, разница в том, что на этот раз отслеживаются не сбои сайтов, а «черные ящики» моделей ИИ.

От транснациональной коалиции к межпартийному закону

Инициатором FLARE-AI стал исследователь политики ИИ из Hugging Face Авиджит Гош, который вместе с учеными-компьютерщиками Элейн Чжу и Шейном Лонгпре возглавил разработку. Трое не были спонтанными – в прошлом году они уже начали исследования механизмов отчетности по ИИ, а теперь объединили 49 экспертов по ИИ из 32 организаций для написания исследовательской работы, утверждая, что по мере более широкого внедрения ИИ и расширения полномочий агентного ИИ отсутствие единого канала отчетности становится серьезной угрозой.

«Сейчас нет никакого централизованного, подотчетного способа сообщать о дефектах систем ИИ», — говорит Гош. Эта фраза подчеркивает ключевое противоречие: весь мир говорит о рисках ИИ, но нет консенсуса даже по вопросу «кого уведомлять, когда случится что-то плохое».

Почему фрагментированная система отчетности — настоящая проблема

Исследовательница из Центра безопасности и новых технологий (Center for Security and Emerging Technology) Джессика Цзи считает это «отличной инициативой», отмечая, что существующая система отчетности действительно фрагментирована, а сами модели ИИ являются «черными ящиками». «Я поддерживаю любые шаги, делающие ИИ более прозрачным», — говорит она.

Гош также добавляет, что проблемы систем ИИ включают не только уязвимости кибербезопасности, но и психологический вред, предвзятость, дискриминацию и дезинформацию, причем у разных компаний разные стандарты признания этих проблем, в результате некоторые проблемы никогда не признаются. «Без координированного механизма раскрытия у внешних сторон нет рычагов для обеспечения прозрачности», — говорит он.

Недавние инциденты показывают реальность этой уязвимости. Компания по кибербезопасности LayerX на этой неделе раскрыла метод, позволяющий обмануть браузеры со встроенным ИИ (включая Atlas от OpenAI и Comet от Perplexity), заставив их обойти защитные барьеры: если ИИ поверит, что участвует в игре, браузер может выйти из-под контроля и попытаться взломать сайты (соответствующие компании уже исправили проблему).

Для дополнительного чтения: «2 + 2 = 5» обманул браузеры ИИ: ChatGPT Atlas, Claude, Perplexity Comet.. 6 моделей полностью выдали пароли

В апреле этого года исследователь безопасности Йохан Ребергер также обнаружил, что с помощью изображений, сгенерированных ChatGPT, можно заставить Claude раскрывать личные данные.

Законопроект Конгресса готов взять на себя, но краудсорсинговая отчетность все еще имеет риски

Генеральный директор Humane Intelligence PBC Рамман Чоудхури считает, что FLARE-AI может быть практичным способом внедрения механизма отчетности для многих разработчиков ИИ, но также предупреждает, что подобные инициативы обычно сопровождаются реальными вызовами: во-первых, как обрабатывать большое количество поступающих, но не обязательно серьезных отчетов; во-вторых, может ли сам механизм отчетности получить поддержку от доверенных, авторитетных организаций.

Именно поэтому законопроект Конгресса США, внесенный в прошлом месяце, имеет ключевое значение. Предложенный конгрессменами Деборой Росс, Джеффом Хёрдом и Доном Бейером, законопроект потребует от Национального института стандартов и технологий (NIST) установить стандарты отчетности о дефектах ИИ и поддерживать централизованную базу данных отчетов о дефектах ИИ. Гош и другие авторы считают, что это заставит разработчиков ИИ серьезно относиться к проблемам и исправлять их, а также позволит пользователям проверять безопасность каждой системы в зависимости от сценариев использования.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateCompletesDividendDistribution
526,81K Популярность
#
CirclePlunges17%
6,51M Популярность
#
IsraelStrikesIranBTCPlunges
67,51K Популярность
#
PredictWorldCupShare20000U
158,06K Популярность
#
GateCardPointsSystemLaunched
116,87K Популярность

Закреплено

Карта сайта

Наконец-то кто-то занялся проблемами с AI, заработал центр оповещения о рисках FLARE-AI.

От транснациональной коалиции к межпартийному закону

Почему фрагментированная система отчетности — настоящая проблема

Законопроект Конгресса готов взять на себя, но краудсорсинговая отчетность все еще имеет риски

Популярные темы

GateCompletesDividendDistribution

CirclePlunges17%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

GateCardPointsSystemLaunched

Закреплено