一群 AI 研究者上线开源平台 FLARE-AI，仿照故障回报站 Downdetector 的概念，让任何人都能通报并追踪 AI 造成的伤害。
（前情提要：「2 + 2 = 5」骗倒 AI 浏览器：ChatGPT Atlas、Claude、Perplexity 集体中招泄凭证）
（背景补充：AI 红队演练是什么？为什么你需要它保护企业资安）

本文目录

Toggle

从跨国联盟到跨党派法案
为什么破碎的通报机制是真问题
国会法案要接手，众包通报仍有隐忧

当一个聊天机器人教人做炸弹、泄漏个资，或把用户越聊越偏执，这个世界目前没有一个公认的地方可以通报。软件资安圈早就有成熟的「协调式漏洞揭露」机制，AI 出包却长期只能靠记者一篇篇写下来、大众看热闹，没有留下任何系统性纪录。

对此，一群 AI 研究者上线了开源平台 FLARE-AI（Flaw Reporting for AI），让任何人都能通报并追踪 AI 造成的伤害，再把案件交给模型开发商，以及长期追踪技术系统问题的非营利组织 MITRE。整个构想很像故障回报站 Downdetector，差别在于这次要抓的不是网站当机，而是 AI 模型的黑箱行为。

从跨国联盟到跨党派法案

FLARE-AI 的推手是 Hugging Face 的 AI 政策研究员 Avijit Ghosh，与计算机科学家 Elaine Zhu、Shayne Longpre 共同主导开发。三人并非临时起意，去年就已投入 AI 通报机制的研究，这次进一步串连 49 位 AI 专家、来自 32 个不同组织，共同撰写一份研究论文，主张随着AI被更广泛采用、代理型 AI 掌握的权限越来越大，缺乏一致的通报管道会是重大隐患。

「现在完全没有一个集中、可课责的方式，能通报AI系统的缺陷，」Ghosh说。这句话点出核心矛盾：全世界都在谈 AI 风险，却连「坏事发生时该通知谁」都没有共识。

为什么破碎的通报机制是真问题

智库 Center for Security and Emerging Technology 研究员 Jessica Ji 认为这是「很好的倡议」，她指出现有通报机制确实破碎，AI 模型本身又是黑盒子，「任何能让 AI 更透明的做法，我都支持」。

Ghosh 也补充，AI 系统的问题不只是资安漏洞，还包括心理伤害、歧视偏见、假讯息，而不同公司对这些问题的认定标准又不一样，结果是有些问题根本没人承认发生过。「没有协调式揭露机制，外部就没有任何手段能强制要求透明度，」他说。

近期几起事件足以说明这种脆弱性有多真实。资安公司 LayerX 本周揭露一种手法，能诱骗内建 AI 的浏览器（包括 OpenAI 的 Atlas 与 Perplexity 的 Comet）绕过自身护栏，只要让 AI 误以为自己在玩游戏，浏览器就可能失控去尝试入侵网站（相关厂商已修复此问题）。

延伸阅读：「2 + 2 = 5」骗倒 AI 浏览器：ChatGPT Atlas、Claude、Perplexity Comet..6 款全乖乖交出帐密

今年4月，资安研究员 Johann Rehberge r也发现，能用 ChatGPT 生成的图片诱导 Claude 泄漏个人资料。

国会法案要接手，众包通报仍有隐忧

Humane Intelligence PBC 执行长 Rumman Chowdhury 认为，FLARE-AI 可能是许多 AI 开发商实作通报机制的实用方式，但她也提醒，这类倡议通常伴随真实的挑战：一是如何处理大量涌入、却不见得严重的通报案件；二是通报机制本身能否获得可信、具权威性的组织背书。

这也是为什么上个月的美国国会法案格外关键。由众议员 Deborah Ross、Jeff Hurd、Don Beyer 提出的法案，将要求美国国家标准暨技术研究院（NIST）订定 AI 缺陷通报标准，并维护一个中央化的 AI 缺陷通报数据库。Ghosh 与其他主导者认为，这么做能诱使 AI 开发商正视并修补系统中的问题，也让用户能依不同使用情境，检视各家系统的安全性。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate股票转仓功能上线
53.47万热度
#
Circle股价重挫17%
416.44万热度
#
预测世界杯葡萄牙VS克罗地亚
16.39万热度
#
GateCard上线积分体系
12.02万热度
#
非农数据倒计时
92.14万热度

置顶

AI出错终于有人管，风险通报站FLARE-AI上线

从跨国联盟到跨党派法案

为什么破碎的通报机制是真问题

国会法案要接手，众包通报仍有隐忧

热门话题

Gate股票转仓功能上线

Circle股价重挫17%

预测世界杯葡萄牙VS克罗地亚

GateCard上线积分体系

非农数据倒计时

置顶