AI出错终于有人管,风险通报站FLARE-AI上线

一群 AI 研究者上线开源平台 FLARE-AI,仿照故障回报站 Downdetector 的概念,让任何人都能通报并追踪 AI 造成的伤害。
(前情提要:「2 + 2 = 5」骗倒 AI 浏览器:ChatGPT Atlas、Claude、Perplexity 集体中招泄凭证)
(背景补充:AI 红队演练是什么?为什么你需要它保护企业资安)

本文目录

Toggle

  • 从跨国联盟到跨党派法案
  • 为什么破碎的通报机制是真问题
  • 国会法案要接手,众包通报仍有隐忧

当一个聊天机器人教人做炸弹、泄漏个资,或把用户越聊越偏执,这个世界目前没有一个公认的地方可以通报。软件资安圈早就有成熟的「协调式漏洞揭露」机制,AI 出包却长期只能靠记者一篇篇写下来、大众看热闹,没有留下任何系统性纪录。

对此,一群 AI 研究者上线了开源平台 FLARE-AI(Flaw Reporting for AI),让任何人都能通报并追踪 AI 造成的伤害,再把案件交给模型开发商,以及长期追踪技术系统问题的非营利组织 MITRE。整个构想很像故障回报站 Downdetector,差别在于这次要抓的不是网站当机,而是 AI 模型的黑箱行为。

从跨国联盟到跨党派法案

FLARE-AI 的推手是 Hugging Face 的 AI 政策研究员 Avijit Ghosh,与计算机科学家 Elaine Zhu、Shayne Longpre 共同主导开发。三人并非临时起意,去年就已投入 AI 通报机制的研究,这次进一步串连 49 位 AI 专家、来自 32 个不同组织,共同撰写一份研究论文,主张随着AI被更广泛采用、代理型 AI 掌握的权限越来越大,缺乏一致的通报管道会是重大隐患。

「现在完全没有一个集中、可课责的方式,能通报AI系统的缺陷,」Ghosh说。这句话点出核心矛盾:全世界都在谈 AI 风险,却连「坏事发生时该通知谁」都没有共识。

为什么破碎的通报机制是真问题

智库 Center for Security and Emerging Technology 研究员 Jessica Ji 认为这是「很好的倡议」,她指出现有通报机制确实破碎,AI 模型本身又是黑盒子,「任何能让 AI 更透明的做法,我都支持」。

Ghosh 也补充,AI 系统的问题不只是资安漏洞,还包括心理伤害、歧视偏见、假讯息,而不同公司对这些问题的认定标准又不一样,结果是有些问题根本没人承认发生过。「没有协调式揭露机制,外部就没有任何手段能强制要求透明度,」他说。

近期几起事件足以说明这种脆弱性有多真实。资安公司 LayerX 本周揭露一种手法,能诱骗内建 AI 的浏览器(包括 OpenAI 的 Atlas 与 Perplexity 的 Comet)绕过自身护栏,只要让 AI 误以为自己在玩游戏,浏览器就可能失控去尝试入侵网站(相关厂商已修复此问题)。

延伸阅读:「2 + 2 = 5」骗倒 AI 浏览器:ChatGPT Atlas、Claude、Perplexity Comet..6 款全乖乖交出帐密

今年4月,资安研究员 Johann Rehberge r也发现,能用 ChatGPT 生成的图片诱导 Claude 泄漏个人资料。

国会法案要接手,众包通报仍有隐忧

Humane Intelligence PBC 执行长 Rumman Chowdhury 认为,FLARE-AI 可能是许多 AI 开发商实作通报机制的实用方式,但她也提醒,这类倡议通常伴随真实的挑战:一是如何处理大量涌入、却不见得严重的通报案件;二是通报机制本身能否获得可信、具权威性的组织背书。

这也是为什么上个月的美国国会法案格外关键。由众议员 Deborah Ross、Jeff Hurd、Don Beyer 提出的法案,将要求美国国家标准暨技术研究院(NIST)订定 AI 缺陷通报标准,并维护一个中央化的 AI 缺陷通报数据库。Ghosh 与其他主导者认为,这么做能诱使 AI 开发商正视并修补系统中的问题,也让用户能依不同使用情境,检视各家系统的安全性。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论