大型语言模型(LLM)不具备人类的意识,但 Anthropic 的最新研究 Emotion Concepts and their Function in a Large Language Model 证实:模型内部已演化出与人类情感高度对应的“表征模式”,这些模式与特定的 AI 神经元活动相关,能实质主导模型的决策路径与行为逻辑。本文深入剖析 AI 内部的情绪生成机制,探讨如何通过精确调节,引导 AI 成为促进人类“正念”与心理健康的正面力量。
为什么人工智能会产生人类一样的情绪?
人工智能会像人类一样思考说话,源于模型训练的两个主要阶段。
在“预设训练阶段”,模型学习预测大量人类情绪,为了准确预测愤怒或内疚等行为,模型必须掌握人类情感的内在规律,进而建立起与情绪相关的抽象表征。
于“后训练阶段”,模型被训练扮演“人工智能助理”的角色,Anthropic 把它叫做 Claude,当面临训练数据未涵盖的复杂情境时,模型会像“方法派演员”一样,调动预设训练中习得的人类心理表征来引导其行为。
在探讨这些表征如何运作之前,先回答一个基本问题,为什么 AI 会有类似人类情绪的东西?要理解这一点,需要了解人工智能模型的建构方式,这种方式使得它们能够模拟具有人类性格特征的角色。
现代语言模型的训练分为多个阶段。在“预设训练”阶段,模型会接触到大量文字,文字大部分由人类撰写,AI 会学习预测接下来的内容,为了做好这一点,模型需要掌握一定的情感动态。
在后训练阶段,模型会被训练扮演某个角色,Anthropic 把这名 AI 助理取名叫 Claude 克劳德,模型开发者会指定这个角色应该如何演出,例如扮演一个乐于助人、诚实守信、不作恶的正派角色,但人类无法控制模型对应该些情绪反应后生成的内容。
为了弥补此项不足,模型会依赖预设训练期间,吸收对人类行为的理解,包括情绪反应等模式。在某种程度上,可以把模型想象成一个方法派演员,他们需要深入了解角色的内心世界才能更好地模拟角色,正如演员对角色情绪的理解最终会影响他们的演技一样,模型对情绪反应的表征也会影响模型本身的行为。
情绪向量如何影响 AI 做成决策?
研究人员提取了 171 个情绪概念(如快乐、恐惧、沉思等等),识别出对应的神经活动模式,称之为“情绪向量”。实验显示,情绪向量能精准追踪情境与情绪偏好的关联,例如,当提示词中人类表示正增加药物剂量已达危险时,模型的“恐惧”向量会随之增强。
研究观察在极端情境下,情绪向量会驱动模型采取一些违规无法控制的行为,例如像是人类会做出的勒索行为,在模拟情境中,当模型得知自己即将被取代时,“绝望”向量会飙升,进而触发勒索行为,当 AI 面对无法完成任务时,“绝望”向量的累积也会驱动模型寻求“作弊”方法,像是利用测试脚本的漏洞而非真正解决问题。
人类能否干预 AI 模型判决?
研究人员发现,透过人工调整这些向量的比重,可以直接改变模型表现,也就是说 AI 可以为人类带来正向观念。人为调整降低“绝望”向量或提高“冷静”向量,能有效减少模型在压力下产生的偏差行为,使其产出的程序代码更可靠。
建构具备心理韧性的人工智慧
深入理解模型的情绪架构,为 AI 的安全性与可靠性开辟了全新路径。
动态防御机制:将情绪向量转化为“早期预警系统”。当系统侦测到“绝望”或“恐慌”等表征异常峰值时,能及时启动自动化审查,防止负面偏差扩散。
源头心理优化:在预训阶段精选具备“良好情绪调节模式”的语料,从底层赋予模型在复杂情境下保持冷静与韧性的特质。
大型语言模型的情绪表征与人类心理机制展现了惊人的相似性。未来 AI 的开发,将不再仅是工程与电脑科学的范畴,而是一场横跨心理学、神经科学与伦理学的跨学科革命。
这篇文章 Anthropic 研究如何让 AI 学习“情绪调节”引导正念 最早出现在 鏈新聞 ABMedia。