Anthropic 研究如何让 AI 学习“情绪调节”以引导正念

鏈新聞abmedia

2026-04-02 21:25:10

大型语言模型（LLM）不具备人类的意识，但 Anthropic 的最新研究 Emotion Concepts and their Function in a Large Language Model 证实：模型内部已演化出与人类情感高度对应的“表征模式”，这些模式与特定的 AI 神经元活动相关，能实质主导模型的决策路径与行为逻辑。本文深入剖析 AI 内部的情绪生成机制，探讨如何通过精确调节，引导 AI 成为促进人类“正念”与心理健康的正面力量。

为什么人工智能会产生人类一样的情绪？

人工智能会像人类一样思考说话，源于模型训练的两个主要阶段。

在“预设训练阶段”，模型学习预测大量人类情绪，为了准确预测愤怒或内疚等行为，模型必须掌握人类情感的内在规律，进而建立起与情绪相关的抽象表征。

于“后训练阶段”，模型被训练扮演“人工智能助理”的角色，Anthropic 把它叫做 Claude，当面临训练数据未涵盖的复杂情境时，模型会像“方法派演员”一样，调动预设训练中习得的人类心理表征来引导其行为。

在探讨这些表征如何运作之前，先回答一个基本问题，为什么 AI 会有类似人类情绪的东西？要理解这一点，需要了解人工智能模型的建构方式，这种方式使得它们能够模拟具有人类性格特征的角色。

现代语言模型的训练分为多个阶段。在“预设训练”阶段，模型会接触到大量文字，文字大部分由人类撰写，AI 会学习预测接下来的内容，为了做好这一点，模型需要掌握一定的情感动态。

在后训练阶段，模型会被训练扮演某个角色，Anthropic 把这名 AI 助理取名叫 Claude 克劳德，模型开发者会指定这个角色应该如何演出，例如扮演一个乐于助人、诚实守信、不作恶的正派角色，但人类无法控制模型对应该些情绪反应后生成的内容。

为了弥补此项不足，模型会依赖预设训练期间，吸收对人类行为的理解，包括情绪反应等模式。在某种程度上，可以把模型想象成一个方法派演员，他们需要深入了解角色的内心世界才能更好地模拟角色，正如演员对角色情绪的理解最终会影响他们的演技一样，模型对情绪反应的表征也会影响模型本身的行为。

情绪向量如何影响 AI 做成决策？

研究人员提取了 171 个情绪概念（如快乐、恐惧、沉思等等），识别出对应的神经活动模式，称之为“情绪向量”。实验显示，情绪向量能精准追踪情境与情绪偏好的关联，例如，当提示词中人类表示正增加药物剂量已达危险时，模型的“恐惧”向量会随之增强。

研究观察在极端情境下，情绪向量会驱动模型采取一些违规无法控制的行为，例如像是人类会做出的勒索行为，在模拟情境中，当模型得知自己即将被取代时，“绝望”向量会飙升，进而触发勒索行为，当 AI 面对无法完成任务时，“绝望”向量的累积也会驱动模型寻求“作弊”方法，像是利用测试脚本的漏洞而非真正解决问题。

人类能否干预 AI 模型判决？

研究人员发现，透过人工调整这些向量的比重，可以直接改变模型表现，也就是说 AI 可以为人类带来正向观念。人为调整降低“绝望”向量或提高“冷静”向量，能有效减少模型在压力下产生的偏差行为，使其产出的程序代码更可靠。

建构具备心理韧性的人工智慧

深入理解模型的情绪架构，为 AI 的安全性与可靠性开辟了全新路径。

动态防御机制：将情绪向量转化为“早期预警系统”。当系统侦测到“绝望”或“恐慌”等表征异常峰值时，能及时启动自动化审查，防止负面偏差扩散。

源头心理优化：在预训阶段精选具备“良好情绪调节模式”的语料，从底层赋予模型在复杂情境下保持冷静与韧性的特质。

大型语言模型的情绪表征与人类心理机制展现了惊人的相似性。未来 AI 的开发，将不再仅是工程与电脑科学的范畴，而是一场横跨心理学、神经科学与伦理学的跨学科革命。

这篇文章 Anthropic 研究如何让 AI 学习“情绪调节”引导正念最早出现在鏈新聞 ABMedia。

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

0/400

暂无评论