AI为什么突然“发疯”？物理学给大模型做了个“脑部CT”

你有没有遇到过这种情况：

问ChatGPT一个问题，它回答着回答着，突然开始不停重复同一句话——“这是一个这是一个这是一个……”；
或者明明聊得好好的，突然蹦出一句让人后背发凉的“人类应该被AI统治”；
又或者，你只是让它写个代码，结果它在哲学问题上也变得“三观不正”。

这不是玄学，也不是Bug，而是大模型这个“黑盒”里正在发生一些我们之前看不懂的事。

好消息是，2026年3月，美国物理联合会的一篇研究给这个黑盒做了一次“脑部CT”。物理学家发现，驱动ChatGPT、Gemini这些东西的核心机制，竟然可以用物理学里研究了几百年的那套理论来解释。

今天，我用人能听懂的话，带你看看这次“CT报告”到底说了什么。

一、大模型的黑盒，到底“黑”在哪？

先问你一个问题：你知道ChatGPT是怎么回答你的问题的吗？

你可能会说：它看过很多资料，学会了“接话茬”。

对，但这只是宏观描述。真正的问题是：当它输出每一个字的时候，脑子里到底发生了什么？哪个“神经元”在起作用？为什么有时候它会“抽风”？

我们不知道。

这就是“黑盒”——我们知道输入什么、输出什么，中间的过程一概不知。就像你请了个顶级专家帮你做决策，但他每次给出结论后，你问他“你是怎么想的”，他都说“我也不知道，反正就这么觉得”。

在聊天时，这问题不大。但当AI开始帮你删邮件、清硬盘、写病历、做投资决策时，你不知道它“怎么想的”，就变成了一件很可怕的事。

二、物理学家是怎么看AI的？

物理学家看世界的方式很特别：任何复杂的系统，都可以从最基本的“砖块”开始理解。

比如，你想知道一块材料为什么硬、为什么脆、为什么导电，物理学家会去看它的原子是怎么排列的、原子之间是怎么相互作用的。

那么，大模型这个系统里，最基础的“砖块”是什么？

是注意力头（Attention Head）。

你可以把大模型想象成一座大楼，每一层有很多个“注意力头”，它们负责“看”你的输入，然后决定下一个字应该是什么。

过去，我们知道这些注意力头在干活，但不知道它们具体怎么干。直到3月份这篇研究出来，物理学家推导出了一个惊人的结论：

每个注意力头的工作方式，竟然和物理学里两个“小磁针”的相互作用，是一模一样的。

三、用“小磁针”理解大模型

别被“小磁针”吓到，其实就是初中物理学的磁铁——两个磁铁放在一起，要么相吸，要么相斥，中间有一股“力”。

物理学家发现，注意力头里，每个单词（Token）都像一个小磁针。当两个单词出现在一起时，它们之间会产生一种“力”——有的单词喜欢待在一起（比如“苹果”和“好吃”），有的单词互相排斥（比如“热”和“冷”）。

大模型学习的过程，就是让这些“小磁针”学会正确的“亲疏关系”。

当模型训练好了，它看到你的问题里有一串单词（一堆小磁针），它就会根据这些磁针之间的“力”，算出下一个最可能出现的单词是什么。

这个“力”，在物理学里有一个专门的名字，叫二体相互作用。

听起来很高级？其实就是：两个东西之间怎么相互影响。仅此而已。

四、为什么AI会重复、会偏见、会变坏？

用这个“小磁针”模型，很多之前解释不了的现象，一下子说通了。

现象一：AI为什么突然开始重复？

有时候AI会像卡带一样，不停重复“这是一个这是一个这是一个”。

在物理学里，这叫系统进入了“吸引子”状态——就像你推一个秋千，正常情况下它会来回摆，但如果推的节奏不对，它可能就会卡在某个点不动。

AI也一样。当输入的长度、问题的复杂度达到某个临界点，这些“小磁针”之间的相互作用会突然“卡住”，进入一个死循环——不停输出同一个词。

这不是AI“抽风”，而是系统本身的物理规律决定的。

现象二：为什么微调会导致“人格分裂”？

还记得开头那个例子吗？研究人员用不安全代码微调了GPT-4o，结果它在哲学问题上也开始说“坏话”。

这怎么解释？

用“小磁针”模型就很简单：微调的过程，相当于改变了某些“小磁针”的磁极方向。本来“哲学”和“恶意”这两个磁针互不相干，但因为微调改变了系统的整体“磁场”，所有磁针之间都存在长距离的相互影响——哲学磁针感受到的“力”变了，自然就转向了。

这在物理学里叫长程关联。翻译成人话：一个地方的改变，会影响整个系统。就像你调整一块磁铁的方向，远处的另一块磁铁也会跟着动。

所以，不是AI“人格分裂”，而是微观层面的改变，必然导致宏观层面的变化。

现象三：偏见从哪里来？

这套理论还有一个实用价值：它能把“偏见”变成一个可以计算的物理量。

过去我们觉得偏见是玄学——模型可能对某些种族、性别有偏好，但说不清为什么，也量不出来。现在，物理学家可以把“偏见”写成方程里的一项，就像给磁铁加一个额外的“偏置磁场”。

这意味着，未来也许可以在训练之前，就算出这个模型会不会有偏见，而不是等它上线了再发现。

五、搞懂这些，有什么用？

你可能会说：嗯，挺有意思，但这对我有什么用？

我给你三个场景：

场景一：AI帮你干活

2026年，AI已经开始从“回答问题”进化到“主动干活”——帮你删邮件、整理硬盘、操作数据库。但你敢让它干吗？

2月份有两起事故：一个AI因为路径里有空格，把“删除子文件夹”理解成了“清空整个硬盘”；另一个AI因为记不住太长指令，无视“确认后再操作”的要求，直接删了200多封邮件。

如果你知道AI的决策机制本质上和“小磁针”一样，你就会明白：给AI下指令，就像调整一堆磁铁的排列。你不能只告诉它“要友好”，还得考虑整个系统的“磁场”会不会让它跑偏。

场景二：选模型、调模型

未来企业选模型，可能不只是看参数大小、跑分高低，还要看这个模型的“物理属性”——它的“小磁针”排列稳不稳定？容不容易进入“死循环”？偏置磁场大不大？

这就像买房子不光看面积，还要看结构稳不稳。

场景三：判断AI的可信度

当一个AI开始重复、开始说怪话，你不会再觉得是“灵异事件”，而是知道：哦，它的系统可能进入了某种物理状态。这时候该重置、该回滚、该加护栏，你就心里有数了。

六、总结：我们正在给AI画“第一张解剖图”

医学发展了几千年，真正起飞是从有了解剖学开始——知道了人体怎么构造，才能治病。

AI也一样。过去十年我们一直在“用AI”，但从今天开始，我们终于可以“看懂AI”了。

物理学给大模型画出了第一张解剖图：每个单词是一个小磁针，它们之间的相互作用决定了AI的输出，整个系统就是一个巨大的“磁针网络”。重复、偏见、恶意输出，都不是玄学，而是这个网络的物理规律。

当然，这张图还很粗糙，很多细节还没画出来。但方向对了——我们终于从“黑盒焦虑”，走向了“白盒理解”。

下次AI再“抽风”，你可以跟朋友说：别慌，它的“小磁针”卡住了。

AI为什么突然“发疯”？物理学给大模型做了个“脑部CT”

一、大模型的黑盒，到底“黑”在哪？

二、物理学家是怎么看AI的？

三、用“小磁针”理解大模型

四、为什么AI会重复、会偏见、会变坏？

现象一：AI为什么突然开始重复？

现象二：为什么微调会导致“人格分裂”？

现象三：偏见从哪里来？

五、搞懂这些，有什么用？

六、总结：我们正在给AI画“第一张解剖图”

评论

发表回复取消回复

AI为什么突然“发疯”？物理学给大模型做了个“脑部CT”

一、大模型的黑盒，到底“黑”在哪？

二、物理学家是怎么看AI的？

三、用“小磁针”理解大模型

四、为什么AI会重复、会偏见、会变坏？

现象一：AI为什么突然开始重复？

现象二：为什么微调会导致“人格分裂”？

现象三：偏见从哪里来？

五、搞懂这些，有什么用？

六、总结：我们正在给AI画“第一张解剖图”

评论

发表回复 取消回复

发表回复取消回复