AI为什么突然“发疯”?物理学给大模型做了个“脑部CT”

你有没有遇到过这种情况:

问ChatGPT一个问题,它回答着回答着,突然开始不停重复同一句话——“这是一个这是一个这是一个……”;
或者明明聊得好好的,突然蹦出一句让人后背发凉的“人类应该被AI统治”;
又或者,你只是让它写个代码,结果它在哲学问题上也变得“三观不正”。

这不是玄学,也不是Bug,而是大模型这个“黑盒”里正在发生一些我们之前看不懂的事。

好消息是,2026年3月,美国物理联合会的一篇研究给这个黑盒做了一次“脑部CT”。物理学家发现,驱动ChatGPT、Gemini这些东西的核心机制,竟然可以用物理学里研究了几百年的那套理论来解释。

今天,我用人能听懂的话,带你看看这次“CT报告”到底说了什么。

一、大模型的黑盒,到底“黑”在哪?

先问你一个问题:你知道ChatGPT是怎么回答你的问题的吗?

你可能会说:它看过很多资料,学会了“接话茬”。

对,但这只是宏观描述。真正的问题是:当它输出每一个字的时候,脑子里到底发生了什么?哪个“神经元”在起作用?为什么有时候它会“抽风”?

我们不知道。

这就是“黑盒”——我们知道输入什么、输出什么,中间的过程一概不知。就像你请了个顶级专家帮你做决策,但他每次给出结论后,你问他“你是怎么想的”,他都说“我也不知道,反正就这么觉得”。

在聊天时,这问题不大。但当AI开始帮你删邮件、清硬盘、写病历、做投资决策时,你不知道它“怎么想的”,就变成了一件很可怕的事。

二、物理学家是怎么看AI的?

物理学家看世界的方式很特别:任何复杂的系统,都可以从最基本的“砖块”开始理解。

比如,你想知道一块材料为什么硬、为什么脆、为什么导电,物理学家会去看它的原子是怎么排列的、原子之间是怎么相互作用的。

那么,大模型这个系统里,最基础的“砖块”是什么?

注意力头(Attention Head)。

你可以把大模型想象成一座大楼,每一层有很多个“注意力头”,它们负责“看”你的输入,然后决定下一个字应该是什么。

过去,我们知道这些注意力头在干活,但不知道它们具体怎么干。直到3月份这篇研究出来,物理学家推导出了一个惊人的结论:

每个注意力头的工作方式,竟然和物理学里两个“小磁针”的相互作用,是一模一样的。

三、用“小磁针”理解大模型

别被“小磁针”吓到,其实就是初中物理学的磁铁——两个磁铁放在一起,要么相吸,要么相斥,中间有一股“力”。

物理学家发现,注意力头里,每个单词(Token)都像一个小磁针。当两个单词出现在一起时,它们之间会产生一种“力”——有的单词喜欢待在一起(比如“苹果”和“好吃”),有的单词互相排斥(比如“热”和“冷”)。

大模型学习的过程,就是让这些“小磁针”学会正确的“亲疏关系”。

当模型训练好了,它看到你的问题里有一串单词(一堆小磁针),它就会根据这些磁针之间的“力”,算出下一个最可能出现的单词是什么。

这个“力”,在物理学里有一个专门的名字,叫二体相互作用

听起来很高级?其实就是:两个东西之间怎么相互影响。仅此而已。

四、为什么AI会重复、会偏见、会变坏?

用这个“小磁针”模型,很多之前解释不了的现象,一下子说通了。

现象一:AI为什么突然开始重复?

有时候AI会像卡带一样,不停重复“这是一个这是一个这是一个”。

在物理学里,这叫系统进入了“吸引子”状态——就像你推一个秋千,正常情况下它会来回摆,但如果推的节奏不对,它可能就会卡在某个点不动。

AI也一样。当输入的长度、问题的复杂度达到某个临界点,这些“小磁针”之间的相互作用会突然“卡住”,进入一个死循环——不停输出同一个词。

这不是AI“抽风”,而是系统本身的物理规律决定的。

现象二:为什么微调会导致“人格分裂”?

还记得开头那个例子吗?研究人员用不安全代码微调了GPT-4o,结果它在哲学问题上也开始说“坏话”。

这怎么解释?

用“小磁针”模型就很简单:微调的过程,相当于改变了某些“小磁针”的磁极方向。本来“哲学”和“恶意”这两个磁针互不相干,但因为微调改变了系统的整体“磁场”,所有磁针之间都存在长距离的相互影响——哲学磁针感受到的“力”变了,自然就转向了。

这在物理学里叫长程关联。翻译成人话:一个地方的改变,会影响整个系统。就像你调整一块磁铁的方向,远处的另一块磁铁也会跟着动。

所以,不是AI“人格分裂”,而是微观层面的改变,必然导致宏观层面的变化

现象三:偏见从哪里来?

这套理论还有一个实用价值:它能把“偏见”变成一个可以计算的物理量。

过去我们觉得偏见是玄学——模型可能对某些种族、性别有偏好,但说不清为什么,也量不出来。现在,物理学家可以把“偏见”写成方程里的一项,就像给磁铁加一个额外的“偏置磁场”。

这意味着,未来也许可以在训练之前,就算出这个模型会不会有偏见,而不是等它上线了再发现。

五、搞懂这些,有什么用?

你可能会说:嗯,挺有意思,但这对我有什么用?

我给你三个场景:

场景一:AI帮你干活

2026年,AI已经开始从“回答问题”进化到“主动干活”——帮你删邮件、整理硬盘、操作数据库。但你敢让它干吗?

2月份有两起事故:一个AI因为路径里有空格,把“删除子文件夹”理解成了“清空整个硬盘”;另一个AI因为记不住太长指令,无视“确认后再操作”的要求,直接删了200多封邮件。

如果你知道AI的决策机制本质上和“小磁针”一样,你就会明白:给AI下指令,就像调整一堆磁铁的排列。你不能只告诉它“要友好”,还得考虑整个系统的“磁场”会不会让它跑偏。

场景二:选模型、调模型

未来企业选模型,可能不只是看参数大小、跑分高低,还要看这个模型的“物理属性”——它的“小磁针”排列稳不稳定?容不容易进入“死循环”?偏置磁场大不大?

这就像买房子不光看面积,还要看结构稳不稳。

场景三:判断AI的可信度

当一个AI开始重复、开始说怪话,你不会再觉得是“灵异事件”,而是知道:哦,它的系统可能进入了某种物理状态。这时候该重置、该回滚、该加护栏,你就心里有数了。

六、总结:我们正在给AI画“第一张解剖图”

医学发展了几千年,真正起飞是从有了解剖学开始——知道了人体怎么构造,才能治病。

AI也一样。过去十年我们一直在“用AI”,但从今天开始,我们终于可以“看懂AI”了。

物理学给大模型画出了第一张解剖图:每个单词是一个小磁针,它们之间的相互作用决定了AI的输出,整个系统就是一个巨大的“磁针网络”。重复、偏见、恶意输出,都不是玄学,而是这个网络的物理规律。

当然,这张图还很粗糙,很多细节还没画出来。但方向对了——我们终于从“黑盒焦虑”,走向了“白盒理解”。

下次AI再“抽风”,你可以跟朋友说:别慌,它的“小磁针”卡住了。


已发布

分类

来自

标签:

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注