揭秘AI学语言: 数据少靠位置, 数据多突然“懂含义”

发布日期：2025-07-19 13:03 点击次数：95

如今，人工智能系统的语言能力令人惊叹。我们现在可以与ChatGPT、Gemini等系统进行自然对话，流畅度几乎与人类相当。但我们对这些网络内部如何产生如此出色结果的过程仍知之甚少。

发表在《统计力学：理论与实验杂志》（JSTAT）上的一项新研究揭示了这一谜题的一角。研究表明，当用少量数据训练时，神经网络最初依赖句子中词语的位置；当系统接触足够数据后，会转向基于词语含义的新策略。这种转变在数据量超过临界阈值时突然发生，类似于物理系统中的相变。这些发现为理解这些模型的运作提供了宝贵洞见。

从“看位置”到“懂意思”的转变

就像儿童学习阅读一样，神经网络最初通过词语位置理解句子——根据词语在句中的位置推断它们的关系（是主语、动词还是宾语？）。随着训练继续（网络“持续上学”），会发生转变：词语含义成为主要信息来源。

这种现象发生在自注意力机制的简化模型中——自注意力是Transformer语言模型（如我们日常使用的ChatGPT、Gemini、Claude等）的核心组成部分。Transformer是一种专门处理文本等序列数据的神经网络架构，是许多现代语言模型的基础。它通过自注意力机制评估每个词语相对于其他词语的重要性。

两种策略的“突然切换”

“为了评估词语间的关系，网络可以采用两种策略，其中一种是利用词语的位置。”哈佛大学博士后研究员、研究第一作者雨果·崔（Hugo Cui）解释道，“例如在英语中，主语通常在动词前，动词又在宾语前（如‘玛丽吃苹果’）。”

“这是网络训练时自发出现的第一种策略，”崔说，“但我们的研究发现，如果训练继续且网络获得足够数据，当达到某个阈值时，策略会突然转变：网络开始依赖含义。”

“设计研究时，我们只是想研究网络会采用哪些策略或策略组合。但结果有些意外：低于某个阈值时，网络完全依赖位置；超过阈值后，仅依赖含义。”

像水变蒸汽一样的“相变”

崔将这种转变称为“相变”，借用了物理学概念。统计物理学通过统计描述大量粒子（如原子或分子）组成的系统的集体行为。类似地，神经网络（这些AI系统的基础）由大量“节点”或神经元（类比人脑命名）组成，每个节点与其他许多节点连接并执行简单操作。系统的智能源于这些神经元的相互作用，这种现象可用统计方法描述。因此，我们可以将网络行为的突然变化称为相变，类似于水在特定温度和压力条件下从液态变为气态。

“从理论角度理解这种策略转变的发生方式很重要，”崔强调，“我们的网络比人们日常使用的复杂模型简单，但能为理解模型稳定采用某一策略的条件提供线索。这种理论知识有望未来用于提高神经网络的使用效率和安全性。”