大模型如何“思考”：从预测下一个词说起

和大模型聊天时，它能解释概念、修改代码，甚至表现出某种推理能力。这样的体验很容易让人产生一个问题：它真的在思考吗？

理解这个问题，最好从一个看似简单的目标开始：预测下一个词。

训练：从海量文本中寻找规律

大语言模型会阅读大量文本。训练时，系统不断遮住后面的内容，让模型根据前文预测接下来最可能出现的词元。预测错了，参数就被轻微调整；重复数万亿次后，模型逐渐学会语言中的统计规律。

这里学到的不只是语法。要准确预测文本，模型还必须压缩许多关于世界的关系：城市属于哪个国家，函数通常如何组合，一段论证接下来可能怎样展开。这些知识不是被整齐地存进数据库，而是分布在神经网络的大量参数中。

当我们输入问题，模型先把文字转换为词元，再根据上下文计算下一个词元的概率分布，选出一个结果，然后继续预测下一个。最终看似完整的答案，其实是一步一步生成的。

大模型不是先在脑中写好全文再输出。它更像一位即兴演奏者，每一步都受到前文、训练经验和当前指令的共同影响。

当模型规模、数据质量和训练方法达到一定程度，简单的预测任务会产生超出预期的能力。因为语言本身承载了知识、逻辑、代码和人类行为模式。要把语言预测得足够好，模型就必须在内部形成某些可复用的表示。

这解释了为什么模型能做没有被逐项编程的任务，也解释了为什么它的能力并不稳定：它是在生成最合理的延续，而不是调用一套永远正确的规则。

模型的核心目标通常是生成连贯、符合上下文的内容，而不是真假判定。当问题涉及冷门事实、最新事件或缺少上下文时，它可能用语言规律补齐空白，形成“幻觉”。

把大模型说成“只是自动补全”低估了它，把它当成真正理解一切的智能体又高估了它。更合适的说法是：它是一个通过语言预测学会了大量世界模式的生成系统。

它拥有惊人的压缩、迁移和组合能力，但没有天然可靠的事实边界。真正有效的使用方式，是让模型负责生成、整理和探索，让工具、数据与人类判断负责验证。

写作的价值，不是给变化下一个永久结论，而是留下此刻足够诚实的理解。