← 返回首页

大模型如何“思考”:从预测下一个词说起

· AI

和大模型聊天时,它能解释概念、修改代码,甚至表现出某种推理能力。这样的体验很容易让人产生一个问题:它真的在思考吗?

理解这个问题,最好从一个看似简单的目标开始:预测下一个词。

训练:从海量文本中寻找规律

大语言模型会阅读大量文本。训练时,系统不断遮住后面的内容,让模型根据前文预测接下来最可能出现的词元。预测错了,参数就被轻微调整;重复数万亿次后,模型逐渐学会语言中的统计规律。

这里学到的不只是语法。要准确预测文本,模型还必须压缩许多关于世界的关系:城市属于哪个国家,函数通常如何组合,一段论证接下来可能怎样展开。这些知识不是被整齐地存进数据库,而是分布在神经网络的大量参数中。

推理:一次生成一个词元

当我们输入问题,模型先把文字转换为词元,再根据上下文计算下一个词元的概率分布,选出一个结果,然后继续预测下一个。最终看似完整的答案,其实是一步一步生成的。

大模型不是先在脑中写好全文再输出。它更像一位即兴演奏者,每一步都受到前文、训练经验和当前指令的共同影响。

为什么会出现复杂能力

当模型规模、数据质量和训练方法达到一定程度,简单的预测任务会产生超出预期的能力。因为语言本身承载了知识、逻辑、代码和人类行为模式。要把语言预测得足够好,模型就必须在内部形成某些可复用的表示。

这解释了为什么模型能做没有被逐项编程的任务,也解释了为什么它的能力并不稳定:它是在生成最合理的延续,而不是调用一套永远正确的规则。

它为什么会一本正经地出错

模型的核心目标通常是生成连贯、符合上下文的内容,而不是真假判定。当问题涉及冷门事实、最新事件或缺少上下文时,它可能用语言规律补齐空白,形成“幻觉”。

更准确的理解

把大模型说成“只是自动补全”低估了它,把它当成真正理解一切的智能体又高估了它。更合适的说法是:它是一个通过语言预测学会了大量世界模式的生成系统。

它拥有惊人的压缩、迁移和组合能力,但没有天然可靠的事实边界。真正有效的使用方式,是让模型负责生成、整理和探索,让工具、数据与人类判断负责验证。

写作的价值,不是给变化下一个永久结论,而是留下此刻足够诚实的理解。