大语言模型近年发展迅速。2017 年发布的 Attention Is All You Need 论文是其起源,此后基于大量语料的预训练模型不断涌现。例如,2018 年 Google 提出的 BERT 采用双向预训练和掩码语言建模,开创了预训练语言表示范式;OpenAI 提出的 GPT 仅使用自回归语言建模作为预训练目标,展示了强大的语言生成能力;Meta 在 2021 年提出的 LLAMA 则是首个开源模型。
过去几年,大型语言模型取得巨大成功,如 BERT 和 GPT-3,这得益于大量通用文本数据的可用性。我们可在通用文本集合上对模型进行预训练,然后针对具体任务进行专门化。
Andrej Karpathy 认为,大型语言模型不仅是聊天机器人或单词生成器,更类似于新兴操作系统的内核进程,能协调大量资源解决问题。未来,它们将能读取和生成文本,拥有更丰富知识,利用现有软件基础架构,具备查看和生成图像与视频、听取和创作音乐、利用系统 2 深入思考等能力。在特定领域内,还能自我优化,并针对许多特定任务进行定制和细微调整。或许,许多 LLM 专家将存在于一个能协同解决问题的应用程序商店中。