大语言模型近年的发展（大语言模型近年的发展趋势分析）

大语言模型近年发展迅速。2017 年发布的 Attention Is All You Need 论文是其起源，此后基于大量语料的预训练模型不断涌现。例如，2018 年 Google 提出的 BERT 采用双向预训练和掩码语言建模，开创了预训练语言表示范式；OpenAI 提出的 GPT 仅使用自回归语言建模作为预训练目标，展示了强大的语言生成能力；Meta 在 2021 年提出的 LLAMA 则是首个开源模型。

过去几年，大型语言模型取得巨大成功，如 BERT 和 GPT-3，这得益于大量通用文本数据的可用性。我们可在通用文本集合上对模型进行预训练，然后针对具体任务进行专门化。

Andrej Karpathy 认为，大型语言模型不仅是聊天机器人或单词生成器，更类似于新兴操作系统的内核进程，能协调大量资源解决问题。未来，它们将能读取和生成文本，拥有更丰富知识，利用现有软件基础架构，具备查看和生成图像与视频、听取和创作音乐、利用系统 2 深入思考等能力。在特定领域内，还能自我优化，并针对许多特定任务进行定制和细微调整。或许，许多 LLM 专家将存在于一个能协同解决问题的应用程序商店中。

猜你喜欢