Skip to content

第1章:引言

人类主要使用语言进行表达与交流。语言能力通常在人类幼儿时代就已初步形成,并且在人的一生中不断发展与完善。为了使计算机能够与人类进行有效交流,科研人员一直致力于研发具有类人语言能力的人工智能(Artificial Intelligence, AI)算法,使之能够掌握以自然语言形式进行沟通与交流。让机器拥有像人类一样阅读、理解、写作和交流的能力是一个长期的研究挑战。

从技术路径上来说,语言模型(Language Model, LM)是提升机器语言智能(Language Intelligence)的主要技术途径之一,全书将聚焦这一主题展开讨论。本章将主要回顾语言模型的发展历程,并且介绍大语言模型与传统语言模型的不同之处及其对于科研发展所带来的机遇与挑战。

1.1 语言模型的发展历程

一般来说,语言模型旨在对人类语言的内在规律进行建模,从而准确预测词序列中未来(或缺失)词或词元(Token)的概率。根据所采用技术方法的不同,针对语言模型的研究工作可以分为以下四个主要发展阶段:

alt text

  • 统计语言模型(Statistical Language Model, SLM):在20世纪90年代兴起的统计语言模型是基于统计学习方法研发的。具体来说,统计语言模型使用马尔可夫假设(Markov Assumption)来建立语言序列的预测模型,通常是根据词序列中若干个连续的上下文单词来预测下一个词的出现概率,即根据一个固定长度的前缀来预测目标单词。具有固定上下文长度的统计语言模型通常被称为𝑖-gram(如二元或三元语言模型)。统计语言模型被广泛应用于信息检索(Information Retrieval, IR)和自然语言处理(Natural Language Processing, NLP)等领域的早期研究工作。

  • 神经语言模型(Neural Language Model, NLM):神经语言模型使用神经网络来建模文本序列的生成,如循环神经网络(Recurrent Neural Networks, RNN)。图灵奖获得者Yoshua Bengio在一项早期工作中引入了分布式词表示(Distributed Word Representation)这一概念,并构建了基于聚合上下文特征的目标词预测函数。分布式词表示使用低维稠密向量来表示词汇的语义,这与基于词典空间的稀疏词向量表示有着本质的不同,能够刻画更为丰富的隐含语义特征。

  • 预训练语言模型(Pre-trained Language Model, PLM):与早期的词嵌入模型相比,预训练语言模型在训练架构与训练数据两个方面进行了改进与创新。ELMo是一个早期的代表性预训练语言模型,提出使用大量的无标注数据训练双向LSTM网络,预训练完成后所得到的biLSTM可以用来学习上下文感知的单词表示。进一步,ELMo可以根据下游任务数据对biLSTM网络进行微调,从而实现面向特定任务的模型优化。

  • 大语言模型(Large Language Model, LLM):研究人员发现,通过规模扩展(如增加模型参数规模或数据规模)通常会带来下游任务的模型性能提升,这种现象通常被称为“扩展法则”。一些研究工作尝试训练更大的预训练语言模型(例如175B参数的GPT-3和540B参数的PaLM)来探索扩展语言模型所带来的性能极限。

1.2 大语言模型的能力特点

大语言模型的出现为科研人员再次带来了实现通用人工智能(Artificial General Intelligence)的曙光。尽管通用人工智能在学术界被广泛讨论与探索,但是之前的机器学习算法的泛化性和通用性非常局限,只有大语言模型初步实现了通过统一形式来解决各种下游任务。

  • 具有较为丰富的世界知识:与传统机器学习模型相比,大语言模型经过超大规模文本数据的预训练后能够学习到较为丰富的世界知识。

  • 具有较强的通用任务解决能力:大语言模型主要通过预测下一个词元的预训练任务进行学习,虽然并没有针对特定的下游任务进行优化,却能够建立远强于传统模型的通用任务求解能力。

  • 具有较好的复杂任务推理能力:大语言模型在复杂任务中展现出了较好的推理能力,能够回答知识关系复杂的推理问题。

  • 具有较强的人类指令遵循能力:大语言模型建立了自然语言形式的统一任务解决模式,能够直接通过自然语言描述下达任务指令。

1.3 大语言模型关键技术概览

从早期的统计语言模型到大语言模型,科研人员进行了一系列的技术探索,从而实现了模型能力的显著提升。下面将概括性地介绍一下大语言模型能够取得重要进展背后的关键技术:

  • 规模扩展:规模扩展是大语言模型的一个关键成功因素。

  • 数据工程:数据工程对于大语言模型的成功至关重要。

  • 高效预训练:成功训练出一个性能较强的大语言模型极具挑战性。

  • 能力激发:设计合适的指令微调以及提示策略进行激发或诱导。

  • 人类对齐:确保大语言模型能够较好地符合人类的价值观。

1.4 大语言模型对科技发展的影响

大语言模型的成功不仅推动了自然语言处理领域的技术进步,还引发了人们对于实现通用人工智能的重新思考。随着大语言模型技术的迅猛发展,人工智能相关研究领域正发生着重要的技术变革。

1.5 本书的内容组织

本书将分为五个主要部分,分别是背景与基础知识、预训练、微调与对齐、大模型使用以及评测与应用。每个部分将深入探讨大语言模型的相关技术、应用和未来发展方向。