缘起
随着预训练语言模型被提出,自然语言处理领域有了突飞猛进的发展。通过在大规模文本中训练通用的语言表示,并用微调的方法进行下游任务 的领域适应,绝大多数自然语言处理任务都可以用这种范式取得良好的效 果。近年,各种预训练语言模型如雨后春笋般涌现,突破了一个又一个SOTA 表现。
正是在这种背景下,无论是自然语言处理领域的研究者还是从业人员, 对一本全面翔实的参考书籍的需求愈发凸显。应电子工业出版社郑柳洁编 辑的邀请,我们开始撰写本书,一个很朴素的出发点就是在我们的能力范 围之内,对现有的预训练语言模型进行一次详细的梳理,让感兴趣的读者 能够大致了解预训练语言模型的起源发展、理论原理和代码细节。
本书内容
预训练语言模型数量众多,本书不仅介绍了具有里程碑意义的典型模型,如 ELMo、BERT 和 GPT,也挑选了一些具有代表性的新模型,如ALBERT、BART 和 T5 等。在写作上,不仅有模型框架的介绍、数学公式的推导,还配合了详细的代码讲解和应用实例,希望可以帮助读者快速理解预训练语言模型的相关知识。
本书共 8 章,第 1 章给出了预训练语言模型的简介,包括自然语言处理的研究进展及预训练语言模型的发展史和分类。第 2 章介绍了预训练语言模型的基础知识,从统计语言模型到神经网络语言模型,并重点介绍了具有里程碑意义的 ELMo。第 3 章对 Transformer 和 Attention(注意力)进行了详细阐述。第 4 章和第 5 章分别介绍了 GPT 系列模型和 BERT 模型。第 6 章介绍了后 BERT 时代的典型模型。第 7 章给出了预训练语言模型的评测和应用。第 8 章给出了总结和展望。
预训练语言模型的发展方兴未艾,充满了挑战,推动其理论和技术的发展,需要各位同仁一起努力。希望本书能够给读者带来有价值的参考。