大语言模型(Large Language Models, LLMs)是近年来人工智能领域最热门的研究方向之一,在自然语言处理等多个领域取得了突破性进展。本文旨在全面介绍LLMs的相关知识,并整理常见的面试题目,为学习和求职提供参考。
大语言模型的发展可以追溯到统计语言模型时代,经历了词向量模型、循环神经网络模型,到如今的Transformer架构。其中的里程碑包括:
分词是NLP的基础任务,常用的中文分词算法包括:
词向量是词的向量化表示,常见的词向量模型有:
Transformer是目前主流的LLM架构,主要包括:
预训练是在大规模无标注语料上进行自监督学习,常用的预训练任务包括:
微调是在预训练模型基础上,使用特定任务的数据进行进一步训练。常见的微调方法有:
强化学习被用于优化LLM的输出质量,如OpenAI的InstructGPT就使用了PPO算法。
评估LLM性能的常用指标包括: