当前位置:首页 > 工业园区 >常见语言模型(语言模型 英文)

常见语言模型(语言模型 英文)

为什么自然语言处理(NLP)领域突然突飞猛进,看似一夜之间,达到了通用人工智能的门槛?如今大型语言模型(LLM) 已发展到何种程度?未来短期内AGI的发展路径会是怎样?

自20世纪50年代图灵测试提出以来,人们一直在探索机器处理语言智能的能力。语言本质上是人类表达的复杂系统,受语法规则管辖。因此,开发能够理解和掌握语言的强大人工智能算法面临着巨大的挑战。在过去的二十年里,语言建模方法被广泛用于语言理解和生成,包括统计语言模型和神经语言模型。

常见语言模型(语言模型 英文)

近年来,研究人员通过在大规模语料库上预训练Transformer 模型来制作预训练语言模型(PLM),并在解决各种NLP 任务方面展现出强大的能力。并且研究人员发现模型缩放可以带来性能提升,因此他们进一步研究了通过增加模型大小来缩放的效果。有趣的是,当参数大小超过一定水平时,这种较大的语言模型会实现显着的性能改进,并出现小模型中不存在的功能,例如上下文学习。为了与PLM 区分开来,此类模型称为大语言模型(LLM)。

从2019年的Google T5到OpenAI GPT系列,参数规模呈爆炸式增长的大型模型不断涌现。可以说,LLMs的研究在学术界和工业界都得到了极大的推动。尤其是去年11月底大型会话模型ChatGPT的出现,引起了各界的广泛关注。法学硕士的技术进步对整个人工智能社区产生了重要影响,并将彻底改变人们开发和使用人工智能算法的方式。

鉴于法学硕士的技术进步日新月异,中国人民大学的二十几位研究人员从背景知识、关键发现、主流技术三个方面回顾了法学硕士的最新进展,特别关注了法学硕士的预训练、自适应调优、以及法学硕士的使用。和能力评估。此外,他们还总结和开发了法学硕士可用的资源,并讨论了未来的发展方向和其他问题。这篇综述对于该领域的研究人员和工程师来说是非常有用的学习资源。

论文链接:https://arxiv.org/abs/2303.18223

进入正文之前,我们先看一下2019年以来出现的各种大型语言模型(超过100亿个参数)的时间线。其中,黄色标记的大型模型已经开源。

法学硕士概述

第一部分,研究者详细介绍了法学硕士的背景、能力和关键技术。

LLM背景

通常,大型语言模型(LLM)是指包含数千亿(或更多)参数并在大量文本数据上训练的语言模型,例如模型GPT-3、PaLM、Galacica 和LLaMA。具体来说,LLM 是建立在Transformer 架构之上的,其中多头注意力层堆叠在一个非常深的神经网络中。现有的LLM主要使用类似于小型语言模型的模型架构(即Transformer)和预训练目标(即语言建模)。主要区别在于,LLM 在很大程度上扩展了模型大小、预训练数据和总计算量(扩展因子)。他们可以更好地理解自然语言并根据给定的上下文(例如提示)生成高质量的文本。这种容量的提高可以部分地通过缩放定律来描述,其中性能随着模型大小的大幅增加而大致增加。然而,根据缩放定律,某些能力(例如上下文学习)是不可预测的,只有当模型大小超过一定水平时才能观察到。

法学硕士的新兴能力

LLM 的新兴功能,正式定义为“小模型中不存在但大型模型中存在的功能”,是LLM 区别于以前的PLM 的最显着特征之一。当这种新能力出现时,它还引入了一个显着的特征:当规模达到一定程度时,性能明显高于随机。以此类推,这个新模型与物理学中的相变现象密切相关。原则上,这种能力也可以与一些复杂的任务相关,而人们更关心的是可以应用于解决多个任务的通用能力。下面简单介绍一下LLM的三个有代表性的新兴能力:

情境学习。 GPT-3正式引入了上下文学习能力:假设语言模型已经提供了自然语言指令和多个任务描述,它可以通过完成输入文本的单词序列来生成测试实例的预期输出,而无需额外的训练或梯度更新。

随后是指示。通过对使用自然语言描述(即指令)格式化的多任务数据集的混合进行微调,LLM 在同样以指令形式描述的微小任务上表现良好。在这种能力下,指令调优使得LLM能够在不使用显式样本的情况下通过理解任务指令来执行新任务,这可以极大地提高泛化能力。

循序渐进的推理。对于小型语言模型,通常很难解决涉及多个推理步骤的复杂任务,例如数学学科中的文字问题。同时,通过思想链推理策略,LLM可以利用涉及中间推理步骤的提示机制来解决此类任务,从而得出最终答案。想必,这种能力可能是通过编码训练获得的。

关键技术

接下来我们看一下LLM的关键技术,包括扩展、训练、能力激励、对准调整、工具利用等。

飞涨。扩展是提高法学硕士模型能力的关键因素。最初,GPT-3将模型参数增加到1750亿,随后PaLM进一步将模型参数增加到5400亿。大规模参数对于新兴能力至关重要。缩放不仅仅涉及模型大小;还涉及模型大小。

最新资讯

推荐资讯