小工具      在线工具  汉语词典  css  js  c++  java

【一】ERNIE:飞桨开源开发套件,入门学习,看看行业顶尖持续学习语义理解框架,如何取得世界多个实战的SOTA效果?

paddlepaddle,学习,深度学习 额外说明

收录于:199天前


参考文章:

深度剖析知识增强语义表示模型——ERNIE_财神Childe的博客-CSDN博客_ernie模型

ERNIE_ERNIE开源开发套件_飞桨

https://github.com/PaddlePaddle/ERNIE/blob/develop/README.zh.md

1.背景介绍

近年来,语义表示(language representation)技术的发展,使得 “预训练-微调” 作为解决NLP任务的一种新的范式开始出现。一个通用的表示能力强的模型被选择为语义表示模型,在预训练阶段,用大量的语料和特定的任务训练该模型,使其编码海量的语义知识;在微调阶段,该模型会被加上不同的简单输出层用以解决下游的 NLP 任务。早期较为著名的语义表示模型包括ELMoGPT ,分别基于双层双向LSTM和Transformer Decoder框架,而真正让语义表示技术大放异彩的是BERT (Bidirectional Encoder Representations from Transformers) 的提出。BERT以Transformer Encoder为骨架,以屏蔽语言模型 (Masked LM) 和下一句预测(Next Sentence Prediction)这两个无监督预测任务作为预训练任务,用英文Wikipedia和Book Corpus的混合语料进行训练得到预训练模型。结合简单的输出层,BERT提出伊始就在11个下游NLP任务上取得了 SOTA(State of the Art)结果,即效果最佳,其中包括了自然语言理解任务GLUE和阅读理解SQuAD。

可以看到,用语义表示模型解决特定的NLP任务是个相对简单的过程。因此,语义表示模型的预训练阶段就变得十分重要,具体来说,模型结构的选取、训练数据以及训练方法等要素都会直接影响下游任务的效果。当前的很多学术工作就是围绕预训练阶段而展开的,在BERT之后各种语义表示模型不断地被提了出来。

ERNIE(Enhanced Representation through kNowledge IntEgration)是百度提出的语义表示模型,同样基于Transformer Encoder,相较于BERT,其预训练过程利用了更丰富的语义知识和更多的语义任务,在多个NLP任务上取得了比BERT等模型更好的效果。

项目开源地址: https://github.com/PaddlePaddle/ERNIE

该项目包含了对预训练,以及常见下游 NLP 任务的支持,如分类、匹配、序列标注和阅读理解等。

2.原理介绍

2.1 Transformer Encoder

ERNIE 采用了 Transformer Encoder 作为其语义表示的骨架。Transformer 是由论文Attention is All You Need 首先提出的机器翻译模型,在效果上比传统的 RNN 机器翻译模型更加优秀。Transformer 的简要结构如图1所示,基于 Encoder-Decoder 框架, 其主要结构由 Attention(注意力) 机制构成:

  • Encoder 由全同的多层堆叠而成,每一层又包含了两个子层:一个Self-Attention层和一个前馈神经网络。Self-Attention 层主要用来输入语料之间各个词之间的关系(例如搭配关系),其外在体现为词汇间的权重,此外还可以帮助模型学到句法、语法之类的依赖关系的能力。
  • Decoder 也由全同的多层堆叠而成,每一层同样包含了两个子层。在 Encoder 和 Decoder 之间还有一个Encoder-Decoder Attention层。Encoder-Decoder Attention层的输入来自于两部分,一部分是Encoder的输出,它可以帮助解码器关注输入序列哪些位置值得关注。另一部分是 Decoder 已经解码出来的结果再次经过Decoder的Self-Attention层处理后的输出,它可以帮助解码器在解码时把已翻译的内容中值得关注的部分考虑进来。例如将“read a book”翻译成中文,我们把“book”之所以翻译成了“书”而没有翻译成“预定”就是因为前面Read这个读的动作。

在解码过程中 Decoder 每一个时间步都会输出一个实数向量,经过一个简单的全连接层后会映射到一个词典大小、被称作对数几率(logits)的向量,再经过 softmax 归一化之后得到当前时间步各个词出现的概率分布。


图 1 Transformer 的简要结构图

Transformer 在机器翻译任务上面证明了其超过 LSTM/GRU 的卓越表示能力。从 RNN 到 Transformer,模型的表示能力在不断的增强,语义表示模型的骨架也经历了这样的一个演变过程。如图2所示,该图为BERT、GPT 与 ELMo的结构示意图,可以看到 ELMo 使用的就是 LSTM 结构,接着 GPT 使用了 Transformer Decoder。进一步 BERT 采用了双向 Transformer Encoder,从理论上讲其相对于 Decoder 有着更强的语义表示能力,因为Encoder接受双向输入,可同时编码一个词的上下文信息。最后在NLP任务的实际应用中也证明了Encoder的有效性,因此ERNIE也采用了Transformer Encoder架构。


图2 BERT、GPT 与 ELMo

2.2 ERNIE

介绍了 ERNIE 的骨架结构后,下面再来介绍了 ERNIE 的原理。

ERNIE 分为 1.0 版和 2.0 版,其中ERNIE 1.0是通过建模海量数据中的词、实体及实体关系,学习真实世界的语义知识。相较于BERT学习原始语言信号,ERNIE 1.0 可以直接对先验语义知识单元进行建模,增强了模型语义表示能力。例如对于下面的例句:“哈尔滨是黑龙江的省会,国际冰雪文化名城”


图3 ERNIE 1.0 与 BERT 词屏蔽方式的比较

BERT在预训练过程中使用的数据仅是对单个字符进行屏蔽,例如图3所示,训练Bert通过“哈”与“滨”的局部共现判断出“尔”字,但是模型其实并没有学习到与“哈尔滨”相关的知识,即只是学习到“哈尔滨”这个词,但是并不知道“哈尔滨”所代表的含义;而ERNIE在预训练时使用的数据是对整个词进行屏蔽,从而学习词与实体的表达,例如屏蔽“哈尔滨”与“冰雪”这样的词,使模型能够建模出“哈尔滨”与“黑龙江”的关系,学到“哈尔滨”是“黑龙江”的省会以及“哈尔滨”是个冰雪城市这样的含义。

训练数据方面,除百科类、资讯类中文语料外,ERNIE 1.0 还引入了论坛对话类数据,利用对话语言模式(DLM, Dialogue Language Model)建模Query-Response对话结构,将对话Pair对作为输入,引入Dialogue Embedding标识对话的角色,利用对话响应丢失(DRS, Dialogue Response Loss)学习对话的隐式关系,进一步提升模型的语义表示能力。

因为 ERNIE 1.0 对实体级知识的学习,使得它在语言推断任务上的效果更胜一筹。ERNIE 1.0 在中文任务上全面超过了 BERT 中文模型,包括分类、语义相似度、命名实体识别、问答匹配等任务,平均带来 1~2 个百分点的提升。

我们可以发现 ERNIE 1.0 与 BERT 相比只是学习任务 MLM 作了一些改进就可以取得不错的效果,那么如果使用更多较好的学习任务来训练模型,那是不是会取得更好的效果呢?因此 ERNIE 2.0 应运而生。ERNIE 2.0 是基于持续学习的语义理解预训练框架,使用多任务学习增量式构建预训练任务。如图4所示,在ERNIE 2.0中,大量的自然语言处理的语料可以被设计成各种类型的自然语言处理任务(Task),这些新构建的预训练类型任务(Pre-training Task)可以无缝的加入图中右侧的训练框架,从而持续让ERNIE 2.0模型进行语义理解学习,不断的提升模型效果。


图4 ERNIE 2.0框架

ERNIE 2.0 的预训练包括了三大类学习任务,分别是:

  • 词法层任务:学会对句子中的词汇进行预测。
  • 语法层任务:学会将多个句子结构重建,重新排序。
  • 语义层任务:学会判断句子之间的逻辑关系,例如因果关系、转折关系、并列关系等。

通过这些新增的语义任务,ERNIE 2.0语义理解预训练模型从训练数据中获取了词法、句法、语义等多个维度的自然语言信息,极大地增强了通用语义表示能力。ERNIE 2.0模型在英语任务上几乎全面优于BERT和XLNet,在7个GLUE任务上取得了最好的结果;中文任务上,ERNIE 2.0模型在所有9个中文NLP任务上全面优于BERT。

完成预训练后,如何用 ERNIE 来解决具体的 NLP 问题呢?下面以单句分类任务(如情感分析)为例,介绍下游 NLP 任务的解决过程:

  1. 基于tokenization.py脚本中的Tokenizer对输入的句子进行token化,即按字粒度对句子进行切分;
  2. 分类标志符号[CLS]与token化后的句子拼接在一起作为ERNIE模型的输入,经过 ERNIE 前向计算后得到每个token对应的embedding向量表示;
  3. 在单句分类任务中,[CLS]位置对应的嵌入式向量会用来作为分类特征。只需将[CLS]对应的embedding抽取出来,再经过一个全连接层得到分类的 logits 值,最后经过softmax归一化后与训练数据中的label一起计算交叉熵,就得到了优化的损失函数;
  4. 经过几轮的fine-tuning,就可以训练出解决具体任务的ERNIE模型。

关于ERNIE更详细的介绍,可以参考这两篇学术论文:

本教程不对预训练过程作过多展开,主要关注如何使用ERNIE解决下游的NLP任务。

. . .

相关推荐

额外说明

rabbitmq学习(八)——路由路由模式

一、路由模型 之前博客说明了,采取FANOUT设置时,表示不处理路由键,只需要将队列绑定到交换机,发送消息到交换机就会被转发到该与交换机绑定的所有队列。所以需要设置路由键并能够按照路由键实现处理的话,就不能使用FANOUT类型。 1、消息生产者生产消息,

额外说明

工作管理技能提升——指挥操作

1.那些事情在工作中适宜分派,那些事情在工作中不适宜分派? 强影响工作的事情,不就适宜分派。(例如:业务规划、 目标制定、重大决策、计划制定、绩效管理等等) 弱影响工作的事情,就适宜分派。(例如:属于员工工作范围 和能力职责内的事情,可以节约上级时间,为

额外说明

Explain执行计划字段解释说明---ID字段说明

ID字段说明 1、select查询的序列号,包含一组数字,表示查询中执行select子句或操作表的顺序 2、ID的三种情况 (1)id相同,执行顺序由上至下。 (2)id不同,如果是子查询,id的序号会递增,id值越大优先级越高,越先被执行。 (3)id

额外说明

数学加强 第一节 第十一课

[toc] 凸函数 若函数 f 的定义域 domf 为凸集, 且满足 则有: 一阶可微 若 f 一阶可微, 则函数 f 为凸函数当前仅当 f 的定义域 domf 为凸集, 且 二阶可微 若函数 f 二阶可微, 则函数 f 为凸函数当前仅当 dom 为凸集

额外说明

企业经营模拟(ERP沙盘、ERP电子沙盘)分析总结报告与心得分享

首先,如果学校有开设这门课程,那么真的强烈推荐。虽然大多数老师第一节课就会强调成绩不大可能突破90因此想退课趁早,但是—— 我脑海中一直在用两个词来描述这门课程:启发式的教学方法、理论与实践相结合的授课模式。 这是我第一次体验ERP沙盘,更准确地说,这是

额外说明

Python Django 零基础从零到一部署服务,Hello Django!全文件夹目录和核心代码!

在这篇文章中,我将手把手地教你如何从零开始部署一个使用Django框架的Python服务。无论你是一个刚开始接触开发的新手,还是一个有经验的开发者想要快速了解Django,这篇教程都会为你提供一条清晰的路径。我们将从环境搭建开始,一步一步地创建一个可以处

额外说明

【Python 基础篇】Python 异常处理

文章目录 引言 一、Python异常概述 二、常见的内置异常 三、异常处理语句 四、异常捕获和处理 五、实例演示 六、总结 引言 在软件开发中,错误和异常是难以避免的。当我们编写Python代码时,有时候会遇到各种各样的问题,例如无效的输入、文件不存在、

额外说明

2018~2022年Python学习笔记

LearnPython.org Interactive Python Tutorial 一、2022年Python案例 Python案例:获取天气信息并绘制气温折线图 Python练习:目录与文件操作 Python案例:求满足条件的人数 Python案例

额外说明

Win11系统找不到vccorlib110.dll文件无法运行程序问题

其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题,如果是新手第一时间会认为是软件或游戏出错了,其实并不是这样,其主要原因就是你电脑系统的该dll文件丢失了或者损坏了,这时你只需下载这个vccorlib110.dll文件进行安装(前提是找到适合的版

额外说明

spring boot数据读取、多环境开发、整合第三方bean与数据库等问题

配置文件数据的装配 Spring Boot基于完全注解的开发模型,自动读取默认配置文件并组装到IoC容器中。 三种主要阅读方式: 默认配置文件: method.title=spring boot读取配置文件的三种方式 method.header=thre

ads via 小工具