释放双眼，带上耳机，听听看~！

本研究通过在自注意力学习过程中引入句法解析器生成高质量句法结构，改善了Transformer在底层对输入结构的学习，以及下游任务性能。

导语

本文通过在自注意力学习的过程中显式地引入句法解析器生成地高质量句法结构，解耦Transformer在底层对输入结构的学习，改善了下游任务性能。

会议：EMNLP 2022 Findings
链接：aclanthology.org/2022.findin…

1 简介

自注意力机制不包含结构性的归纳偏置(inductive bias)信息，语言具有天然的层次结构，诸如：

成分句法：表示词元如何层次化地组成句子
依存句法：表示词元之间的属性关系

近年的一些研究表明，大规模自监督预训练模型例如BERT倾向于在底层学习语言的结构，但没有明确规律性，并非人类理解语言使用的树结构。低资源语料，从头进行训练(from scratch)场景下，没有研究显示自注意力能够很好学习符合人类先验的语言结构信息。

人类根据长期实践经验，总结出了一套成熟的句法规则，并开发了高质量句法解析器，诸如：

Stanford CoreNLP：stanfordnlp.github.io/CoreNLP/
Berkley Neural Parser：github.com/slavpetrov/…

为此，本文希望在自注意力学习的过程中显式地引入句法解析器生成地高质量句法结构，更好地解耦Transformer在底层对输入结构的学习，并且改善下游任务性能。

2 相关工作

基于上述动机的研究工作主要可以按照以下标准分类

按照引入句法结构的方式
- 显式：直接使用外在句法解析器生成的句法。
- 隐式：以数据驱动(data-driven)的方式直接从文本中学习句法结构。
按照句法结构的类型
- 成分句法树：词元对词元的以来关系。
- 依存句法树：词元的聚合关系。
按照模型训练方式
- 从头训练
- 预训练/微调

3 基于句法距离监督的自注意力

本文提出了一种将成分句法引入Transformer的注意力形式，并且不需要额外的可学习参数。利用外部解析器解析得到输入文本的成分句法结构。

自注意力机制与句法结构引入的关系研究

作者首先将树结构的成分句法通过句法距离的形式序列化为向量，而后利用句法距离内部每一个距离之间的大小关系生成注意力mask矩阵，该矩阵中每一个词元都只关注父/祖先成分结点内的其他词元。含句法结构的注意力模板和原始注意力融合产生句法注意力。

自注意力机制与句法结构引入的关系研究

这里作者用到了句法距离，相关概念可以参考我之前的博客：论文笔记：Neural Language Modeling by Jointly Learning Syntax and Lexicon

4 实验

作者在机器翻译任务的不同大小规模和不同语系的数据集上进行了实验，包括：

IWSLT14-de/en：TED演讲，小型数据集
NC11-en/de：新闻评论，小型数据集
ASPEC-ch/ja：文献语料库，中型数据集
WMT14-en/de：欧洲新闻预料，大型数据集

使用Moses做预分词，清洗数据后使用Subword NMT做BPE分词，Stanford CoreNLP做句法解析。

主要的实验结果如下：

自注意力机制与句法结构引入的关系研究

同时作者进行了消融实验，研究了成分句法生成的注意力模板在Transformer中不同使用位置上对性能的影响。

自注意力机制与句法结构引入的关系研究

实验结果发现随着层数的加深，成分句法结构对Transformer的促进效果显著衰减，并且最终会比基准性能更差，这与以往基于依存句法的模型结果明显不同。同一层内使用部分注意力头会让模型结果有更多改善。作者认为，这可能是由于成分句法树状的层级结构属于低维的底层信息，会更易被Transformer在底层吸收，而更高层的抽象会被树结构所破坏。

5 总结

本研究利用句法距离引导自注意机制，将成分语法引入到Transformer中。通过将成分句法树转换为句法距离，最终生成句法局部模式，实现了完整的融合Pipeline。实验表明，所提出方法可以持续提高Transformer在各种机器翻译任务中的性能。作者还发现，句法引导的注意力在底层达到最佳效果。未来的工作可以扩展到其他NLU任务和更大规模的预训练模型。

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

自注意力机制与句法结构引入的关系研究

导语

1 简介

2 相关工作

3 基于句法距离监督的自注意力

4 实验

5 总结

解决多标签分类问题的非对称损失方法-ASL

深度学习语义分割篇——FCN原理详解篇

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

StoryDiffusion

归档

{{userData.name}}已认证

导语

1 简介

2 相关工作

3 基于句法距离监督的自注意力

4 实验

5 总结

解决多标签分类问题的非对称损失方法-ASL

深度学习语义分割篇——FCN原理详解篇

深入探讨BERT模型的架构和应用

Transformer模型概述及应用领域

局部注意力模块Slide Attention在ViT中的应用

Self Attention：Transformer中的新注意力机制