导语
本文通过在自注意力学习的过程中显式地引入句法解析器生成地高质量句法结构,解耦Transformer在底层对输入结构的学习,改善了下游任务性能。
- 会议:EMNLP 2022 Findings
- 链接:aclanthology.org/2022.findin…
1 简介
自注意力机制不包含结构性的归纳偏置(inductive bias)信息,语言具有天然的层次结构,诸如:
- 成分句法:表示词元如何层次化地组成句子
- 依存句法:表示词元之间的属性关系
近年的一些研究表明,大规模自监督预训练模型例如BERT倾向于在底层学习语言的结构,但没有明确规律性,并非人类理解语言使用的树结构。低资源语料,从头进行训练(from scratch)场景下,没有研究显示自注意力能够很好学习符合人类先验的语言结构信息。
人类根据长期实践经验,总结出了一套成熟的句法规则,并开发了高质量句法解析器,诸如:
- Stanford CoreNLP:stanfordnlp.github.io/CoreNLP/
- Berkley Neural Parser:github.com/slavpetrov/…
为此,本文希望在自注意力学习的过程中显式地引入句法解析器生成地高质量句法结构,更好地解耦Transformer在底层对输入结构的学习,并且改善下游任务性能。
2 相关工作
基于上述动机的研究工作主要可以按照以下标准分类
- 按照引入句法结构的方式
- 显式:直接使用外在句法解析器生成的句法。
- 隐式:以数据驱动(data-driven)的方式直接从文本中学习句法结构。
- 按照句法结构的类型
- 成分句法树:词元对词元的以来关系。
- 依存句法树:词元的聚合关系。
- 按照模型训练方式
- 从头训练
- 预训练/微调
3 基于句法距离监督的自注意力
本文提出了一种将成分句法引入Transformer的注意力形式,并且不需要额外的可学习参数。利用外部解析器解析得到输入文本的成分句法结构。
作者首先将树结构的成分句法通过句法距离的形式序列化为向量,而后利用句法距离内部每一个距离之间的大小关系生成注意力mask矩阵,该矩阵中每一个词元都只关注父/祖先成分结点内的其他词元。含句法结构的注意力模板和原始注意力融合产生句法注意力。
这里作者用到了句法距离,相关概念可以参考我之前的博客:论文笔记:Neural Language Modeling by Jointly Learning Syntax and Lexicon
4 实验
作者在机器翻译任务的不同大小规模和不同语系的数据集上进行了实验,包括:
- IWSLT14-de/en:TED演讲,小型数据集
- NC11-en/de:新闻评论,小型数据集
- ASPEC-ch/ja:文献语料库,中型数据集
- WMT14-en/de:欧洲新闻预料,大型数据集
使用Moses做预分词,清洗数据后使用Subword NMT做BPE分词,Stanford CoreNLP做句法解析。
主要的实验结果如下:
同时作者进行了消融实验,研究了成分句法生成的注意力模板在Transformer中不同使用位置上对性能的影响。
实验结果发现随着层数的加深,成分句法结构对Transformer的促进效果显著衰减,并且最终会比基准性能更差,这与以往基于依存句法的模型结果明显不同。同一层内使用部分注意力头会让模型结果有更多改善。作者认为,这可能是由于成分句法树状的层级结构属于低维的底层信息,会更易被Transformer在底层吸收,而更高层的抽象会被树结构所破坏。
5 总结
本研究利用句法距离引导自注意机制,将成分语法引入到Transformer中。通过将成分句法树转换为句法距离,最终生成句法局部模式,实现了完整的融合Pipeline。实验表明,所提出方法可以持续提高Transformer在各种机器翻译任务中的性能。作者还发现,句法引导的注意力在底层达到最佳效果。未来的工作可以扩展到其他NLU任务和更大规模的预训练模型。