AugGPT: 一种基于ChatGPT的新数据增强方法在NLP中的应用

释放双眼,带上耳机,听听看~!
本文介绍了一种基于ChatGPT的新数据增强方法AugGPT,在NLP中应用于Few-shot Learning场景,能够有效生成准确和全面的训练样本,可能改变NLP中Few-shot Learning的现状。

导语

1 简介

训练数据的数量和质量是NLP中的核心点之一,然而在Few-shot Learning(FSL)的场景下,训练数据通常是严重不足的。现有的FSL研究主要依靠以下几个方面克服这些困难:

  • 更好的模型设计
  • 借助元学习来利用有限的样例进行Fine-tune
  • 利用基于Prompt的方法

然而,这些方法的性能在本质上仍然受到源域和目标域数据质量和数量的限制。

除了模型层面的研究,数据增强也被认为是FSL领域一个有潜力的方向。数据增强通常与模型无关,并且不涉及对底层模型体系结构的更改,这使得这种方法适用于广泛的任务。NLP中常用的增强方法包括同义词替换、随机删除和随机插入。最近的方法利用语言模型来生成可靠的样本,以实现更有效的数据增强,包括反向翻译和隐空间中的词向量插值。但是,现有的数据增强方法在生成文本数据的准确性和多样性方面存在局限性,很多应用场景中仍然需要人工标注。

GPT等大型语言模型(LLM)的出现为生成类似于人类标记数据的文本样本带来了新的机会,这大大减轻了人类标注者的负担。LLM能够编码丰富的事实知识用于语言生成,最近的ChatGPT利用强化学习与人类反馈(RLHF),从而使其能够对输入产生更有信息和更公正的响应。

受LLM在文本生成中的成功启发,本文提出了一种新的数据增强方法AugGPT,该方法利用ChatGPT生成辅助样本,用于Few-shot文本分类。实验结果展示了所提出方法的有效性。同时,通过对生成的文本样本的忠实度和紧凑度的进一步研究表明,AugGPT可以生成更多样化的增强样本,同时保持其准确性(即与原始标签的语义相似)。作者认为,LLM的发展将能够达到人类水平的标注性能,从而彻底改变FSL和NLP中的其他任务。

2 相关工作

2.1 数据增强

数据增强,即通过转换人工生成新的文本,被广泛用于改进文本分类中的模型训练。在NLP中,现有的数据增强方法体现在几种不同的粒度级别上:

  • 字符(characters):字符级的数据增强是指对文本[22]中的字符进行随机插入、交换、替换或删除,提高了NLP模型对噪声的鲁棒性。其他的方法还有光学字符识别(OCR)数据增强,拼写增强,键盘增强等。
  • 单词(words):如随机交换、随机删除、同义词扩展、上下文增强等方法;
  • 句子(sentences)或文档(documents):如反向翻译等;

一般来说,无论粒度级别或文本生成主干(即,基于规则的或语言模型),数据增强的目标都是生成合理而多样的新样本,以保持语义一致性。

2.2 Few-shot Learning

Few-shot Learning用于以解决小样本量的挑战。它的一个经典应用场景是,由于隐私、安全或道德考虑,很难或不可能获得有监督的示例。NLP中的一种常见方法是使用预先训练好的语言模型(如BERT[4])作为起点,然后使用有限的样本对其进行微调。一些最新的方法包括提示调优和元学习。一般来说,现有的FSL方法的目标是架构设计,数据增强或改进训练过程。

尽管最近出现了提示调优和元学习方法,但它们仍存在一些主要的局限性。例如,提示工程是一门繁琐的工作。元学习存在训练不稳定性和对超参数敏感等问题。如2.1节所述,数据增强是FSL的有效解决方案,可以与其他FSL模型结合使用。因此,本文提出的AugGPT方法已经证明了生成准确和全面的训练样本的能力,可以克服当前FSL方法的问题,并有可能改变NLP中FSL的现状。

2.3 超大语言模型

基于Transformer架构的预训练语言模型(PLMs),如BERT和GPT模型家族,已经彻底改变了NLP。近年来,NLP社区见证了大型语言模型的兴起,如GPT-3 (175B参数)、PaLM (540B参数)、Bloom (176B参数)、OPT(最多175B参数)和FLAN系列(FLAN有137B参数)。

大型语言模型旨在学习输入文本的准确潜在特征表示。现有研究表明,预训练的语言模型可以帮助数据集增加语义相似的新样本,这对现实应用具有重要的实用价值。本文的目标是使用流行的LLM ChatGPT进行数据增强。ChatGPT是基于GPT-3的,通过来自人类反馈的强化学习(RLHF)来训练得到。在RLHF过程中,人类反馈被纳入到生成和选择最佳结果的过程中。更具体地说,奖励模型是基于人类注释者的排名或生成的结果进行训练的。反过来,这个奖励模型奖励最符合人类偏好和人类价值观的模型输出。作者相信这些创新使ChatGPT成为生成人类水平质量数据样本的最佳候选。

2.4 ChatGPT:当下与未来

ChatGPT是自然语言处理领域的游戏规则改变者。在人类历史上,大型语言模型的强大功能首次通过用户友好的聊天机器人界面向公众开放。反过来,这种常见的可访问性有助于ChatGPT空前的流行。ChatGPT已经成为许多NLP应用程序的通用问题解决器。

ChatGPT也是多语言任务的有价值的解决方案。此外,还可以使用纯基于文本的ChatGPT与多模态数据交互。研究人员发现,描述性文本提示可以提高多模态任务的性能。除了计算机科学,ChatGPT还可以很容易地应用于医疗,教育,数学和金融等领域。

总的来说,ChatGPT是一个通用的工具,可以促进人工智能的普遍使用。然而,研究人员也对ChatGPT可能产生的负面影响持谨慎态度。一些比较突出的担忧与偏见、道德、剽窃和集体替代工作有关。作为回应,发表在《自然》杂志上的一篇评论主张迫切关注问责制、开源大型语言模型和社会对AI的接纳。

3 数据集

本文首先使用开放域数据集Amazon来验证方法的有效性。然后,以临床自然语言处理(clinical NLP)为任务,在两个流行的公共基准上进行实验。数据增强在临床NLP中特别有需求,因为专家注释的巨大负担和严格的隐私法规使得大规模数据标记不可行。

  • Amazon数据集:包含24个产品类别的客户评论。任务是将评论分类到各自的产品类别中。由于原始Amazon产品数据集非常大,所以我们从每个类别中抽取300个样本。
  • c数据集:包含8小时以上常见医疗症状描述的音频数据。我们使用与音频数据对应的文本副本并进行样本重复数据删除,并将其作为模型输入。预处理后的数据集包含7个症状类别的231个样本。每个示例都代表一个描述所提供症状的句子,任务是将该句子分类为相应的症状。
  • PubMed20k数据集:包括来自生物医学领域的约20,000个带注释的科学摘要。这些注释包含命名实体、实体之间的关系和各种语义角色,使得数据集对于不同的NLP任务(如命名实体识别、关系提取和文本分类)很有价值。数据集来源于PubMed数据库,该数据库涵盖了广泛的生物医学主题。由于其庞大的规模、种类和高质量的注释,PubMed20K已成为评估生物医学NLP领域机器学习模型性能的流行基准数据集。PubMed 20K数据集中的摘要经过预处理和分割成单个句子。每句话都分为以下五类:背景、目标、方法、结果或结论。任务是将输入的句子映射到相应的类别。

4 方法

总体框架如下图1所示,

AugGPT: 一种基于ChatGPT的新数据增强方法在NLP中的应用

与以往的数据增强方法相比,ChatGPT更适合于数据增强,原因如下:

  • ChatGPT在大规模语料库上进行预训练,具有更广阔的语义表达空间,有助于增强数据增强的多样性。
  • 由于ChatGPT的微调阶段引入了大量的人工注释样本,因此ChatGPT生成的语言更符合人类的表达习惯。
  • 通过强化学习,ChatGPT可以比较不同表达式的优缺点,确保生成的数据是高质量的。

在BERT框架下,引入ChatGPT作为Few-shot文本分类的数据增强工具。具体来说,ChatGPT应用于将每个输入句子rephrase为六个额外的句子,从而增加了Few-shot样本。

作者采取的单轮和多轮Prompt也比较简单,如下图所示:

AugGPT: 一种基于ChatGPT的新数据增强方法在NLP中的应用

Amazon数据集使用多轮对话Prompt进行数据增强。Symptoms和PubMed20K使用单轮对话提示进行数据增强。

5 实验结果

主要的实验结果如下图所示:

AugGPT: 一种基于ChatGPT的新数据增强方法在NLP中的应用

这些结果表明,使用ChatGPT进行数据增强可以更有效地提高机器学习模型在各种应用中的性能。

同时,作者也对数据增强后的质量进行了评估,使用余弦相似度和TransRate度量来评估潜在嵌入。横轴表示余弦相似度值和Transrate值,纵轴表示分类精度。由于嵌入式相似度衡量的是生成的数据与测试数据集之间的相似度,相似度高意味着生成的数据接近真实的输入数据,具有更高的忠实度和紧凑度。TransRate越高,数据的学习性越好。因此,TransRate分数越高,增强后的数据质量越高。最理想的候选方法应该位于可视化的右上角。

AugGPT: 一种基于ChatGPT的新数据增强方法在NLP中的应用

6 总结

本文提出了一种用于Few-shot分类的新型数据增强方法,旨在通过语义层面的扩展来增加有限数据的数据量,从而提高模型的性能。该方法通过在生成式模型生成的虚拟样本和真实样本之间进行互相转换,并结合对抗性训练和自监督学习来保持数据的一致性和鲁棒性。与传统的文本数据增强方法相比,该方法在性能上表现出更好的效果。

此外,作者认为类似的方法还可以应用于其他自然语言处理(NLP)任务,如命名实体识别、关系抽取等。未来的研究方向可以包括对特定领域进行数据微调,探索上下文内学习、知识蒸馏和风格迁移等技术的应用。此外,将该方法应用于计算机视觉和认知科学领域也可能具有潜在的应用价值,可以进一步拓展该方法的应用范围。

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

ChatGPT对话:AI科技竞赛

2023-12-7 14:33:14

AI教程

文本生成图像技术的难点、要点和研究方向

2023-12-7 14:47:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索