Alpaca: 对大型语言模型进行指令调优的研究结果

释放双眼,带上耳机,听听看~!
本文介绍了对大型语言模型进行指令调优的研究结果,Alpaca模型的训练方法和初步评估,以及其已知局限性。该模型禁止商业用途,仅用于学术研究。

本文正在参加crfm.stanford.edu/2023/03/13/…

  • Github:github.com/tatsu-lab/s…
  • 1 概述

    随着大型语言模型的广泛应用,GPT-3.5 (text-davinci-003)、ChatGPT、Claude和Bing Chat等指令调优模型已经变得越来越强大。然而,这些模型基本都是闭源的,如OpenAI的text-davici-003。

    本文发布一种对大型语言模型进行指令调优的研究结果,它被称为Alpaca,是Meta的LLaMA 7B模型的微调模型。作者在使用text-davincic-003以self-instruct的方式生成的52K指令上训练模型。在self-instruct的评估集上,Alpaca表现出许多与OpenAI的text-davincic-003相似的行为,但也令人惊讶地小,易于廉价地复制。

    本文主要介绍了Alpaca的训练方法和数据,并强调该模型仅用于学术研究,禁止任何商业用途。

    2 训练方式

    在学术预算下训练高质量的指令遵循模型有两个重要的挑战:

    1. 一个强大的预训练语言模型;
    2. 高质量的指令调优数据。

    对于第一个挑战,我们可以通过使用Meta最近发布的新LLaMA模型解决,该模型得到了充分的训练并取得了不错的表现。

    对于第二个挑战,Self-instruct论文建议使用现有的强语言模型来自动生成指令数据。具体来说,Alpaca是一种语言模型,使用来自LLaMA 7B模型的监督学习对OpenAI文本davinci-003生成的52K指令跟随演示进行微调。

    下图说明了Alpaca模型的训练过程。对于数据,通过构建Self-instruct方法生成了指令调优的数据。从175对来自Self-instruct种子集的人类编写的指令输出开始。然后,提示text-davinci-003使用种子集作为上下文示例生成更多指令。

    Alpaca: 对大型语言模型进行指令调优的研究结果

    通过简化生成管道(参见GitHub中的详细信息)改进了Self-instruct方法,并显着降低了成本。经过这个数据生成过程后,一共产生了52K个唯一指令和相应的输出,使用OpenAI API的成本不到500美元。

    有了这个指令遵循数据集,作者使用Huggingface的训练框架对LLaMA模型进行了微调,利用了 Fully Sharded Data Parallel 和混合精确训练等技术。作者在8卡80GB的A100上微调7B LLaMA模型花了3个小时。

    3 初步评估

    为了评估Alpaca,作者对来自自我指导评估集的输入进行了人类评估(由5名学生作者进行)。这个评估集是由Self-instruct的作者收集的,涵盖了各种面向用户的指令列表,包括电子邮件写作、社交媒体和生产力工具。我们对text-davincii-003和Alpaca 7B进行了两两盲比较,我们发现这两个模型具有非常相似的性能:与text-davincii -003相比,Alpaca以90:89获胜。

    Alpaca: 对大型语言模型进行指令调优的研究结果

    上面的例子表明,Alpaca的输出通常写得很好。作者注意到Alpaca反映了指令调优数据集的一般风格。因此,Alpaca的答案通常比ChatGPT短,这反映了text-davinci-003的输出更短。

    4 已知局限性

    Alpaca也表现出几种常见的语言模型缺陷,包括幻觉、毒性和刻板印象。特别是幻觉似乎是Alpaca常见的失败模式,甚至与text-davinci-003相比也是如此。

    例如,在下图中,羊驼错误地说坦桑尼亚的首都是达累斯萨拉姆,这是坦桑尼亚最大的城市。(在1974年之前,它一直是首都,后来被多多马取代。)

    Alpaca: 对大型语言模型进行指令调优的研究结果

    此外,Alpaca可用于生成传播错误信息的编写良好的输出(这里展示了一个让Alpaca论证随机数种子42是最好的选择的论文摘要),如下面的示例所示。

    Alpaca: 对大型语言模型进行指令调优的研究结果

    Alpaca可能包含与底层语言模型和指令调优数据相关的许多其他限制。然而,我们相信这个工件对社区仍然是有用的,因为它提供了一个相对轻量级的模型,作为研究重要缺陷的基础。

    5 发布的资源

    6 未来研究方向

    Alpaca带来许多研究机,例如:

    • 评估:需要更严格地评估羊驼。例如从HELM(语言模型的整体评估)开始,希望它将发展到捕获更多的生成,指令遵循的场景。
    • 安全性:希望进一步研究Alpaca的风险,并使用自动红队、审计和适应性测试等方法提高其安全性。
    • 理解:希望更好地理解能力是如何从训练中产生的。需要基本模型的哪些属性?当扩大规模时会发生什么?需要指令数据的哪些属性?在文本上使用Self-instruct的替代方案是什么?

    本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
    AI教程

    交互式prompt系统:让文生图模型更懂你

    2023-12-7 18:47:14

    AI教程

    ChatGPT与机器狗Spot的结合:AI的新应用

    2023-12-7 18:56:14

    个人中心
    购物车
    优惠劵
    今日签到
    有新私信 私信列表
    搜索