Alpaca: 对大型语言模型进行指令调优的研究结果

释放双眼，带上耳机，听听看~！

本文介绍了对大型语言模型进行指令调优的研究结果，Alpaca模型的训练方法和初步评估，以及其已知局限性。该模型禁止商业用途，仅用于学术研究。

本文正在参加crfm.stanford.edu/2023/03/13/…

Github：github.com/tatsu-lab/s…

1 概述

随着大型语言模型的广泛应用，GPT-3.5 (text-davinci-003)、ChatGPT、Claude和Bing Chat等指令调优模型已经变得越来越强大。然而，这些模型基本都是闭源的，如OpenAI的text-davici-003。

本文发布一种对大型语言模型进行指令调优的研究结果，它被称为Alpaca，是Meta的LLaMA 7B模型的微调模型。作者在使用text-davincic-003以self-instruct的方式生成的52K指令上训练模型。在self-instruct的评估集上，Alpaca表现出许多与OpenAI的text-davincic-003相似的行为，但也令人惊讶地小，易于廉价地复制。

本文主要介绍了Alpaca的训练方法和数据，并强调该模型仅用于学术研究，禁止任何商业用途。

2 训练方式

在学术预算下训练高质量的指令遵循模型有两个重要的挑战：

一个强大的预训练语言模型；

高质量的指令调优数据。

对于第一个挑战，我们可以通过使用Meta最近发布的新LLaMA模型解决，该模型得到了充分的训练并取得了不错的表现。

对于第二个挑战，Self-instruct论文建议使用现有的强语言模型来自动生成指令数据。具体来说，Alpaca是一种语言模型，使用来自LLaMA 7B模型的监督学习对OpenAI文本davinci-003生成的52K指令跟随演示进行微调。

下图说明了Alpaca模型的训练过程。对于数据，通过构建Self-instruct方法生成了指令调优的数据。从175对来自Self-instruct种子集的人类编写的指令输出开始。然后，提示text-davinci-003使用种子集作为上下文示例生成更多指令。

通过简化生成管道(参见GitHub中的详细信息)改进了Self-instruct方法，并显着降低了成本。经过这个数据生成过程后，一共产生了52K个唯一指令和相应的输出，使用OpenAI API的成本不到500美元。

有了这个指令遵循数据集，作者使用Huggingface的训练框架对LLaMA模型进行了微调，利用了 Fully Sharded Data Parallel 和混合精确训练等技术。作者在8卡80GB的A100上微调7B LLaMA模型花了3个小时。

3 初步评估

为了评估Alpaca，作者对来自自我指导评估集的输入进行了人类评估(由5名学生作者进行)。这个评估集是由Self-instruct的作者收集的，涵盖了各种面向用户的指令列表，包括电子邮件写作、社交媒体和生产力工具。我们对text-davincii-003和Alpaca 7B进行了两两盲比较，我们发现这两个模型具有非常相似的性能:与text-davincii -003相比，Alpaca以90：89获胜。

上面的例子表明，Alpaca的输出通常写得很好。作者注意到Alpaca反映了指令调优数据集的一般风格。因此，Alpaca的答案通常比ChatGPT短，这反映了text-davinci-003的输出更短。

4 已知局限性

Alpaca也表现出几种常见的语言模型缺陷，包括幻觉、毒性和刻板印象。特别是幻觉似乎是Alpaca常见的失败模式，甚至与text-davinci-003相比也是如此。

例如，在下图中，羊驼错误地说坦桑尼亚的首都是达累斯萨拉姆，这是坦桑尼亚最大的城市。(在1974年之前，它一直是首都，后来被多多马取代。)

此外，Alpaca可用于生成传播错误信息的编写良好的输出（这里展示了一个让Alpaca论证随机数种子42是最好的选择的论文摘要），如下面的示例所示。

Alpaca可能包含与底层语言模型和指令调优数据相关的许多其他限制。然而，我们相信这个工件对社区仍然是有用的，因为它提供了一个相对轻量级的模型，作为研究重要缺陷的基础。

5 发布的资源

演示网页:一个互动的演示，让大家尝试Alpaca，crfm.stanford.edu/alpaca/

数据:用于微调羊驼的52K数据，github.com/tatsu-lab/s…

数据生成过程:生成数据的代码，github.com/tatsu-lab/s…

训练代码:用于使用Huggingface API微调模型，github.com/tatsu-lab/s…

6 未来研究方向

Alpaca带来许多研究机，例如:

评估：需要更严格地评估羊驼。例如从HELM(语言模型的整体评估)开始，希望它将发展到捕获更多的生成，指令遵循的场景。

安全性：希望进一步研究Alpaca的风险，并使用自动红队、审计和适应性测试等方法提高其安全性。

理解：希望更好地理解能力是如何从训练中产生的。需要基本模型的哪些属性?当扩大规模时会发生什么?需要指令数据的哪些属性?在文本上使用Self-instruct的替代方案是什么?

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

Alpaca: 对大型语言模型进行指令调优的研究结果

1 概述

2 训练方式

3 初步评估

4 已知局限性

5 发布的资源

6 未来研究方向

交互式prompt系统：让文生图模型更懂你

ChatGPT与机器狗Spot的结合：AI的新应用

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

1 概述

2 训练方式

3 初步评估

4 已知局限性

5 发布的资源

6 未来研究方向

交互式prompt系统：让文生图模型更懂你

ChatGPT与机器狗Spot的结合：AI的新应用

指令调优大语言模型的性能评估及挑战

智谱AI推出全自研第三代基座大模型ChatGLM3

GPT4 vs Claude2: 详细对比

2025年人类数据枯竭？AI全景报告详解未来技术发展趋势