开源资源对ChatGPT性能的影响及相关论文研究

释放双眼,带上耳机,听听看~!
这篇文章探讨了开源资源对ChatGPT性能的影响,并介绍了最新的论文研究成果。通过对大规模语言模型的指令精调,作者展示了不同数据集对模型性能的影响,为AI技术的发展提供了有益的参考。


夕小瑶科技说 原创
作者 | Python

ChatGPT强大的性能让人爱不释手,ChatGPT迟迟不开源让人恨得牙根痒痒。那仅通过开源数据,能够取得怎样的效果呢?近期,AI2的一篇论文显示,最好的65B规模的模型能够达到ChatGPT表现的83%,能够达到GPT-4表现的68%。让我们一起来看看他们是怎么做的。

论文题目:
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources

论文链接:
arxiv.org/pdf/2306.04…

项目链接:
github.com/allenai/ope…

开源资源使用

ChatGPT等大规模语言模型(简称大模型)的训练主要分成两个阶段:语言模型训练指令精调。对语言模型训练,该文主要探索了不同规模3种预训练模型:LLaMa、OPT和Pythia。下图展示了不同模型的参数规模及预训练时的数据规模。

开源资源对ChatGPT性能的影响及相关论文研究

而在第二步的指令精调中,该文探索了如下12个开源的指令精调数据集。这些数据集的构建思路主要包括5个方向:

  1. 通过现有的NLP数据集构建
  2. 人类从头写
  3. 通过GPT4等特定模型生成
  4. 人类写的prompt+模型生成补全
  5. 通过思维链(CoT)、代码补全等特定形式构建

开源资源对ChatGPT性能的影响及相关论文研究

图中,NroundsN_{rounds}为对话的平均轮数,后两列为用户prompt与生成内容的平均长度。

作者还构建了2个混合数据源的训练集,包括:

  • Human data mixture:含有人类标注的数据集(FLAN V2, CoT, Dolly, 和 Open Assistant 1)
  • Human+GPT data mix:进一步增加模型生成的数据集(GPT4-Alpaca, Code-Alpaca, and ShareGPT)

评价方式

如何评估大模型的好坏也是个复杂的问题。该文采用了包括自动评价和人工评价的方式,包括:

  • 事实知识:Massive Multitask Language Understanding dataset (MMLU)。以单选题的形式,涵盖了57个学科,从入门级到专业级难度的都有。
  • 推理:Grade School Math dataset (GSM) 和 Big-Bench-Hard (BBH)。GSM是小学难度的数学题;而BBH包含了23种较难的推理任务,比如日期理解、影评、逻辑归纳、目标计数等。
  • 多语言能力:基于TyDiQA,段落级抽取式阅读理解数据集,包含11种不同形式的语言。
  • 编程:基于HumanEval数据集,基于文档的函数级变成能力(为避免混淆,这里改称为Codex-Eval)。
  • 基于模型的评价方式:参考AlpacaFarm的设置,选取805个开放式指令。让Davinci-003生成长度不超过2048的回复作为基准,并让GPT-4来做排序比较。
  • 人工评价:考虑了332个指令(源于Self-Instruct 和Vicuna)。指标包括:
    • 二分类地去判断每个回复是否可以接受
    • 5分类地两两比较模型输出结果

实验结果

结论1:不同的Instruction Tuning数据集,会给模型带来不同方面的优势。

结论2:混合多种Instruction Tuning数据集效果会更好。

这两条结论很容易从下图中看出。比如MMLU上,用Flan V2最好,GSM上,用CoT最好,在Codex-Eval上用Code-Alpaca最好。Instruction Turing数据和下游任务一致性越高,表现就越好。而看均值的话,混合最多数据集的Human+GPT data mix最好。

开源资源对ChatGPT性能的影响及相关论文研究

接下来,使用Human+GPT data mix,检验参数量相当的的Pythia(300B)、OPT(180B)和LLAMA(1.0T)模型的表现,如下图所示,发现表现与预训练时使用的数据规模一致。

结论3:参数规模相同时,backbone模型预训练数据量越大表现越好。

开源资源对ChatGPT性能的影响及相关论文研究

后文将在Human+GPT data mix上调整过的LLAMA模型称作TÜLU。下图印证了几个比较常规的结论:参数越多表现越好;Instruction Tuning对所有参数规模的模型都有效;参数规模越小提升越大。以及:

结论4:TÜLU 65B同ChatGPT相比还有差距,表现达到ChatGPT的83%,GPT-4的68%。

开源资源对ChatGPT性能的影响及相关论文研究

具体的人类评价结果如下图所示,可以看到 TÜLU 65B 和 ChatGPT 相比仍有较大差距。(下图左是是否接受的0-1评分,下图右为两两比较评分)

开源资源对ChatGPT性能的影响及相关论文研究

总结

OpenAI的ChatGPT等模型不开源,给学术界相关研究提出了很大的挑战。本文系统地探索了开源数据集上Instructiong Tuning的结果,并同ChatGPT于GPT-4的结果系统比较,对相关研究具有较好的参考价值。

此外,对比本文于OpenAI的论文也可以看出,OpenAI真的是什么训练细节都不讲。且不说GPT-4的技术报告中没有涉及任何技术细节,就连最近被大家夸赞开源了数据集的文章verify step by step中透露的技术细节也远少于本文。

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

大模型优化之KV Cache

2023-11-26 15:23:14

AI教程

人工智能LLM模型奖励模型的训练

2023-11-26 15:40:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索