Meta 开源 LLaMA、Alpaca 和 Vicuna 大语言模型，助力学术研究与聊天机器人发展

AI教程
23年12月5日
编辑

HenryHe

释放双眼，带上耳机，听听看~！

本文介绍了Meta开源的LLaMA模型、斯坦福团队微调的Alpaca和Vicuna模型，并探讨了这些大语言模型在学术研究和聊天机器人发展中的应用。

Meta 开源 LLaMA 模型

2023.2.25 Meta 开源了四种尺寸的大语言模型 LLaMA，分别为 7B、13B、33B 和 65B。LLaMA 模型能够生成文本、进行对话、总结书面材料以及解决数学定理或预测蛋白质结构等。相较于 GPT-3，LLaMA 65B 在大多数基准上都要优于 GPT-3，偏见性略低于 GPT-3。Meta 的开源举措有助于解决大语言模型的偏见性、有毒或虚假内容等问题。论文地址

Meta 开源 LLaMA、Alpaca 和 Vicuna 大语言模型，助力学术研究与聊天机器人发展

预训练数据集, 训练数据以英文为主, 中文极少. 测试体验能理解中文, 默认用英文回答.

Meta 开源 LLaMA、Alpaca 和 Vicuna 大语言模型，助力学术研究与聊天机器人发展

能源消耗及碳排放量

Meta 开源 LLaMA、Alpaca 和 Vicuna 大语言模型，助力学术研究与聊天机器人发展

Stanford 微调 Alpaca 7B 模型

Meta 开源 LLaMA、Alpaca 和 Vicuna 大语言模型，助力学术研究与聊天机器人发展

2023.3.14 斯坦福大学计算机科学副教授 Percy Liang 领导的团队，使用 Meta 的 LLaMA 模型微调出了一个新模型 Alpaca，仅用了 52k 数据，性能约等于 GPT-3.5，且训练成本不到 600 美元。Alpaca 的性能已经接近 GPT-3.5，且具有更低的训练成本，这将为学术研究提供更多可能性。

Meta 开源 LLaMA、Alpaca 和 Vicuna 大语言模型，助力学术研究与聊天机器人发展

他们的开源项目包含了用于微调模型的 52K 数据、生成数据的代码、微调模型的代码以及从发布的权重差中恢复 Alpaca-7B 权重的代码。该模型目前仅用于研究目的，数据集和模型训练应仅用于研究目的。该项目还提供了数据生成过程、微调过程和恢复权重的详细说明。此外，斯坦福团队还总结了 Alpaca 未来研究的三个方向：评估、安全和理解。

收藏数: 2.3w
主要编程语言: Python
官网地址: crfm.stanford.edu/2023/03/13/…
开源代码地址: github.com/tatsu-lab/s…

指令微调数据集示例如下, 每条数据包含三个字段 instruction, input, output, 其中 input 可选, 指令 instruction 在 52k 数据中是唯一的.

Meta 开源 LLaMA、Alpaca 和 Vicuna 大语言模型，助力学术研究与聊天机器人发展

成本, 8 * A00 80GB 训练 3 小时, 100 美元; 调用 GPT-3 生成微调数据, 500 美元.

Stanford 微调 Vicuna 13B 模型

2023.3.30 斯坦福联手 CMU、UC 伯克利等机构的学者发布了 130 亿参数模型骆马（Vicuna），是在 LLaMa-13B 的基础上使用监督数据微调得到的模型，数据集来自于 ShareGPT.com 产生的用户对话数据，共 70K 条，训练花费 300 美元。研究人员设计了 8 个问题类别，对 Vicuna-13B 与其他四个模型进行了性能测试，使用 GPT-4 作为判断的初步评估表明，Vicuna-13B 在超过 90% 的情况下实现了与 ChatGPT 和 Bard 相匹敌的能力。官方博文, 在线体验地址

Meta 开源 LLaMA、Alpaca 和 Vicuna 大语言模型，助力学术研究与聊天机器人发展

上图提到的用于模型服务的 FastChat, 是一个开放平台，用于训练、服务和评估基于大型语言模型的聊天机器人。核心功能包括：最先进模型的权重、训练代码和评估代码（例如 Vicuna、FastChat-T5）；分布式多模型服务系统，具有 Web UI 和 OpenAI 兼容的 RESTful API；AI 增强的评估流水线，基于 GPT-4。FastChat 提供了安装、推理、服务、API、评估和微调等多种功能，支持多种模型，包括 Vicuna、LLaMA、Koala、FastChat-T5 等。FastChat 还提供了 Chatbot Arena，用于模型之间的对战。FastChat 的安装简单，可以通过 pip 或源代码安装。

收藏数: 1.9w
主要编程语言: Python
开源代码地址: github.com/lm-sys/Fast…

中文 LLaMA & Alpaca 大模型

Meta 开源 LLaMA、Alpaca 和 Vicuna 大语言模型，助力学术研究与聊天机器人发展

为了促进大模型在中文 NLP 社区的开放研究，本项目开源了中文 LLaMA 模型和指令精调的 Alpaca 大模型，扩充了中文词表并使用中文数据进行二次预训练，提升了中文基础语义理解能力。Alpaca 模型进一步使用指令数据进行精调，显著提升了模型对指令的理解和执行能力。支持🤗transformers, llama.cpp, text-generation-webui, LlamaChat 等生态。用户可通过本地量化和部署体验大模型，适用于文本续写、指令理解、多轮上下文理解等场景。模型下载需注意 Facebook 官方发布的 LLaMA 模型禁止商用，本项目发布的是 LoRA 权重，需与原版 LLaMA 模型合并使用。

效果评测

Meta 开源 LLaMA、Alpaca 和 Vicuna 大语言模型，助力学术研究与聊天机器人发展

收藏数: 8.0k
主要编程语言: Python
官网地址: github.com/ymcui/Chine…
开源代码地址: github.com/ymcui/Chine…

llama.cpp, Inference of LLaMA model in pure C/C++

Meta 开源 LLaMA、Alpaca 和 Vicuna 大语言模型，助力学术研究与聊天机器人发展

llama.cpp 是一个用于在 MacBook 上运行 LLaMA 模型的纯 C/C++实现，支持 4 位整数量化，无依赖性，支持 Apple Silicon，支持 AVX、AVX2 和 AVX512，支持混合 F16/F32 精度，支持 OpenBLAS、cuBLAS 和 CLBlast。该项目旨在为 ggml 库开发新功能提供主要的游乐场，支持 LLaMA、Alpaca、GPT4All、Vigogne、Vicuna、Koala、OpenBuddy、Pygmalion 7B/Metharme 7B 等多种模型。用户可以通过交互模式或指令模式使用该项目，也可以使用 Python、Go、Node.js、Ruby 等语言的绑定。

收藏数: 2.7w
主要编程语言: C
开源代码地址: github.com/ggerganov/l…

借助 llama.cpp 推理引擎, Chinese-Alpaca-Plus-7B 模型在普通 Mac 电脑上, 都能跑起来, 而且速度挺快. 下一篇内容接入如何本地部署.

最后, 这些模型的名字有时候分不清, 可以看下图

Meta 开源 LLaMA、Alpaca 和 Vicuna 大语言模型，助力学术研究与聊天机器人发展

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

Alpaca Meta LLaMA Vicuna 大语言模型开源软件

处理不平衡数据集和提高机器学习模型性能的技巧和策略

2023-12-5 12:47:14

中国科学家研发「脑-图-文」多模态学习模型，实现大脑活动语义解码

2023-12-5 12:50:14

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部