Mistral-7B:开源大模型社区的新宠

释放双眼,带上耳机,听听看~!
Mistral-7B成为开源大模型社区的新宠,性能更强,硬件需求更少,安全对齐更合理。本文详细介绍了Mistral-7B的特点和优势,对比了与Llama 2的差异,并提及了Mistral AI公司的背景和前景。

羊驼都不香了

一个神秘磁力链接,成了开源大模型社区的新宠。

里面是来自法国的开源大模型 Mistral-7B,大家试用下来,觉得 Llama 2 都不香了

Mistral-7B:开源大模型社区的新宠

有开发者建议,代码之外的数据微调,34B 以下规模先试试它就对了。

Mistral-7B:开源大模型社区的新宠

也有公司开始把它用在简历自动解析和评估业务上。

Mistral-7B:开源大模型社区的新宠

想基于 Mistral 创业的更是大有人在。

Mistral-7B:开源大模型社区的新宠

发布不到 2 周,配套生态也迅速发展起来,如何在单卡上微调的教程有了。

Mistral-7B:开源大模型社区的新宠

各种基础设施和工具链也添加了对 Mistral-7B 的支持。

Mistral-7B:开源大模型社区的新宠

专用于代码补全的微调版本也有人搞出来了。

Mistral-7B:开源大模型社区的新宠

甚至有人基于它微调了一个神秘学玄学大模型,也很受欢迎。

Mistral-7B:开源大模型社区的新宠

与 Meta 刚刚发布 Llama 的时候,迅速出现各种其他驼和神兽,发展成大模型动物园的场景太像了。

Mistral 这个单词在法语里代表冬季的一种强风。

羊驼们,准备好过冬了吗?

先上总结,综合官方公告和社区反馈,主要有 5 个方面:

性能更强,硬件需求更少,有 2023 年的知识,安全对齐没那么离谱,开源协议更宽松,

根据官方发布公告,Mistral 7B 在所有尝试过的评测基准中超过 Llama 2 13B。

并在代码、数学和推理评测中超过 Llama 1 34B。

Mistral-7B:开源大模型社区的新宠

另外代码任务上的表现接近专门的 CodeLlama 7B,同时保留了自然语言能力。

上下文窗口也达到了 8k。

更详细的测评数据如下。

Mistral-7B:开源大模型社区的新宠

以小胜大,意味着取得相似的效果硬件需求更少。

官方也特别说明用了各种优化手段,FlashAttention,Grouped-Query Attention,Sliding Window Attention 一起上。

现在已经看到很多开发者晒自己在苹果笔记本跑起来的经验。

Mistral-7B:开源大模型社区的新宠

量化后只需要 6G 显存。

Mistral-7B:开源大模型社区的新宠

官方没有具体说明训练数据截止日期。

但经网友测试,2023 年 3 月 OpenAI 发布 GPT-4 的事它也知道。

Mistral-7B:开源大模型社区的新宠

相比之下 Llama 2 的预训练数据截止到 2022 年 9 月,只有部分微调数据最多到 2023 年 6 月。

Llama 2 的安全对齐措施非常充分严格,甚至损失了一部分实用性。

比如拒绝回答如何 “杀死” 一个 Linux 线程,只能说过于礼貌也是一种不礼貌了。

Mistral-7B:开源大模型社区的新宠

还有创业者根据自己经历总结了 3 点是 Mistral-7B 能做但 Llama 2 做不好的。

他做的是检索复杂 SQL 语句,对比测试发现 Llama 2 13B 有几个缺点:

  • 即使提供少样本示例,也会在结构化输出中插入评论
  • 会在时间字段上出错
  • 在数据结构定义 DDL 中如果有多个表,总是漏掉至少一个表

而 Mistral-7B 具体效果还在测试中,至少这些问题都不存在。

Mistral-7B:开源大模型社区的新宠

另外 Mistral-7B 还非常适合用来微调,官方也出了经过指令微调的聊天版本作为补充。

Mistral-7B:开源大模型社区的新宠

Mistral 基于非常宽松的 Apache2.0 协议开源,免费,允许商业使用、修改和分发。

相比之下 Meta 为 Llama 2 准备的协议,甚至被开源界批评为严格来讲不算真正的开源。

Mistral-7B:开源大模型社区的新宠

比如有附加商业条款,月活超过 7 亿的产品或服务需要单独申请许可,这条主要针对大公司。

针对个人和小公司的也有不能使用 Llama 生成的结果来改进其他模型等。

Mistral AI 成立于今年 5 月,总部法国巴黎,3 位创始人是 DeepMind 和 Meta 前员工,

外界将这家公司看成是欧洲的 OpenAI

当初刚成立 4 周还没有产品时,就靠 6 个员工 7 页 PPT 拿到超过 1 亿美元融资,当时还引起一番争议,被当成是 AI 泡沫的代表。

Mistral AI 最初计划在 2024 年发布首个大模型,没想到刚到 9 月底就已拿出成果,团队也扩大了不少。

Mistral-7B:开源大模型社区的新宠

三位联合创始人中,CEO Arthur Mensch 此前在 DeepMind 巴黎工作。

CTO Timothée Lacroix 和首席科学家 Guillaume Lample 则在 Meta 共同参与过 Llama 系列的研发,Lample 是通讯作者之一。

Mistral-7B:开源大模型社区的新宠

事实上 Llama 初始团队中已有过半离职,其中 Marie-Anne Lachaux 后来也加入了 Mistral AI。

有点子当年 OpenAI 部分员工出走成立 Anthropic 的意思了,历史总是惊人的相似。

Mistral AI 接下来也会继续推出规模更大的模型,增强推理能力以及多语言能力。

Mistral-7B:开源大模型社区的新宠

如果你对 Mistral-7B 感兴趣,可以在 Perplexity 或 HuggingChat 试玩。

labs.perplexity.ai

huggingface.co/chat

还有一个与 Llama 2 同台竞技的小游戏可玩。

llmboxing.com

Mistral-7B:开源大模型社区的新宠

下载模型也可以去 Hugging Face。

huggingface.co/mistralai

参考链接:
[1]mistral.ai/news/announ…
[2]predibase.com/blog/fine-t…
[3]x.com/hrishioa/st…
[4]twitter.com/Teknium1/st…

版权所有,未经授权不得以任何形式转载及使用,违者必究。

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

OpenAI 巨头换帅:Sam Altman 被解雇引发 AI 界风暴

2023-11-20 20:49:55

AI教程

ACL Finding 论文《Low-Resource Text Classification: A Parameter-Free Classification Method with Compressors》解读

2023-11-20 21:00:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索