baichuan-7B: 一款SOTA水平的开源语言模型

AI教程
23年12月11日
编辑

coding进阶

释放双眼，带上耳机，听听看~！

baichuan-7B是一款由百川智能开发的大规模预训练语言模型，基于Transformer结构，在中英双语上取得了SOTA水平的效果，采用宽松的开源协议允许商业使用。

背景

baichuan-7B 是由百川智能开发的一个开源可商用的大规模预训练语言模型。

基于 Transformer 结构，在大约1.2万亿 tokens 上训练的70亿参数模型，支持中英双语，上下文窗口长度为4096。

在标准的中文和英文权威 benchmark（C-EVAL/MMLU）上均取得了同参数规模下的最好效果。

baichuan-7B的优点

在同尺寸模型中baichuan-7B达到了目前SOTA的水平。
baichuan-7B使用自有的中英文双语语料进行训练，在中文上进行优化，在C-Eval达到SOTA水平。
不同于LLaMA完全禁止商业使用，baichuan-7B使用更宽松的开源协议，允许用于商业目的。

数据收集

原始数据包括开源的中英文数据和自行抓取的中文互联网数据，以及部分高质量知识性数据。
参考相关数据工作，频率和质量是数据处理环节重点考虑的两个维度。我们基于启发式规则和质量模型打分，对原始数据集进行篇章和句子粒度的过滤。在全量数据上，利用局部敏感哈希方法，对篇章和句子粒度做滤重。

baichuan-7B: 一款SOTA水平的开源语言模型

模型结构

整体模型基于标准的 Transformer 结构，采用了和 LLaMA 一样的模型设计。

位置编码：rotary-embedding

是现阶段被大多模型采用的位置编码方案，具有更好的外延效果。虽然训练过程中最大长度为4096，但是实际测试中模型可以很好的扩展到 5000 tokens 上，如下图：
激活层：SwiGLU, Feedforward 变化为(8/3)倍的隐含层大小，即11008。
Layer-Normalization: 基于 model.baai.ac.cn/model-detai…) 仅做参考

英文榜单

除了中文之外，也测试了模型在英文上的效果。

github.com/baichuan-in…

huggingface.co/baichuan-in…

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

baichuan-7B: 一款SOTA水平的开源语言模型

背景

baichuan-7B的优点

数据收集

模型结构

英文榜单

Code Interpreter: 一个强大的图片处理工具

FATE 1.9版本网络互联架构和架构介绍

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

背景

baichuan-7B的优点

数据收集

模型结构

英文榜单

Code Interpreter: 一个强大的图片处理工具

FATE 1.9版本网络互联架构和架构介绍

LLaMA: 一款基础的、拥有65亿参数的大语言模型

Databricks发布开源人类交互性语言模型Dolly 2.0

Stability AI发布开源语言模型StableLM和图像模型Stable Diffusion

Falcon 180B：世界顶级开源大模型官宣，性能直逼GPT-4