百川智能推出70亿中英文预训练大模型baichuan-7B，创新技术引领开源大模型战场

释放双眼，带上耳机，听听看~！

百川智能最新推出70亿中英文预训练大模型baichuan-7B，领先技术引领开源大模型战场，采用创新技术设计，为文本生成、分类、问答系统等多个领域提供优质解决方案。

衡宇发自凹非寺量子位 | 公众号 QbitAI

整个开源大模型战场，打得乱成一锅粥了！

最新加入战事的是王小川创业的AI公司百川智能，宣布推出70亿中英文预训练大模型baichuan-7B。

速度不慢——此时距离百川智能在4月中旬官宣创业，开始训练大模型，只过去了2个月时间。

而且在3个中文评估基准C-Eval、AGIEval和Gaokao上，均拿下SOTA。

百川智能推出70亿中英文预训练大模型baichuan-7B，创新技术引领开源大模型战场

据官方消息，baichuan-7B代码采用更为宽松的开源协议，只需简单登记，就能免费商用。

目前，baichuan-7B大模型已在抱抱脸、Github和魔搭发布，开源内容包含推理代码、INT4量化实现、微调代码，以及预训练模型的权重。

而且北大和清华已经率先成为baichuan-7B的入幕之宾，开始使用其推进相关研究工作。

百川智能推出70亿中英文预训练大模型baichuan-7B，创新技术引领开源大模型战场

万亿token中英文大模型

baichuan-7B，采用了LLaMA一样的模型设计。

作为70亿参数的底座模型，尚未经过监督微调（supervised fine-tuning）和RLHF。

可用于文本生成、文本分类、问答系统、机器翻译等多个领域。

百川智能推出70亿中英文预训练大模型baichuan-7B，创新技术引领开源大模型战场

作为中英双语模型，主要以高质量中文语料为基础，同时融合优质英文数据。

在数据质量方面，通过质量模型对数据进行打分，对原始数据集进行篇章级和句子级的精确筛选。

在内容多样性方面，利用自研超大规模局部敏感哈希聚类系统和语义聚类系统，对数据进行了多层次多粒度的聚类，最终构建的预训练数据包含1.2万亿token，兼顾质量和多样性。

相较于其他同参数规模的开源中文预训练模型，数据量提高了50%以上。

以万亿token为基础，为了更好地提升训练效率，baichuan-7B深度整合模型算子，以加快计算流程。

还针对任务负载和集群配置，自适应优化了模型并行策略以及重计算策略。

通过高效的训练过程调度通信，baichuan-7B成功实现了计算与通信的高效重叠，进而达到超线性的训练加速，在千卡集群上训练吞吐达到180+Tflops。

百川智能推出70亿中英文预训练大模型baichuan-7B，创新技术引领开源大模型战场

目前开源模型窗口的普遍行情是，长度在2K以内。

这样的处理长度对长文本建模任务，如需要引入外部知识做搜索增强的场景，产生了较大的限制。

为了训练与推理阶段捕获越多的上下文信息，baichuan-7B基于attention算子优化，实现了万级别超长动态窗口的扩张能力，开放了4K上下文窗口。

此外，baichuan-7B还对模型训练流程进行了深度优化，提升了模型收敛速度。

与同等参数规模的模型相比，baichuan-7B在困惑度（PPL）和训练损失（training loss）等关键性能指标上表现更加优秀。

为了验证模型的各项能力，baichuan-7B在C-Eval、AGIEval和Gaokao三个中文评估基准进行了综合评估，均获得优异成绩。

（Gaokao是复旦大学研究团队创建的评测框架，以高考题为数据集，拿来测试大模型在中文语言理解和逻辑推理能力方面的表现。）

百川智能推出70亿中英文预训练大模型baichuan-7B，创新技术引领开源大模型战场

在英文评估基准MMLU的评测中，baichuan-7B综合评分达42.5分，领先英文开源预训练模型LLaMA-7B。

百川智能推出70亿中英文预训练大模型baichuan-7B，创新技术引领开源大模型战场

500亿参数版本推进ing

从2月王小川宣布加入大模型占据已在“筹备之中”，到4月中旬官宣新公司百川智能名称，正式加入混战，到现在baichuan-7B的推出，用时大约4个月。

难怪乎试用网友们除了对baichuan-7B进行人肉体验外，不少人还对研发速度进行点赞：

百川智能推出70亿中英文预训练大模型baichuan-7B，创新技术引领开源大模型战场

目前，北京大学和清华大学已率先使用baichuan-7B推进相关研究工作，并计划在未来与百川智能深入合作。

动作迅速的百川智能，背后是怎么样的团队班底？

除了牵头人王小川，前搜狗COO茹立云是已经对外公布的合伙人。

团队方面，以此前搜狗团队为基础，加上来自百度华为微软字节腾讯等公司的人才。

目前，公司还传出对外招聘大模型实习算法工程师的消息。

公司旨在打造中国版的OpenAI基础大模型及颠覆性上层应用，瞄准搜索、多模态、教育、医疗等领域。

于今年2月启动筹办后，迅速获得5000万美元（约人民币3.4亿元）启动资金，王小川自掏腰包一部分，还有来自业内好友的个人支持。

百川智能推出70亿中英文预训练大模型baichuan-7B，创新技术引领开源大模型战场

4月正式旗帜鲜明地进入大模型之战时，王小川曾对量子位透露，百川智能的大模型已经在训练，年中就会有第一版发布，希望年底追平GPT-3.5。

不过，与当初的说法略有出入，现在与大家见面的模型是70亿参数，而非当时所说的“500亿参数版本”。

Why？？

王小川对此的解释是：

原定计划没有变，仍在顺利推进中。

辣么，也就是说今年夏天，百川智能还会丢出一枚大模型。

到时候已经乱成一锅粥的开源大模型赛事，会有更猛烈的纷飞炮火吧？

百川智能推出70亿中英文预训练大模型baichuan-7B，创新技术引领开源大模型战场

开源地址：
Hugging Face：huggingface.co/baichuan-in…
Github：github.com/baichuan-in…
Model Scope：modelscope.cn/models/baic…

— 联系作者 —

百川智能推出70亿中英文预训练大模型baichuan-7B，创新技术引领开源大模型战场

— 完 —

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

百川智能推出70亿中英文预训练大模型baichuan-7B，创新技术引领开源大模型战场

衡宇发自凹非寺量子位 | 公众号 QbitAI

万亿token中英文大模型

500亿参数版本推进ing

稳定扩散WebUI安装及注意事项

阿里云提供的稳定扩散服务搭建指南

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

Motionshop

归档

{{userData.name}}已认证

衡宇 发自 凹非寺 量子位 | 公众号 QbitAI

万亿token中英文大模型

500亿参数版本推进ing

稳定扩散WebUI安装及注意事项

阿里云提供的稳定扩散服务搭建指南

Falcon 180B：世界顶级开源大模型官宣，性能直逼GPT-4

昆仑万维开源「天工」13B系列大模型，助力AI生态发展

LLaMA: 一款基础的、拥有65亿参数的大语言模型

PyTorch的发展历程和开源之道

衡宇发自凹非寺量子位 | 公众号 QbitAI