YaFSDP: Yet another Fully Sharded Data Parallel – 分布式数据并行框架

YaFSDP

AI应用发布

释放双眼，带上耳机，听听看~！

高效的分布式数据并行框架，专为大型语言模型设计。

网站默认显示语言：英语

YaFSDP 介绍

YaFSDP是一个专为与transformer类神经网络结构良好协作而设计的分布式数据并行框架。它在预训练大型语言模型(Large Language Models, LLMs)时比传统的FSDP快20%，并且在高内存压力条件下表现更佳。旨在减少通信和内存操作的开销。

适用于需要处理大规模数据和模型的机器学习研究人员和工程师。特别适合于那些需要在高内存压力环境下进行深度学习模型训练的场景，例如大型语言模型的预训练和微调。

使用YaFSDP进行7B至70B参数规模的语言模型预训练。

在64至256个设备上应用YaFSDP进行模型训练，以提高效率。

利用YaFSDP进行2048至8192个token序列的模型训练。

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。