YaFSDP

释放双眼,带上耳机,听听看~!
高效的分布式数据并行框架,专为大型语言模型设计。

YaFSDP官网链接地址:https://github.com/yandex/YaFSDP

网站默认显示语言:英语

YaFSDP 介绍

YaFSDP是一个专为与transformer类神经网络结构良好协作而设计的分布式数据并行框架。它在预训练大型语言模型(Large Language Models, LLMs)时比传统的FSDP快20%,并且在高内存压力条件下表现更佳。旨在减少通信和内存操作的开销。

YaFSDP用户群体

适用于需要处理大规模数据和模型的机器学习研究人员和工程师。特别适合于那些需要在高内存压力环境下进行深度学习模型训练的场景,例如大型语言模型的预训练和微调。

使用YaFSDP进行7B至70B参数规模的语言模型预训练。

在64至256个设备上应用YaFSDP进行模型训练,以提高效率。

利用YaFSDP进行2048至8192个token序列的模型训练。

YaFSDP的核心功能

  • 支持大规模语言模型的高效预训练。
  • 优化了内存和通信操作,提高了训练效率。
  • 提供了详细的使用示例,包括因果预训练和监督微调。
  • 基于NVIDIA PyTorch图像构建,集成了必要的补丁库。
  • 支持自定义事件通知,便于开发者根据需要接收更新。
  • 在A100 80G集群上进行了性能评估,确保了框架的高性能。
本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
开发者工具

sherpa

2024-6-8 15:25:14

开发者工具

Translation Agent

2024-6-15 16:17:40

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索