加速成长:PyTorch混合精度训练实验

释放双眼,带上耳机,听听看~!
通过对PyTorch模型进行混合精度训练实验,加速成长并减少内存需求。本文分享了实验结果和NVIDIA基准测试数据。

持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第21天,github.com/znxlwm/pyto…

git clone https://github.com/MLWhiz/data_science_blogs

cd data_science_blogs/amp/pytorch-apex-experiment/

python run_benchmark.py

python make_plot.py --GPU 'RTX' --method 'FP32' 'FP16' 'amp' --batch 128 256 512 1024 2048

这会在home目录中生成下面的图:

加速成长:PyTorch混合精度训练实验

在这里,我使用不同的精度和批大小设置训练了同一个模型的多个实例。我们可以看到,从FP32到amp,内存需求减少,而精度保持大致相同。时间也会减少,但不会减少那么多。这可能是由于数据集或模型太简单。

根据NVIDIA给出的基准测试,AMP比标准的FP32快3倍左右,如下图所示

加速成长:PyTorch混合精度训练实验

在单精度和自动混合精度两种精度下,加速比为固定周期训练的时间比。

英文原文:towardsdatascience.com/faster-and-…

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

数据挖掘实践:金融风控贷款违约预测挑战赛上篇

2023-12-5 11:41:14

AI教程

吴恩达2022年第二部分‘Advanced Learning Algorithm’中的多类分类示例代码解释及修改实例

2023-12-5 11:53:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索