神经网络性能优化方法

释放双眼,带上耳机,听听看~!
本文介绍了一种神经网络的性能优化方法,通过改变算子的先后调用顺序,实现整个优化系统的性能的成倍提升。详细讨论了混合精度推理和混合精度训练的概念,以及数据搬运算法在提升性能中的关键作用。

大家好啊,我是董董灿。

做优化有时候真的很头疼,绞尽脑汁的想怎么做算法等价,怎么把神经网络各层指令流水起来,在确保整网精度的同时,又有高性能。

但有时做了半天,却发现流水根本就流不起来,总是莫名其妙地被卡住。

真的是一顿操作猛如虎,回头一看原地杵。

神经网络性能优化方法

今天介绍一种神经网络的性能优化方法。它不需要懂特深奥的算法知识,就能做到整个优化系统,大到网络,小到算子的性能的成倍提升。

而且绝对是成倍的性能提升,并且显而易见的算法等价。

怎么做呢?很简单,只需要改一下算子的先后调用顺序就行。

先说下背景。

在做AI推理或者训练时,大部分情况下一个神经网络中的所有层(Layer)的计算数据类型是相同的。

比如为了网络有更好的识别精度,神经网络中的运算可以使用高精度的浮点数,如 float32,简称 FP32。

但有时为了性能,稍微损失一点识别精度也能接受,此时可能会使用 float16,简称FP16, 也就是半精度数据类型来做运算。

FP32 和 FP16 的区别在于,前者数据位宽是后者的两倍,因此表示相同的数据的时候,前者的精度更高,但内存占用也更大。

比如同时存储一张图片,如果使用 FP32的话,可能会占用1MB的内存,但如果使用FP16来存储,只占0.5MB的内存。

我们可能听说过混合精度推理、混合精度训练。这里说的混合,指的就是精度混合。比如一个神经网络中存在多种数据类型。

为什么可以做混合精度的推理或训练呢?

一个神经网络就像是一个大厦,由一层一层的算法搭建而成,每一层的算法可能不同。不同的算法对数据精度的敏感程度不同。

有很多算法对数据精度不敏感,比如 transpose, gather, scatter等,这类算法都是数据搬运操作,也就是纯IO操作。他们不需要进行数据计算,无需考虑数据在做加法时候的溢出处理等情况。

而有些算法对数据精度很敏感,典型的比如conv2d算法,它需要做大量的乘累加操作,数据的累加很容易出现溢出,此时需要用更高位宽的数据来接收累加结果。

如果把操作 FP32 比作需要搬运32块砖的话,那么 FP16 就是只需要搬运 16块砖。很明显,搬运16块砖比搬运32块砖,在其他条件不变的情况下,要省时省力。

因此,在神经网络尤其是混合训练或推理的网络中,如果遇到了一些数据搬运算法搬运的是 FP32,那么是很有机会只让他搬16块砖(FP16)的。

那么具体怎么做呢?

首先简化一个神经网络,假设一个神经网络有如下结构:

神经网络性能优化方法神经网络性能优化方法

在这个假想的网络中,卷积层(conv2d)计算的输出是 FP32,然后送给transpose 层进行数据搬运,transpose由于是纯IO算法,因此它的输出也是FP32。

transpose的输出送给下一层cast,cast负责将FP32的数据转换为FP16, 因此cast 的输出是FP16。然后FP16的数据送给接下来的层进行运算。

不知有没有发现,在这个网络中,transpose 算法先搬运了FP32的数据,然后交给了 cast 进行数据类型转换,转换成了更低位宽的 FP16。

但是由于 transpose 是纯IO运算,对数据类型不敏感,因此,我们完全可以将cast算子提前到 transpose 之前,如此的话,transpose 只需要做 FP16 的数据搬运。

转换之后的网络如下:

神经网络性能优化方法神经网络性能优化方法

这样做的结果就是:整个网络的计算是等价的,但是 transpose 算子却由原来进行 FP32 的数据搬运,变成了 FP16 的数据搬运。对 transpose而言,其IO性能表现是成倍的提升。

这只是举一个很简单的例子。

而实际上,在真实的网络中,使用此方法可以优化成功的算法有时不仅仅是一个简单的 transpose,而是一个很大的网络片段。

由此可见,仅仅将 cast 提前这一个简单的操作,就能使整网的性能提升一倍。

这个方法很简单,很有效,也很容易实施。但是在实际进行网络优化的时候,有时却会被忽略。

能够使用这一优化的网络必须满足以下两个条件:

  • 必须是混合精度的网络

  • 由高位宽转低位宽的cast 算子前存在 IO 型算子

在我们绞尽脑汁使用一些高级的技巧,如模型并行、层层流水来做网络优化的同时,不妨放大视角,着眼全图,看看整网是否满足上面的条件,没准只一眼,就能发现这一最简单有效的优化点,从此百分比的提升网络性能,不是梦!

本文作者原创,请勿随意转载,转载请联系作者。关注同名公号获取最新技术文章。

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

3D目标检测中多模态融合方法综述

2023-12-22 3:14:14

AI教程

Hugging GPT:连接AI模型的通用接口

2023-12-22 5:24:14

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索