深度解读华为云ModelArts90天性能翻倍的秘密

　　3月19日，华为云ModelArts 一站式AI开发平台在斯坦福大学发布的DAWNBench 榜单中，分别获得图像识别总训练时间和推理性能榜单的冠军。

　　普惠AI开发平台ModelArts，模型训练速度世界第一

　　此次华为云 ModelArts 将训练时间缩短至4分8秒，比3个月前榜单公布的纪录足足快了一倍。而此前几次 DAWNBench 图像识别训练的最佳纪录也均由华为云 ModelArts 创造。

　　那么，势头强劲的华为云 ModelArts 究竟有何超能力？它如何在高手如云的基准测试中，仅用短短3个月便打破自己的纪录？它又分别对训练和推理做了哪些优化，从而实现如此出色的性能？新发布的AI市场又为 AI 开发者们带来了哪些便利？

　　捧走训练推理双料冠军

　　比此前最高训练纪录快1倍

　　斯坦福 DAWNBench 榜单是用以衡量端到端的深度学习模型训练和推理性能的国际权威基准测试平台，相应的排行榜反映了当前业界深度学习平台技术的领先性。

　　该榜单最新的图像识别排行榜显示，在训练性能方面，华为云 ModelArts 用128块 V100 GPU，在 ResNet50_on_ImageNet（93%以上精度）上训练模型，训练时间仅为4分08秒，较其2018年12月创下的9分22秒纪录快了1倍，比此前 fast.ai 在 AWS 平台上的训练速度快4倍。

　　斯坦福大学DAWNbench训练时间榜单

　　在推理性能方面，华为云 ModelArts 识别图片的速度是第二名的1.72倍、亚马逊的4倍、谷歌的9.1倍。

　　斯坦福大学DAWNbench推理性能榜单

　　华为云 ModelArts 是如何做到在国际权威深度学习模型基准平台上表现出色，并在短短3个月的时间打破自己创造的纪录？

　　这就要归功于 ModelArts 团队从训练和推理两大部分着手，包括高性能分布式模型训练和极速推理技术在内的一系列优化。

　　优化训练的三大维度：

　　网络结构、框架和算法

　　在训练方面，华为云 ModelArts 团队主要从深度神经网络结构、分布式训练框架、深度学习训练算法三个维度展开优化。

　　1、深度神经网络结构优化

　　本次使用的网络结构是基于经典的 ResNet50 结构。由于在训练中使用了 128*128 的低分辨率输入图片来提升训练的速度，对训练精度产生了一定影响，原始模型无法在维持训练 epoch 数的情况下将模型训练到指定的 top5 93% 精度。

　　为此，ModelArts 团队对 ResNet50 中的卷积结构进行了优化，从而在低分辨率训练模式下也能够稳定达到目标精度。

　　2、分布式训练框架优化

　　深度学习训练过程涉及大规模的参数的网络间传递。TensorFlow 使用中心化的网络参数服务器（Parameter Server）来承担梯度的收集、平均和分发工作，对 server 节点的访问会成为瓶颈，带宽利用率低。为此 ModelArts 团队使用 AllReduce 算法来进行梯度聚合来优化带宽。

　　同时对传输的梯度进行融合，对小于阈值大小的梯度多次传输合并为一次，提升带宽利用率；另外在通信底层采用 NVIDIA 的 NvLink、P2P 等技术来提升节点内和节点间通信带宽，降低通信时延。

　　3、深度学习训练算法优化

　　在本次的训练过程中使用的分布式全局 batch size 为32768，这样的超大 batch size 提升了训练的并行度，但也导致了收敛精度降低的问题。为此 ModelArts 团队实现《Large Batch Training of Convolutional Networks》中提出的层次自适应速率缩放（LARS）算法，在全局学习率调度方面，使用了带 warmup 的 linear cosine decay scheduler，训练优化器则采用 momentum 算法。

　　在本次提交的训练结果中，ModelArts 仅用了35个 epoch 即将模型训练到了指定精度，并在全程除了最后一个 epoch 外均保持在32K的大 batch size 下，最终用时4分08秒，比之前的成绩再次提升了一倍。

　　优化推理的三大维度：

　　网络结构、量化与剪枝

　　在推理方面，ModelArts 团队从以下三个方面进行了优化：1.网络结构优化2. Int8 量化3. 神经网络卷积通道剪枝。

　　1、网络结构优化

　　在推理中同样采用了 ResNet50 模型，并且是推理效率更优的 ResNet50-v1 版本。在此模型的基础上将降采样提前并使用了信息损失更小的降采样方法，既提升了推理速度，又获得了更高的模型精度。

　　2、Int8 量化

　　低比特量化是提升推理性能的一种主要手段，其中 int8 量化方法的通用性强且对模型精度的损失小。在量化的过程中先加载原始模型，再对原始模型创建对应的 int8 量化模型，然后提取训练中典型样本对量化模型进行校准，最后基于校准结果产生优化后的 int8 模型。

　　在此量化中模型的推理精度仅损失了0.15%，而模型的推理速度提升了2倍以上。

　　3、神经网络卷积通道剪枝

　　研究表明网络中很多连接都是接近0或者冗余的，对这些参数进行剔除对精度影响相对较小。模型剪枝方法包含结构剪枝和非结构剪枝。非结构化剪枝设定一个阈值，当权重低于这个阈值时候会被设置为0，不再更新。

　　这个方法使得模型连接变得稀疏，但是由于这些连接分散在各个权重里，而由于 GPU 并不支持稀疏矩阵卷积和乘法加速，因此并不能有效提升推理速度。

　　结构化剪枝主要使用的方法是卷积通道剪枝，即通过一些方法评估神经网络中的每个卷积核的影响系数，然后将其中影响系数较低的卷积核整体去掉，而使得整个模型变小，推理速度提升。

　　不知道如何使用华为云ModelArts？

　　此前，我们曾详述华为云 ModelArts 平台的四大亮点和操作流程。ModelArts 有开源数据集、自动化调参、MoXing 分布式框架和千级 GPU 集群规模训练加速、云边端一键式部署等 buff 加成，这一平台的上手门槛非常低，从零编程经验的小白，到高阶算法工程师，都能借助这一平台更快更好地完成 AI 模型的训练和推理。（延伸阅读：神奇！零基础分分钟玩转AI，华为云ModelArts全体验）

　　如果你想快速了解华为云ModelArts，我们在前段时间也邀请到AI开发领域的专家为同学们答疑

　　华为云正式发布国内首个AI模型市场

　　为了近一步拉进ModelArts 平台与开发者的距离，3月21日，华为云在华为中国生态伙伴大会上正式发布华为云 AI 市场。这个在华为云 ModelArts 平台基础上构建的开发者生态社区，为高校、企业及个人开发者等群体提供安全开放、公平可靠的 AI 模型、API、数据集以及竞赛案例等内容共享和交易。