Layer-wise Adaptive Gradient Sparsification for Distributed Deep Learning with Convergence Guarantees #19

mitsuhiko-nozawa · 2021-06-04T06:23:10Z

一言でいうと

勾配の通信を、バックプロパゲーションが完全におわた後に行うのではなく、レイヤーでの計算が終わり次第通信を行っていく方法を提案。

論文リンク

https://arxiv.org/pdf/1911.08727.pdf

著者/所属機関

Shaohuai Shi, Zhenheng Tang, Qiang Wang, Kaiyong Zhao, Xiaowen Chu

投稿日付(yyyy/MM/dd)

ECAI 2020/8/19 ~ 2020/9/5

概要

モデルの学習時間の短縮のために分散クラスタ上での学習が行われるが、ここで勾配の通信がボトルネックとなる。この解決のために、計算と通信のパイプライン化と、勾配のスパース化の2つのアプローチがとられる。しかしこれらを両立するとなると、バックプロップが完全に終了した後にスパース化を行い、通信を行う必要がある。本手法では、スパース化をレイヤーごとに行うことで、パイプライン化のメリットを最大限得られるようにする。

新規性・差分

スパース化と通信をレイヤーごとに行うようにした点。

手法

l-1層目のバックプロップを行っているときに、l層目のスパース化と通信を行うようにする。

アルゴリズム
レイヤーごとのスパース率とイテレーションごとの学習率を決めておく

結果

Resnet20 と VGG16 - Cifar10
Inceptionv4 と Resnet50 - ImageNet
2-layer LSTM - PTB
16ノードでの各モデルの損失の推移とメトリックδ(l)

δはレイヤーlでtopKの勾配が他の勾配に比べてどれくらい大きいかを表すもの？

各モデルの学習の収束率
圧縮しない場合と同じくらいの速度で収束している

各手法での、1イテレーションにかかった時間及び速度向上率

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Layer-wise Adaptive Gradient Sparsification for Distributed Deep Learning with Convergence Guarantees #19

Layer-wise Adaptive Gradient Sparsification for Distributed Deep Learning with Convergence Guarantees #19

mitsuhiko-nozawa commented Jun 4, 2021 •

edited

Loading

Layer-wise Adaptive Gradient Sparsification for Distributed Deep Learning with Convergence Guarantees #19

Layer-wise Adaptive Gradient Sparsification for Distributed Deep Learning with Convergence Guarantees #19

Comments

mitsuhiko-nozawa commented Jun 4, 2021 • edited Loading

一言でいうと

論文リンク

著者/所属機関

投稿日付(yyyy/MM/dd)

概要

新規性・差分

手法

結果

コメント

mitsuhiko-nozawa commented Jun 4, 2021 •

edited

Loading