You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
mitsuhiko-nozawa
changed the title
[WIP] Layer-wise Adaptive Gradient Sparsification for Distributed Deep Learning with Convergence Guarantees
Layer-wise Adaptive Gradient Sparsification for Distributed Deep Learning with Convergence Guarantees
Jun 4, 2021
一言でいうと
勾配の通信を、バックプロパゲーションが完全におわた後に行うのではなく、レイヤーでの計算が終わり次第通信を行っていく方法を提案。
論文リンク
https://arxiv.org/pdf/1911.08727.pdf
著者/所属機関
Shaohuai Shi, Zhenheng Tang, Qiang Wang, Kaiyong Zhao, Xiaowen Chu
投稿日付(yyyy/MM/dd)
ECAI 2020/8/19 ~ 2020/9/5
概要
モデルの学習時間の短縮のために分散クラスタ上での学習が行われるが、ここで勾配の通信がボトルネックとなる。この解決のために、計算と通信のパイプライン化と、勾配のスパース化の2つのアプローチがとられる。しかしこれらを両立するとなると、バックプロップが完全に終了した後にスパース化を行い、通信を行う必要がある。本手法では、スパース化をレイヤーごとに行うことで、パイプライン化のメリットを最大限得られるようにする。
新規性・差分
スパース化と通信をレイヤーごとに行うようにした点。
手法
l-1層目のバックプロップを行っているときに、l層目のスパース化と通信を行うようにする。
アルゴリズム
レイヤーごとのスパース率とイテレーションごとの学習率を決めておく
結果
Resnet20 と VGG16 - Cifar10
Inceptionv4 と Resnet50 - ImageNet
2-layer LSTM - PTB
16ノードでの各モデルの損失の推移とメトリックδ(l)
δはレイヤーlでtopKの勾配が他の勾配に比べてどれくらい大きいかを表すもの?
各モデルの学習の収束率
圧縮しない場合と同じくらいの速度で収束している
各手法での、1イテレーションにかかった時間及び速度向上率
コメント
The text was updated successfully, but these errors were encountered: