Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Layer-wise Adaptive Gradient Sparsification for Distributed Deep Learning with Convergence Guarantees #19

Open
mitsuhiko-nozawa opened this issue Jun 4, 2021 · 0 comments

Comments

@mitsuhiko-nozawa
Copy link
Contributor

mitsuhiko-nozawa commented Jun 4, 2021

一言でいうと

勾配の通信を、バックプロパゲーションが完全におわた後に行うのではなく、レイヤーでの計算が終わり次第通信を行っていく方法を提案。

論文リンク

https://arxiv.org/pdf/1911.08727.pdf

著者/所属機関

Shaohuai Shi, Zhenheng Tang, Qiang Wang, Kaiyong Zhao, Xiaowen Chu

投稿日付(yyyy/MM/dd)

ECAI 2020/8/19 ~ 2020/9/5

概要

モデルの学習時間の短縮のために分散クラスタ上での学習が行われるが、ここで勾配の通信がボトルネックとなる。この解決のために、計算と通信のパイプライン化と、勾配のスパース化の2つのアプローチがとられる。しかしこれらを両立するとなると、バックプロップが完全に終了した後にスパース化を行い、通信を行う必要がある。本手法では、スパース化をレイヤーごとに行うことで、パイプライン化のメリットを最大限得られるようにする。

新規性・差分

スパース化と通信をレイヤーごとに行うようにした点。

手法

l-1層目のバックプロップを行っているときに、l層目のスパース化と通信を行うようにする。
image
アルゴリズム
レイヤーごとのスパース率とイテレーションごとの学習率を決めておく
image

結果

Resnet20 と VGG16 - Cifar10
Inceptionv4 と Resnet50 - ImageNet
2-layer LSTM - PTB
16ノードでの各モデルの損失の推移とメトリックδ(l)
image
δはレイヤーlでtopKの勾配が他の勾配に比べてどれくらい大きいかを表すもの?
image

各モデルの学習の収束率
圧縮しない場合と同じくらいの速度で収束している
image

各手法での、1イテレーションにかかった時間及び速度向上率
image

コメント

@mitsuhiko-nozawa mitsuhiko-nozawa self-assigned this Jun 4, 2021
@mitsuhiko-nozawa mitsuhiko-nozawa changed the title [WIP] Layer-wise Adaptive Gradient Sparsification for Distributed Deep Learning with Convergence Guarantees Layer-wise Adaptive Gradient Sparsification for Distributed Deep Learning with Convergence Guarantees Jun 4, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant