Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

A Convergence Analysis of Distributed SGD with Communication-Efficient Gradient Sparsification #2

Open
nocotan opened this issue May 10, 2021 · 0 comments

Comments

@nocotan
Copy link
Member

nocotan commented May 10, 2021

一言でいうと

gTop-k S-SGDアルゴリズムの収束性についての理論解析.

論文リンク

https://www.ijcai.org/proceedings/2019/473

著者/所属機関

Shaohuai Shi , Kaiyong Zhao , Qiang Wang , Zhenheng Tang and Xiaowen Chu
Department of Computer Science, Hong Kong Baptist University

投稿日付(yyyy/MM/dd)

IJCAI2019

概要

ワーカーごとにtop-kの勾配のみを通信するTop-k S-SGDの計算量はO(kP)であった.
これに対して,以下の更新式を用いるgTop-k S-SGDは計算量O(k log P)を達成する:

Screen Shot 2021-05-11 at 18 12 33

Screen Shot 2021-05-11 at 18 12 55

Screen Shot 2021-05-11 at 18 12 38

直感的にはワーカーごとのtop-kでなくグローバルなtop-kの勾配を更新する戦略.
擬似アルゴリズムは以下:

Screen Shot 2021-05-11 at 18 06 39

gTop-k S-SGDは計算量を大きく削減できる一方で,理論的に妥当な操作なのかという疑問も当然ある.
本研究ではgTop-k S-SGDの収束性について理論解析を行い,現実的な仮定のもとで収束が保証されることを示した.

新規性・差分

  • 現実には成り立たない仮定を置いていた既存の収束性解析に対して,より弱い仮定の元で成り立つ結果を導出
  • gTop-k S-SGDが非凸な問題において収束性の保証を持つことを証明
  • 学習率を適当に選ぶことでgTop-k S-SGDが一般的なのmini-batch SGDと同等の収束性を持つことを示した

手法

理論展開のために以下の仮定を置く:

Screen Shot 2021-05-11 at 18 30 59

この仮定は,gTop-kで選ばれる勾配がランダムにk個選んだ勾配よりも大きいことを期待する.
この仮定の緩さは実験からも確かめられる.

このかこの仮定のもとで成り立つ主定理は以下:

Screen Shot 2021-05-11 at 18 44 13

Screen Shot 2021-05-11 at 18 45 14

以上から,gTop-k S-SGDの収束レートは以下の2つの項で構成されることがわかる:

  • ミニバッチサイズに依存する項
  • 学習率と圧縮率に依存する項

結果

仮定の実現性

Screen Shot 2021-05-11 at 17 51 43

収束性の証明の際に置いたAssumption1が実験的にも成り立つことを示している.
学習時に以下の指標を評価し,δ≦1が成り立つとき仮定が成り立つ:

Screen Shot 2021-05-11 at 18 04 01

Screen Shot 2021-05-11 at 18 04 23

収束レートと圧縮率

収束レートと圧縮率についてトレードオフの関係が確認できることを実験で示唆.

Screen Shot 2021-05-11 at 18 05 10

コメント

次に読むべき論文:
gTop-k S-SGD

  • Shaohuai Shi, Qiang Wang, Kaiyong Zhao, et al. A distributed synchronous SGD algorithm with global Top-k sparsification for low bandwidth networks. In IEEE ICDCS, 2019

S-SGDの収束性に関する理論解析

  • Shaohuai Shi, Wang Qiang, and Xiaowen Chu. Performance modeling and evaluation of distributed
    deep learning frameworks on GPUs. In IEEE DataCom, pages 949–957, 2018.
  • Dan Alistarh, Torsten Hoefler, Mikael Johansson, et al. The convergence of sparsified gradient methods. In NeurIPS, pages 5977–5987, 2018.
@nocotan nocotan self-assigned this May 10, 2021
@nocotan nocotan changed the title [WIP] A Convergence Analysis of Distributed SGD with Communication-Efficient Gradient Sparsification A Convergence Analysis of Distributed SGD with Communication-Efficient Gradient Sparsification May 11, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant