You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
nocotan
changed the title
[WIP] On the Discrepancy between the Theoretical Analysis and Practical Implementations of Compressed Communication for Distributed Deep Learning
On the Discrepancy between the Theoretical Analysis and Practical Implementations of Compressed Communication for Distributed Deep Learning
May 28, 2021
一言でいうと
gradient compressionの理論的な結果がおく仮定と実用上の実装とのギャップについて調べた
論文リンク
https://ojs.aaai.org/index.php/AAAI/article/view/5793
著者/所属機関
KAUST
投稿日付(yyyy/MM/dd)
AAAI2020
概要
gradient sparcification/quantizationの理論と実用にはギャップがある.
多くの理論的な結果はモデル全体の勾配が圧縮されることを仮定している一方で,実際の実装では各レイヤーごとに勾配の操作を行うことが多い.
この論文では,layer-wiseな勾配圧縮の手法の収束レートを上から抑えることができることを証明するが,一方で実際の実験においてはこうした手法群は実験設定によって良い場合と悪い場合があることを示す.
新規性・差分
理論解析の際においている仮定と実際の多くの実装とのギャップについて,
を明らかにした.
手法
理論展開のための仮定は以下:
導出される結果は,layer-wiseでの勾配圧縮の収束レートはモデル全体で勾配を圧縮する際のもので上から抑えられる.
結果
コメント
The text was updated successfully, but these errors were encountered: