On the Discrepancy between the Theoretical Analysis and Practical Implementations of Compressed Communication for Distributed Deep Learning #8

nocotan · 2021-05-26T05:31:09Z

一言でいうと

gradient compressionの理論的な結果がおく仮定と実用上の実装とのギャップについて調べた

論文リンク

https://ojs.aaai.org/index.php/AAAI/article/view/5793

著者/所属機関

KAUST

投稿日付(yyyy/MM/dd)

AAAI2020

概要

gradient sparcification/quantizationの理論と実用にはギャップがある．
多くの理論的な結果はモデル全体の勾配が圧縮されることを仮定している一方で，実際の実装では各レイヤーごとに勾配の操作を行うことが多い．
この論文では，layer-wiseな勾配圧縮の手法の収束レートを上から抑えることができることを証明するが，一方で実際の実験においてはこうした手法群は実験設定によって良い場合と悪い場合があることを示す．