襖からキリン

読んだ論文まとめ。

ICML 2021 論文要約 (1/2)


知識の更新と新しいジャンルを開拓するべく,ICML2021で面白そうな論文を数本読み,要約をまとめました. 特に論文の種類に一貫性があるわけではないですが,問題の背景と課題と手法を端的にまとめました. 各要約の最初の数行を読んで,面白そうと思ったら,論文の方を読んでみてください. 少しでも,皆さんのためになれば幸いです.

Simultaneous Similarity-based Self-Distillation for Deep Metric Learning

Keyword : 深層距離学習,自己蒸留

Deep Metric Learning(DML)の汎化能力は,埋め込み空間の次元数が高次元であるほど高いことが知られている.しかし,高次元の埋め込みは下流タスクの検索コストを増大させる.そのため,埋め込み次元を大きくできないのが現状.そこで,提案手法はDMLに次元ベースの知識蒸留を提案.次元数の異なる高次元の埋め込み関数をそれぞれ持つ教師らを,生徒と一緒のデータで学習しつつ,生徒となる低次元埋め込み関数に知識蒸留をおこなう.高次元でも次元数を変えることで,埋め込まれる特徴がそれぞれ変化し,複数の教師から生徒に複数の特徴情報が蒸留される.肝は,埋め込み次元数の異なる関数に対して,どう蒸留するか.提案手法は,NNの重みをKLDで近づけるのではなく,埋め込みベクトルから内積を用いたグラム行列を作成し,教師と生徒のグラム行列をKLDで近づけ,次元の問題を解決した.既存のDMLタスクの汎化性能を大幅に向上させ,SOTAを達成した. f:id:masamasa59:20210711135654p:plain

Offline Reinforcement Learning with Pseudometric Learning

Keyword : オフライン強化学習, ボーナス, Pseudometric

オフラインRLは,環境との相互作用なしで,過去のログ(状態,行動,報酬,次状態)から方策を学習する.ログは,環境における可能な状態行動ペアのうち一部しか集まっていない.したがって,オフラインRLは,ログに近い状態を維持しつつ,報酬を最大化する方策を学習する必要がある(外挿問題).そこで,提案手法は,報酬と異なるボーナスの概念を用いる.現状態と行動のペアと最も類似度の高い状態と行動を,ログから探し,その類似度が高いほど,正のボーナスを多く与える.これは,過去に似たログがあるならば,積極的にその状態と行動を取るように方策に促し,外挿問題に対処している.アルゴリズムとしては,ActorCriticの目的関数にボーナスを加える.状態行動ペア間の類似度を測るために,Pseudometric Learningの方法として,Siamese netを用いた.ログからボーナスを計算するために行う最近傍探索は計算コストがかかるが,実験では,既存の最先端手法と同等の性能を発揮することを実証した.

Hyperparameter Selection for Imitation Learning

Keyword : 模倣学習, Wasserstein 距離, ハイパーパラメータ選択

Imitation Learningでは,環境との相互作用は可能だが,報酬を見ずに学習率などのハイパーパラメータ(HP)を選択すべきである.しかし,既存手法では,デモンストレーションからエージェントを設計する際に,神のみぞ知る報酬でエージェントを選択している.そこで,HP選択のために,報酬の代わりとなる代理の評価指標を提案.9つの連続制御タスクについて,評価指標を用いてモデル選択とハイパラ選択を評価した.結果,代理指標としては,デモンストレーション時に観測した状態分布と学習エージェントの軌跡からもとまる状態分布とのWasserstein 距離基準が最もHP選択によく,累積報酬が高くなった.また,あるタスクで定めたHPを別のタスクに移植した場合,性能が改善するか確認したが,むしろ悪化した.原因は,各タスクで高性能を発揮するHPの構成が異なると言及.タスクに関しては,OpenAI Gym内で異なるタスクを選定.

GeomCA: Geometric Evaluation of Data Representations

Keyword : 特徴表現,グラフ連結成分

生成モデルや自己教師あり学習(対照学習)などで学習した表現の品質を,下流のタスクに頼らずに評価することは,表現学習における課題の一つである.この研究では,表現空間をトポロジー・位相的特性に基づいて評価するGeometric Component Analysis (GeomCA)アルゴリズムを提案.GeomCAは,表現空間のデータの多様体を訓練データ集合と評価データ集合で似た構造になっているかをグラフを利用して評価する.そこで,訓練データ集合と評価データ集合の各データをNNを通し,得た特徴ベクトルをノードとする.エッジは,各ノードのε近傍に存在するノード同士で張る.訓練データ集合と評価データ集合それぞれでグラフを作成し,グラフ間の類似度を測る.類似度は,局所的と大域的な指標がある.局所的には,グラフの連結成分の個数とその連結成分に含まれるノード数の一致度の指標.さらにグラフ間を結ぶエッジの数を元に作成した指標を提案.大域的には,既存研究と類似したPrecision と Recall スコアを用いる.対比学習モデル,生成モデル,教師付き学習モデルなどの様々なシナリオから得られた表現を分析することで,その適用性を評価した.

f:id:masamasa59:20210711140201p:plain:w500f:id:masamasa59:20210711140218p:plain:w500

Differentiable Particle Filtering via Entropy-Regularized Optimal Transport

Keyword : 粒子フィルタ, 最適輸送, Sinkhorn Algorithm

粒子フィルタ(PF)は,非線形状態空間モデルの推論を行う手法の一つである.リサンプリングはPFの重要な要素であり,低分散の尤度と状態の推定値を得るために必要である.しかし,従来のリサンプリング法では,PFに基づく損失関数は,モデルパラメータに対して微分不可である.そこで,提案手法は,完全にEnd2Endで学習する微分可能なPFを提案. 変分推論におけるELBO最大化を行う場合,リサンプリングステップでは,REINFORCE勾配推定値を使用しなければならないため,分散が高くなる.そこで,リサンプリングに最適輸送のSinkhorn Algorithmを利用して,原理的に微分可能なPFを導入した.粒子フィルタのリサンプリングに最適輸送の考えを用いる手法は,既にEnsemble Transform Resamplingがある.それは,粒子フィルタのリサンプリングを分散を抑えるが,線形計画問題で解くため,計算時間がO(N3 logN)かかる,かつ微分不可能だった.そこで,Sinkhorn Algorithmを採用することで,O(N2)になり,微分可能になる.複数の実験設定でSOTA.

REPAINT: Knowledge Transfer in Deep Reinforcement Learning

Keyword: 強化学習, 知識蒸留, 経験再生

要約:強化学習において,別タスクで学習した知識を利用し,複雑なタスクの学習時間を削減する転移学習には,パラメータ,表現,インスタンスの3種類の方法がある.この論文では,方策オフ型のインスタンス転移学習を導入し,それを方策オン型の表現の転移学習と組み合わせる.学習アルゴリズムは知識の転移でほとんど用いられていないActorCriticを採用.方策オン型での転移方法は,方策のパラメータの蒸留をアニーリングしながらおこなう.方策オフ型の転移方法は,教師方策で集めた経験再生をもとにターゲットタスクに合うサンプルの選択方法(advantage-based experience selection )を提案し,Clipped PPOで学習する.総学習時間を大幅に短縮でき,他手法より性能改善.

Inverse Constrained Reinforcement Learning

Keyword : 制約付き強化学習, 確率モデル, 尤度最大化

専門家のデモンストレーションからRLエージェントがしてはいけないこと(制約条件部分)を学習し,それを報酬関数と組み合わせて方策を学習することで,エージェントは,制約部分の状態と行動を取らないようになる.具体的には,通常のシミュレータでは表現しきれない暗黙的な制約条件(報酬関数で定量的に設計するには複雑で難しいこと,常識的なルール,Preferenceとか )があるとき,専門家のデモンストレーションとエージェントの軌跡データの状態・行動のペアに対して,制約条件か否かをNNに学習させる.制約条件が少なくなるような正則化が入っている. f:id:masamasa59:20210711135918p:plain

Differentiable Spatial Planning using Transformers

Keyword : Transformer, 空間経路計画

空間経路計画の問題に対して,新しい計画をゼロから最適化する古典的な解決法とは対照的に,過去のデータから, 微分可能な方法で計画を学習する.空間経路計画とは,環境の障害物地図と地図上のゴールの位置が与えられたとき,地図上の任意の位置からゴールの位置までの最短経路を出力することである.従来のCNNアプローチからTransformerを用いることで,空間上の長距離の情報伝播が可能な空間計画モデルを設計した.提案したSPTは,地図とゴールを入力とし,すべての場所からゴールまでの距離を予測する.古典的な計画問題に比べ,地図が大きくなっても,実行時間を抑えている.またSPTが地図の教師データなしにマッピングを学習することで,未知の地図に対応できることを実証した. f:id:masamasa59:20210711140616p:plain

A Bit More Bayesian: Domain-Invariant Learning with Uncertainty

Keyword : Domain Generalization, ELBO

Domain Invariant Learningは,ドメイン一般化のアプローチのひとつである.ドメイン一般化の例としては,画像の回転角度によらず数字を正しく識別するケースがある.Domain Invariant Learning のドメイン不変予測器とドメイン不変特徴抽出器のモデルパラメータを両方ともELBO最大化をおこない,異なるドメインに対しても予測性能でSOTAを達成した.事前確率もガウス分布と普通だが,両方のモデルをベイズ化したのが初めて.ドメイン不変分類器や特徴抽出器のELBO最大化時に,異なるドメインに対する分類結果をKLDで近づけるように学習することで,ドメインの違いを吸収し,異なるドメインに対しても汎化することを狙っている.