二つのデータセットを比較して潜在表現を獲得する論文紹介

紹介する論文は、AAAI2019にアクセプトされていたUnsupervised Learning with Contrastive Latent Variable Modelsです。この論文は、二つの類似したデータセットを比較して、共有潜在表現と片方のデータセットのみにしかない表現をそれぞれ潜在変数で獲得することが目標です。

直感的に理解するために図1. から説明すると、ターゲットの草（背景）に数字が書かれている画像を、草と数字部分を別々の潜在表現で獲得することが目標です。そのために比較データセットとして、背景データセットに草だけの画像を使用します。

f:id:masamasa59:20191220131856p:plain — (a) 下が背景データセットの例で草の画像になる。上がターゲット画像になり、背景の上に数字が書かれている。(b)潜在変数からそれぞれを生成させたとき、数字と背景が分かれていることが分かる。

この論文の選定理由は、確率モデルの拡張が綺麗に行われており、ベイズモデリングを勉強中の人が、深層ベイズ学習の導入までが自然に感じられると思ったからです。

詳しくいうと、最初に共役性事前分布で構築された線形ガウスモデル、次に共役性がなく一般化された線形確率モデル、最後にNNを用いて線形から非線形へ拡張と順番に展開しています。

それでは順番にみていきましょう。

Contrastive Latent Variable Models

まず、表記としてターゲットのデータセットを $\{ {\bf x}\ _i \}_{i = 1}^n$ 、背景のデータセットは $\{ {\bf y}_j \}_{j=1}^m$ と表します。また、目的の背景の潜在変数を ${\bf z}_i, {\bf z}_j \in {\mathbf R}^k$ とし、ターゲットの潜在変数は ${\bf t}_i$ とします。このとき、モデルは以下のように定義します。

$\begin{aligned} \mathbf{x}_{i} &=\mathbf{S} \mathbf{z}_{i}+\mathbf{W} \mathbf{t}_{i}+\boldsymbol{\mu}_{x}+\boldsymbol{\epsilon}_{i}, \quad i=1 \ldots n \\ \mathbf{y}_{j} &=\mathbf{S} \mathbf{z}_{j}+\boldsymbol{\mu}_{y}+\boldsymbol{\epsilon}_{j}, \quad j=1 \ldots m \end{aligned}$

ここでポイントは次元圧縮の線形パラメータ ${\bf S}$ が両方で共有されていることです。このおかげで、潜在変数 ${ \bf z}$ に両方のデータセットにある共通要因(背景)が得られます。そして、もう一つの潜在表現 ${ \bf t}_{i}$ にターゲットのみ持つ特徴が得られるお気持ちです。今は、線形モデルになっていますが、最後には、この線形性がNNにより非線形に置き換わります。それでは、各々の確率モデルを見ていきましょう。

線形ガウスモデル

それぞれのデータの生成過程を線形ガウスモデルで以下のように定義しています。

$\mathbf{x}_{i} | \mathbf{z}_{i}, \mathbf{t}_{i} \sim \mathcal{N}\left(\mathbf{S}{\mathbf{z}_{i}}+\mathbf{W} \mathbf{t}_{i}+\boldsymbol{\mu}_{x}, \sigma^{2} \mathbf{I}_{d}\right)$

$\\ \mathbf{y}_{j} | \mathbf{z}_{j} \sim \mathcal{N}\left(\mathbf{S}{\mathbf{z}_{j}}+\boldsymbol{\mu}_{y}, \sigma^{2} \mathbf{I}_{d}\right)$

$\mathbf{z}_{i} \sim \mathcal{N}\left(0, \mathbf{I}_{k}\right), \quad \mathbf{z}_{j} \sim \mathcal{N}\left(0, \mathbf{I}_{k}\right), \quad \mathbf{t}_{i} \sim \mathcal{N}\left(0, \mathbf{I}_{t}\right)$

モデルパラメータ $\mathbf{S}, \mathbf{W}, \mu_{x}, \mu_{y}, \sigma^{2}$ は、尤度最大化のEMアルゴリズムで学習します。Eステップで各潜在変数の事後分布 $p({\bf z}_i, {\bf t}_i|{\bf x}_i)$ と $p({\bf z}_j, |{\bf y}_j)$ を求めて、Mステップで尤度最大になるモデルパラメータをそれぞれ求めます。線形ガウスモデルなので、それぞれが解析的にもとまります。今回はモデルの拡張に焦点を当てているので学習の詳しい式変形は論文を見てください。

線形ガウスモデルを超えて

モデルパラメータ $\mathbf{S}, \mathbf{W}$ に事前の信念を組み込むことで多様なモデリングが可能になります。この論文では、モデルパラメータ $\mathbf{S}, \mathbf{W}$ に、ロバスト性、スパース性、ARD（関連度自動決定）の事前分布を与えたベイズモデリングも提案しています。モデルの同時確率は以下のように定義されます。

$\begin{array}{l}{p\left(\mathcal{D},\left\{\mathbf{z}_{i}, \mathbf{t}_{i}\right\}_{i=1}^{n},\left\{\mathbf{z}_{j}\right\}_{j=1}^{m} , \boldsymbol{\Theta}\right)=} \\ {\quad p(\Theta) \prod_{i=1}^{n} p\left(\mathbf{x}_{i} | \mathbf{z}_{i}, \mathbf{t}_{i} ; \mathbf{W}, \mathbf{S}, \boldsymbol{\mu}_{x}, \sigma^{2}\right) p\left(\mathbf{z}_{i}\right) p\left(\mathbf{t}_{i}\right)} \\ {\prod_{j=1}^{m} p\left(\mathbf{y}_{j} | \mathbf{z}_{j} ; \mathbf{S}, \boldsymbol{\mu}_{y}, \sigma^{2}\right) p\left(\mathbf{z}_{j}\right)}\end{array}$

尤度関数と事前分布にどんな分布を仮定するかは以下の表にまとまっています。

f:id:masamasa59:20191220155755p:plain — 図２　モデルの要約　最右列は変分推論の際に仮定する近似分布を表しています。

これらは線形ガウスモデルと違い、共役性のない事前分布を仮定しており、潜在変数についても事後分布の形がわかりません。そのため、一般的に、MCMCか変分推論かラプラス近似で事後分布を推論することが多いです。ここでは、変分推論を採用しています。変分推論は、真の事後分布に分解を仮定した変分事後分布で近似します。近似となる変分事後分布 $q\left(\mathbf{t}_{i} | \lambda_{\mathbf{t}_{i}}\right) q\left(\mathbf{z}_{i} | \lambda_{\mathbf{z}_{i}}\right) q\left(\mathbf{z}_{j} | \lambda_{\mathbf{z}_{j}}\right)$ を各データ点に対して仮定します。どんな近似分布を仮定するかは、図２の最右列を見てください。このとき、 $\lambda=\{\{ \lambda _ {\mathbf{z} _ i }, \lambda _ {\mathbf{t} _ i } \} _ {i=1}^ n, \{\lambda _ {\mathbf{z} _ j}\} _ {j=1}^ m \}$ は、変分パラメータと言い、変分下界最大化の際にモデルパラメータと同時に学習します。パラメータを学習する際の変分下界最大化の式を書くと、 f:id:masamasa59:20191222091807p:plain と表せます。この変分下界は１項目と４項目が変分事後分布からサンプリングされた ${\bf z}_i$ 、 ${\bf z}_j$ と ${\bf t}_i$ を用いて、データ点の値をとる確率の高さを表します。2, 3, 5項目は、変分事後分布が尤度が大きくなる方向に最適化されすぎないように、事前分布で正則化する項です。最後の項はモデルパラメータの事前分布を表し、論文上の式ではMAP解の ${\Theta}$ を求めるようです。つまり、モデルパラメータの不確実性は求めないことを意味します。しかし、図２の最右列では、そのパラメータに対して変分事後分布を仮定しているので、どっちを実験で採用したのかわかりません。とりあえず、この変分下界が最大になるように、変分パラメータ $\lambda$ とモデルパラメータ ${\Theta}$ を Adamなど最適化アルゴリズムを用いて学習します。詳しい式変形がわからない方は、PRMLなど深層ベイズ学習にもこの変分下界の導出方法が書いてあるので参考にしてください。

NNを用いて非線形モデルに拡張

潜在変数を非線形変換する関数 $f_{\theta_s}$ , $f_{\theta_t}$ を用いて、背景データ ${\bf x}$ 、ターゲットデータ ${\bf y}$ の生成過程をモデル化します。これにより画像など高次元で複雑なデータからもターゲット画像から背景の分離が可能になると思われます。

$\begin{aligned} \mathbf{x}_{i}=& f_{\theta_{s}}\left(\mathbf{z}_{i}\right)+f_{\theta_{t}}\left(\mathbf{t}_{i}\right)+\boldsymbol{\epsilon}_{i}, \quad i=1 \ldots n \\ \mathbf{y}_{j}=& f_{\theta_{s}}\left(\mathbf{z}_{j}\right)+\boldsymbol{\epsilon}_{j}, \quad j=1 \ldots m \end{aligned}$

先ほどの変分下界最大化の式からの変更点は、２つあります。１つ目は、もちろん潜在変数を非線形変換するため、NNを使用する点。２つ目は、変分事後分布のパラメータを、データ点を入力とするNNの出力値にする点です。先ほどは、データ点ごとに変分パラメータがありました。これは、データ点が多くなると変分パラメータも同様に増えていきます。しかし、NNを用いることでデータ点の数に依存せずパラメータ数は固定されます。この潜在変数から観測データに変換するNNを生成ネットワークと呼び、観測データから潜在変数に変換するNNを推論ネットワークと呼ぶこともあります。その推論ネットワークを用いる変分事後分布は以下のように表します。

$q_{\lambda_{t}}\left(\mathbf{z}_{i}, \mathbf{t}_{i} | \mathbf{x}_{i}\right)=\mathcal{N}\left(\mathbf{z}_{i} | g_{\lambda_{t}}^{\mu}\left(\mathbf{x}_{i}\right), g_{\lambda_{t}}^{\sigma}\left(\mathbf{x}_{i}\right)\right) \mathcal{N}\left(\mathbf{t}_{i} | g_{\lambda_{t}}^{\mu}\left(\mathbf{x}_{i}\right), g_{\lambda_{t}}^{\sigma}\left(\mathbf{x}_{i}\right)\right.$

$q_{; \lambda_{s}}\left(\mathbf{z}_{j} | \mathbf{y}_{j}\right)=\mathcal{N}\left(\mathbf{z}_{j} | g_{\lambda_{s}}^{\mu}\left(\mathbf{y}_{j}\right), g_{\lambda_{s}}^{\sigma}\left(\mathbf{y}_{j}\right)\right)$

推論ネットワークは、 $g_{\lambda_{t}}$ と $g_{\lambda_{s}}$ の２種類だけです。また、 $\lambda_{t}$ , $\lambda_{s}$ は推論ネットワークのパラメータをそれぞれ表します。この変分事後分布を用いて、変分下界を最大化するようにモデルを学習します。

実験について

欠損データからサブグループの発見、特徴自動選択、ノイズ除去で実験をおこなっていました。特徴自動選択の実験の説明をすると、目標が被験者のある行動（静止状態）のセンサデータが手に入ったもとで、その被験者の他のラベルのない行動（サイクリングとスクワット）のセンサデータについて分類する特徴を見つけたい。要するに、被験者のサイクリングとスクワット時のセンサデータがターゲットデータセットに用いられ、背景データセットは被験者の静止状態のセンサデータとしています。モデルは、スパースな潜在表現を得るモデルSparse cLVMを採用しています。結果は、図３[左]のように、教師データなしでうまく二つの行動を分類する潜在表現が獲得できています。またその潜在表現獲得時に必要になったセンサデータの特徴をスパース表現から獲得しています。それが図３[右]の結果になります。

f:id:masamasa59:20191222201619p:plain — 図３. [左]ターゲットの潜在表現を二次元で可視化した図であり、うまく二つの行動を分類できている。[右] 与えられるセンサデータのうち、スパースな表現で得られた重み係数 ${\bf w}$ を示す。縦の値が大きいほど重要な特徴量としてみる。

図３. [左]ターゲットの潜在表現を二次元で可視化した図であり、うまく二つの行動を分類できている。[右] 与えられるセンサデータのうち、スパースな表現で得られた重み係数 ${\bf w}$ を示す。縦の値が大きいほど重要な特徴量としてみる。

ノイズ除去の実験の結果は冒頭の図１の通りです。

まとめ

二つの類似したデータセットから共有潜在表現とターゲットデータのみ持つ潜在表現をそれぞれ獲得する確率モデルの論文紹介でした。これは、Disentangled Representation と違ったアプローチで観測データの潜在的表現を分解していると思いました。また論文自体も自然にモデルを拡張しつつ、ロバストな確率モデルやスパースな確率モデルを導入しており、単純に勉強になりました。

襖からキリン

読んだ論文まとめ。