Target Propagationの仕組み

この記事は、Deep Learning Advent Calendar 2016の23日目の記事です。

現在、Deep Learningではニューラルネットワークを学習させる手法として、誤差逆伝搬法がほとんどの場合使われています。

ですが、誤差逆伝播法(Back Propagation)は生物学的妥当性がない、要するに実際に人の脳とは違うのではないかということが言われており、 Difference Target Propagation という手法がICLR2015 workshopにて提案されました。

ここではDifference Target Propagationの元になっているTarget Propagationから解説し、Differenceの方を紹介しようと思います。

※ちなみにBack Propagationについては別の記事で詳しく書いているので知らない方は見てみるといいかもしれません。

Back Propagationの生物学的妥当性について

論文内で、Back Propagationは生物学的妥当性がない理由を6個あげています。

Back Propagationの計算は純粋に線形であるのに対し、脳は線形と非線形である。
脳でBack Propagationが行われているのなら、非線形な順伝播(Feedforward Propagation)の導関数を正確に把握できている必要がある。
Back PropagationとFeedforward Propagationの重みは対称であるべき。
ニューロン(このブログの別記事ではノードと呼んでました)間の伝達は、実際の脳では確率的なバイナリ値である。
Feedforward PropagationとBack Propagationをする際の値の変動を正確に計測する必要がある。
出力目標値がどこへ向かうのかが不鮮明。

どれもまぁそうだよなぁという気持ちになりますね。

結論から言うと論文では、Target Propagationは1~4までの問題を解決していて、5,6については将来に期待してくれと書かれています。

頑張って欲しいですね(しんどそう)

※Back Propagationを理解している前提で書いています。

式の定義

まず、ニューラルネットワークの内部をいちいち書くのが煩わしいため、i番目の隠れ層 ${h_{i}}$ を以下のように定義します。

${\displaystyle h_{i}=f_{i}(h_{i-1})=s_{i}(W_{i}) }$

また、 ${h_{i}}$ から ${h_{j}}$ まで行く途中のパラメータをすべてまとめちゃって、以下のように書きます。

${\displaystyle h_{j}=h_{j}(h_{i};\theta^{i,j}_{W}) }$

また、層の数を ${M}$ とすると、最後の層は ${h_{M}}$ です。これを使って、入力が ${(x,y)}$ の時のネットワーク全体の誤差を以下のように書きます。

${\displaystyle L(h_{M}(x;\theta^{0,M}_{W}), y) }$

上の式たちを使って、誤差を以下のようにi番目の層を使って書くことができます。( ${0~M}$ を ${0~i}$ , ${i~M}$ に分解してるだけ)

${\displaystyle L(h_{M}(x;\theta^{0,M}_{W}), y)=L(h_{M}(h_{i}(x;\theta^{0,i}_{W});\theta^{i,M}_{W}), y) }$

定義はこれでひと段落です。

Back Propagationでは誤差を各層のパラメータで偏微分して、その層の誤差を次の層に伝播していきました。

ただ、そこで誤差が消えたり(勾配消失問題)するので、いろいろ工夫したりしていました。

Target Propagationは全体の誤差を小さくする際に、各層 ${h_{i};\theta^{0,i}_{W}}$ を全体の誤差が小さくなるような値 ${\hat{h}_{i}}$ に近づけるのを目標にします。

それを数式にすると、以下のような式になります。

ちなみに、 ${\hat{h}_{i}}$ をi番目の層のTaegetと呼びます。名前的にもTarget Propagationの中核となるやつです。

パラメータの更新

要するにTarget Propagationは何をしたいかというと、 ${h_{i}}$ をTarget ${\hat{h}_{i}}$ に近づけるように重みを更新したいんです。

i番目の層のTarget ${\hat{h}_{i}}$ と ${h_{i}}$ との二乗誤差(MSE)は以下のようになります。(二乗誤差はただの例です)

${\displaystyle L_{i}(\hat{h}_{i},h_{i})=||\hat{h}_{i}-h_{i};\theta^{0,i}_{W}||^{2}_{2} }$

そうすると、 ${W}$ は次のように更新することができます。

${\displaystyle W^{t+1}_{i}=W^{t}_{i}-\eta_{f_{i}}\frac{\partial L_{i}(\hat{h}_{i},h_{i})}{\partial W_{i}} }$

これを書き換えると、以下のようになります。

${\displaystyle W^{t+1}_{i}=W^{t}_{i}-\eta_{f_{i}}\frac{\partial L_{i}(\hat{h}_{i},h_{i})}{\partial h_{i}}\frac{\partial h_{i}(x;\theta^{0,i}_{W})}{\partial W_{i}} }$