Transformerによる翻訳システム自作; part4 FeedForward & Residual Connection

本稿ではFeedForward層とResidual connection（残差接続）、正規化層を導入します。Transformerはattention機構とFeedForward機構から構成されており、それぞれに対して残差接続が行われています。

実装

FeedForwardとは循環構造を持たないニューラルネットワークの総称です。Transformerでは単純に隠れ層が1つの全結合層が用いられます。また隠れ層の次元は通常入力次元とは大きなものが用いられ出力次元は入力次元と同じものに設定されます。

さてそれではなぜこのfeedforward層が必要なのでしょうか。少なくともattentionは結局Value部分の平均化操作にすぎないため、非線形変換や、活性化関数的操作、それ以上の操作を行いたい場合はこのような追加の層が必要です（参考: natural language - What is the role of feed forward layer in Transformer Neural Network architecture? - Cross Validated）。ニューラルネットワークでは多様な変換が行える機構が（それが必要かどうかはおいといて）含まれている方が良いのでしょう。