Transformer構造(の一部)を用いた深層学習アーキテクチャは自然言語処理におけるデファクトスタンダードになっています。 そこで、その心は何たるかを知るためにTransformerによる日英翻訳モデル作成をできるだけ自作することを目指します。
以降複数の記事に分けて作成していきます。目標は 深層学習の主要なコンポーネントである変換層、活性化関数、オプティマイザーの準伝播と誤差逆伝播を実装し、その計算原理や計算コストを明らかにする にします。言い換えると、自作を通して曖昧な箇所をなくしていこう、という心持ちです。
また、深層学習で自作といえば次の本を思い浮かべる人も多いのではないでしょうか。
上記の書籍は非常に分かりやすくエッセンが紹介されている良書です。書籍のコードもMITライセンスで配布されています。
本稿はこの実装を参考にしつつ、コードを組み立てていきます。
今後の計画 (修正されます)
- イントロダクション(本稿)
- 言語処理 & 学習の大枠の紹介
- プロトタイプの作成(シンプルなTransformer)
- Masked Multi-head attention
- FeedForward & Residual Connection
- Multi-block
他の記事
- 次の記事
- 一覧 Transformer自作 カテゴリーの記事一覧 - サブロウ丸