本稿ではMulti-head Attentionについて実装を行います。
Multi-head Attention
- Q, K, Vを分割してそれぞれでscaled dot-product attentionを実行、結果を集約(concat)
- こちらの方が精度が良い(理由は分からんけども; 複数の文脈を取り出せるという効果も)
- それぞれのattentionを並列実行できるという利点
attention mask
attentionのに対する特徴量算出式を思い出そう。(参考: Attention - Speaker Deck )
transformer内のforwardでのmask処理コード
コード
まとめ
本稿ではMulti-head attentionとMasked multi-head attentionを実装しました。
他の記事
- 次の記事
- 前の記事
- 一覧 Transformer自作 カテゴリーの記事一覧 - サブロウ丸