→大規模言語モデル
→Transformer
- 深層学習界の大前提Transformerの論文解説! - Qiita 2019
- Transformerは基本的な大枠はエンコーダ-デコーダモデルでself-attention層とPosition-wise全結合層を使用していることが特徴。
- つまり、以下の3つ(+2つ)のことが分かればモデル構造が理解できる
- エンコーダー-デコーダモデル
- Attention
- Position-wise全結合層
- 文字の埋め込みとソフトマックス
- 位置エンコーディング
- NLPの最近のSoTAたち(BERT,XLNet,GPT-2など)のベースとなるモデル だから理解必須
Attention/注意機構†
Encoder explained†
Decorder explained†
3Blue1Brownによる解説†
Last-modified: 2026-01-26 (月) 21:03:02