Transformer の履歴(No.8) - 技術情報Wiki

GPT-3の論文を読んでいます！ - CCCMKホールディングス TECH Labの Tech Blog 2022.12
- "GPT-3"は"Transformer"をベースにしたモデルで、その特徴はその中に含まれる巨大なパラメータ数にあります。そのパラメータ数は175Billion, つまり1,750億になるそうです。"GPT"が117Million(1億1,700万)、"GPT-2"が1,542Million(15億4,200万)のパラメータで構成されている

OpenAI開発のテキスト生成AI「GPT-3」がどんな処理を行っているのかを専門家が解説 - GIGAZINE 2022.12

【無料】GPT-3レベルのGoogle製Flan-T5を利用する方法 | ジコログ 2022.11

ABEJAで作った大規模GPTモデルとその道のり - ABEJA Tech Blog 2022.7

13億パラメータの日本語特化GPT言語モデルを使ってSlackAIチャットボットを作ってみた1～文章生成機能編～ - Qiita 2022.7

↑

Transformer一般†

画像や文章の生成などを行う「ジェネレーティブAI」はなぜ急に発展したのか？ - GIGAZINE 2023.2
- プログラミング言語としてのトレーニングから、自然言語処理(NLP)を用いた「コードではなく言語を理解」する学習法に推移していく段階でRNNやLSTMが用いられていましたが、近年まで「言語の処理では単語の順序が重要な違いを生む」点や、「適切なトレーニングデータを取得するのが難しい」という点で、長い文章の処理を行えなかった
- そこで突破口となったのがGoogleの「Transformer」で、RNNよりも言語理解タスクに秀でたニューラルネットワークアーキテクチャとして質の高い翻訳に成功しました。翻訳には言語ごとの語順が重要で、それがTransformerには当然に組み込まれていたため、Transformerが用いた「位置エンコーディング」「マルチヘッドアテンション」という処理法が言語処理のブレイクスルーとして機能した
- 言語モデルにおける大きな転換点は、翻訳のために作られた驚くべきモデルを利用する事で、言語処理タスクが抱えていた問題を翻訳の問題に変換する方法を見つけ出したこと
- Transformerはある言語から別の言語に変換する翻訳モデルとして発明されましたが、画像など他のパラメータを言語と同様の方法で表現する方法を理解できれば、そこにあるルールを見つけ出して別の言語にマッピングするTransformerの能力を訓練して、翻訳を行うことができます。こうして「画像から特徴を抽出し、潜在表現と呼ばれる低次元表現に圧縮し、細かいポイントを軸として座標に表す」といったアプローチが可能になりました。

時系列処理が必要なRNNは並列化と相性が悪いのでAttentionに全振りしたのがTransformer
自己注意機能により系列データを一括同時処理可能になった。RNNでは逐次計算が必要、また離れた単語の関係づけできず長文理解が難しかった。
- GPUフレンドリで容易に並列化可能→学習の高速化、劇的な学習時間短縮を実現
- 入力シーケンス全体を考慮可能
- CV(Computer Vision)タスクへの応用もあり→画像認識／検出／トラッキング

「Transformer」の仕組み──AIによる画像・動画生成や自然言語処理で話題の深層学習モデルを理解する (1/3)|CodeZine（コードジン） 2022.12

Vision Transformer入門をもっと楽しむために - Speaker Deck 2022.12

Transformerのモデル、"T5"について調べてみました！ - CCCMKホールディングス TECH Labの Tech Blog 2022.12

Hugging Face Courseで学ぶ自然言語処理とTransformer 【part1】 2021.6

図で理解するTransformer - Qiita 2021.5

[2207.09238] Formal Algorithms for Transformers 2022.7

CS25 I Stanford Seminar - Transformers United: DL Models that have revolutionized NLP, CV, RL - YouTube 2022.7

Transformerの最前線〜畳込みニューラルネットワークの先へ〜 - Speaker Deck 2022.7

自然言語処理の必須知識 Transformer を徹底解説！ | DeepSquare 2022.3

深層学習界の大前提Transformerの論文解説！ - Qiita 2019
- アーキテクチャのポイントは以下の3つだよ。
  - エンコーダー-デコーダモデル
  - Attention
  - 全結合層
- NLPの最近のSoTAたち(BERT,XLNet,GPT-2など)のベースとなるモデルだから理解必須

↑

Attention†

Pay Attention To 生成モデル - Qiita 2022.9

最近のDeep Learning (NLP) 界隈におけるAttention事情 2022.3

作って理解する Transformer / Attention - Qiita 2018

[1706.03762] Attention Is All You Need 2017

↑

PaLM†

超大規模Transformerモデル、コーディングタスクや多言語タスクでも高い性能

Googleは世界最大規模のAI言語モデル「PaLM」を開発、言葉を理解する機能が格段に向上、人間のように論理的に考えジョークのオチを説明する | Emerging Technology Review 2022.7

↑

BERT†

Transformerから発展。大量の汎用テキストデータで事前学習→タスクに合わせて追加学習
文章のマスクと復元という自己教師学習によりラベルなし文章を学習に適用可能
双方向モデル、単語の前後から文脈を把握

BERTで自殺ツイートを検出する試み　～?EDAとルールベースでの検出～ - Qiita 2023.2

自然言語処理モデル(BERT)で文の意味上の類似度を計算 | GMOアドパートナーズ TECH BLOG byGMO 2022.12

BERT 自然言語解析手法の変遷について - MONEX ENGINEER BLOG │マネックスエンジニアブログ 2022.8

【やってみた】BERTにブログの特徴を教えてもらってみた - 神戸のデータ活用塾！KDL Data Blog 2022.8

文章からLGTM数を予測して「バズる記事」を判別してみた - Qiita 2022.6
- BERTのファインチューニングにより、Qiita中の記事がLGTM>100かどうか判別する2クラス分類深層学習モデルを作成したよ

BERT入門 2022.6