Transformer の変更点 - 技術情報Wiki

追加された行はこの色です。
削除された行はこの色です。
Transformer へ行く。
Transformer の差分を削除
#author("2025-09-24T13:33:04+09:00","default:irrp","irrp")
#author("2025-10-08T13:09:52+09:00","default:irrp","irrp")
→AI／機械学習

→ディープラーニング

→自然言語処理

→画像認識／検出／トラッキング＜Visiotn Transformer(ViT)についてはこちら

→大規模言語モデル

#contents


*サブトピック [#j46a83ff]
-GPT関連
-Transformer理論的説明


* Transformer一般 [#e422cd4b]
-[[Let's build GPT: from scratch, in code, spelled out. - YouTube>https://www.youtube.com/watch?v=kCc8FmEb1nY]] 2025.10

-[[様々なコンテキスト長における LLM の Self-Attention の Query と Key の分析 - ABEJA Tech Blog>https://tech-blog.abeja.asia/entry/longcontext-llm-massive-values-202509]] 2025.9

-[[AIトランスフォーマーモデルの実装。モデルサイズ（10億から700億パラメータ数）を様々に設定するできるGPTのコード。 #機械学習 - Qiita>https://qiita.com/muratatetsutaka84/items/2b2b555d476c4008f385]] 2024.9

-[[Transformersでマスクされたトークンを予測してみる（MLM：Masked Language Modeling） - CLOVER&#127808;>https://kazuhira-r.hatenablog.com/entry/2024/01/03/221331]] 2024.1
-[[TransformersやDatasetsといったHugging Faceのライブラリーを使った時に、モデルやデータセットがどこにダウンロードされるのかを確認する - CLOVER&#127808;>https://kazuhira-r.hatenablog.com/entry/2024/01/03/154909]] 2024.1
-[[Transformersでテキスト生成を試してみる - CLOVER&#127808;>https://kazuhira-r.hatenablog.com/entry/2024/01/03/152245]] 2024.1

-[[[書評] 機械学習エンジニアのためのTransformers ー 自然言語のTransformerについてより知りたい人向けな一冊 - まったり勉強ノート>https://www.mattari-benkyo-note.com/2023/05/08/transformers_book_review/]] 2023.5
--[[【書籍】機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発>https://amzn.to/3VJ3yZ9]] 

-[[[輪講資料] LoRA: Low-Rank Adaptation of&#8232;Large Language Models - Speaker Deck>https://speakerdeck.com/hpprc/lun-jiang-zi-liao-lora-low-rank-adaptation-of-large-language-models]] 2023.4

-[[BERT-to-GPT Catch Up Survey - Speaker Deck>https://speakerdeck.com/karakurist/bert-to-gpt-catch-up-survey]] 2023.4

-[[Transformerをゼロから実装する | One Tech Blog>https://tech.gmogshd.com/transformer/]] 2023.3

-[[Hugging Face Pipelineを使ったお手軽AIプログラミング | IIJ Engineers Blog>https://eng-blog.iij.ad.jp/archives/17980]] 2023.2

-[[画像や文章の生成などを行う「ジェネレーティブAI」はなぜ急に発展したのか？ - GIGAZINE>https://gigazine.net/news/20230202-generative-ai-revolution/]] 2023.2
--プログラミング言語としてのトレーニングから、自然言語処理(NLP)を用いた「コードではなく言語を理解」する学習法に推移していく段階でRNNやLSTMが用いられていましたが、近年まで「言語の処理では単語の順序が重要な違いを生む」点や、「適切なトレーニングデータを取得するのが難しい」という点で、長い文章の処理を行えなかった
--そこで突破口となったのがGoogleの「Transformer」で、RNNよりも言語理解タスクに秀でたニューラルネットワークアーキテクチャとして質の高い翻訳に成功しました。翻訳には言語ごとの語順が重要で、それがTransformerには当然に組み込まれていたため、Transformerが用いた「位置エンコーディング」「マルチヘッドアテンション」という処理法が言語処理のブレイクスルーとして機能した
--言語モデルにおける大きな転換点は、翻訳のために作られた驚くべきモデルを利用する事で、言語処理タスクが抱えていた問題を翻訳の問題に変換する方法を見つけ出したこと
--Transformerはある言語から別の言語に変換する翻訳モデルとして発明されましたが、画像など他のパラメータを言語と同様の方法で表現する方法を理解できれば、そこにあるルールを見つけ出して別の言語にマッピングするTransformerの能力を訓練して、翻訳を行うことができます。こうして「画像から特徴を抽出し、潜在表現と呼ばれる低次元表現に圧縮し、細かいポイントを軸として座標に表す」といったアプローチが可能になりました。

-[[Vision Transformer入門をもっと楽しむために - Speaker Deck>https://speakerdeck.com/sei88888/vision-transformerru-men-womotutole-simutameni]] 2022.12
--[[【書籍】Vision Transformer入門>https://amzn.to/3jZsugl]]

-[[Transformerのモデル、"T5"について調べてみました！ - CCCMKホールディングス TECH Labの Tech Blog>https://techblog.cccmk.co.jp/entry/2022/12/13/125045]] 2022.12

-[[CS25 I Stanford Seminar - Transformers United: DL Models that have revolutionized NLP, CV, RL - YouTube>https://www.youtube.com/watch?v=P127jhj-8-Y&list=PLoROMvodv4rNiJRchCzutFw5ItR_Z27CM]] 2022.7

-[[作って理解する Transformer / Attention - Qiita>https://qiita.com/halhorn/items/c91497522be27bde17ce]] 2018


**概要 [#v94495bb]
-時系列処理が必要なRNNは並列化と相性が悪いのでAttentionに全振りしたのがTransformer
-自己注意機能により系列データを一括同時処理可能になった。RNNでは逐次計算が必要、また離れた単語の関係づけできず長文理解が難しかった。
--GPUフレンドリで容易に並列化可能→学習の高速化、劇的な学習時間短縮を実現
--入力シーケンス全体を考慮可能
--CV(Computer Vision)タスクへの応用もあり→画像認識／検出／トラッキング



* BERT (Bidirectional Encoder Representations from Transformers) [#x3a29000]
-[[カレーの例文でわかる！BERTによる日本語文書埋め込みの作り方 #Python - Qiita>https://qiita.com/Tadataka_Takahashi/items/20c568c3a62bc2765f71]] 2025.4

-[[[上級編]LLMへ至る道~BERTはよく聞くけど実は~[19日目] | DevelopersIO>https://dev.classmethod.jp/articles/road-to-llm-advent-calendar-2023-19/]] 2023.12

-[[高性能・高速・軽量な日本語言語モデル LINE DistilBERTを公開しました>https://engineering.linecorp.com/ja/blog/line-distilbert-high-performance-fast-lightweight-japanese-language-model]] 2023.3

-[[BERTのFine-Tuningの方法を安定させる方法を試してみました！ - CCCMKホールディングス TECH Labの Tech Blog>https://techblog.cccmk.co.jp/entry/2023/03/07/104156]] 2023.3

-[[BERTで自殺ツイートを検出する試み　～?EDAとルールベースでの検出～ - Qiita>https://qiita.com/harunan0913/items/b8d6a7414898e691da40]] 2023.2

-[[自然言語処理モデル(BERT)で文の意味上の類似度を計算 | GMOアドパートナーズ TECH BLOG byGMO>https://techblog.gmo-ap.jp/2022/12/21/bert_calc_sentence_similarity/]] 2022.12

-[[BERT 自然言語解析手法の変遷について - MONEX ENGINEER BLOG │マネックス エンジニアブログ>https://blog.tech-monex.com/entry/2022/08/19/183846]] 2022.8

-[[【やってみた】BERTにブログの特徴を教えてもらってみた - 神戸のデータ活用塾！KDL Data Blog>https://kdl-di.hatenablog.com/entry/2022/08/08/090000]] 2022.8

-[[文章からLGTM数を予測して「バズる記事」を判別してみた - Qiita>https://qiita.com/pyopp8128/items/2cb0edabaf94e9385871]] 2022.6
--BERTのファインチューニングにより、Qiita中の記事がLGTM>100かどうか判別する2クラス分類深層学習モデルを作成したよ

-[[BERT入門>https://www.slideshare.net/matsukenbook/bert-217710964]] 2022.6

-[[BERT Research - Ep. 1 - Key Concepts & Sources - YouTube>https://www.youtube.com/watch?v=FKlPCK1uFrc]] 2019
-[[自然言語処理モデル「BERT」の日本語版事前学習モデルが無償公開 商用利用も可>https://ledge.ai/bert-free-learning-model-in-japanese/]] 2022.4
--[[インフォマティクス、BERT日本語版事前学習モデルを公開｜株式会社インフォマティクスのプレスリリース>https://prtimes.jp/main/html/rd/p/000000068.000034332.html]] 2022.4
--[[GitHub - informatix-inc/bert>https://github.com/informatix-inc/bert]]

-[[BERTとベクトル検索を用いたYahoo!ショッピングの製品名寄せ作業の効率化検証 - Yahoo! JAPAN Tech Blog>https://techblog.yahoo.co.jp/entry/2022040630294096/]] 2022.4
-[[BERTを用いて文章の穴埋め問題を解く - Qiita>https://qiita.com/kai_notebook/items/58048b027ae48cb700cb]] 2022.3

-[[プロ棋士の谷合廣紀四段がBERTを使った将棋ソフトを作られました>http://yaneuraou.yaneu.com/2021/05/15/bert-mcts/]] 2021
--[[GitHub - nyoki-mtl/bert-mcts-youtube>https://github.com/nyoki-mtl/bert-mcts-youtube]]


**BERTの理論的な話 [#dce24e5a]
-[[【深層学習】BERT - 実務家必修。実務で超応用されまくっている自然言語処理モデル【ディープラーニングの世界vol.32】#110 #VRアカデミア #DeepLearning - YouTube>https://www.youtube.com/watch?v=IaTCGRL41_k]] 2021

-通常のDLでは一気に高精度モデルを作る。そのために大量の教師付きデータが必要。大量の計算資源も必要
--大量の汎用テキストデータで言語ベースを事前学習(Pre-Training)→タスクに合わせて追加学習(Fine-Tuning)
--Pre-Training済みのモデルを提供してもらえれば、追加学習は少ない計算資源で可能になった。
--文章のマスクと復元という自己教師学習によりラベルなし文章を学習に適用可能

-双方向モデル、単語の前後から文脈を把握
--問題文と選択肢、などのように文章を２つ入力する。
--Segment Vector EA or EBを入力ベクタへ足す

-Pre-Training
--1.Masked Language Model(Close Test)
---入力の15％をマスクし、単語穴埋め問題を解く
--2.Next Sentence Prediction
---2文のつながりを予測させる→文脈の理解


*LLaMA [#e84ef279]
-[[GPT-3に匹敵するチャットAIモデル「LLaMA」をiPhoneやPixelなどのスマホで動かすことに成功 - GIGAZINE>https://gigazine.net/news/20230314-llama-iphone-pixel/]] 2023.3

-[[チャットAI「LLaMA」を一発でローカルにインストールして「文章の続きを書く機能」を試せる「Dalai」使い方まとめ - GIGAZINE>https://gigazine.net/news/20230314-dalai-llama/]] 2023.3

-[[Metaが大規模言語モデル「LLaMA」を発表、GPT-3に匹敵する性能ながら単体のGPUでも動作可能 - GIGAZINE>https://gigazine.net/news/20230227-llama-large-language-model-meta-ai/]] 2023.3

-[[「たった2行のコードで、自分のコンピューターでGPT-3、Chinchilla、PaLM級のモデル「LLaMa」を実行する方法が公開 / Twitter>https://twitter.com/Yamkaz/status/1635101889766494210]] 2023.3