Transformer の履歴の現在との差分(No.3)

追加された行はこの色です。
削除された行はこの色です。
#author("2023-02-03T23:21:19+09:00","default:irrp","irrp")
#author("2024-04-10T12:42:40+09:00","default:irrp","irrp")
→AI／機械学習

→ディープラーニング

→自然言語処理

→Stable Diffusion関連
→画像認識／検出／トラッキング＜Visiotn Transformer(ViT)についてはこちら

→大規模言語モデル

#contents


*ChatGPT [#cdb422ff]
-[[月額2600円で使える有料版「ChatGPT Plus」がついに登場 - GIGAZINE>https://gigazine.net/news/20230202-chatgpt-plus/]] 2023.2
*サブトピック [#j46a83ff]
-GPT関連

-[[ChatGPT生成の文章を検出する「DetectGPT」をスタンフォード大学が開発 - GIGAZINE>https://gigazine.net/news/20230130-detectgpt/]] 2023.1

-[[「ChatGPTの可能性や使い方がわかるnote記事を10個スレッドにまとめました&#128071;」 / Twitter>https://twitter.com/shodaiiiiii/status/1618073678553681921]] 2023.1
* Transformer一般 [#e422cd4b]
-[[Transformersでマスクされたトークンを予測してみる（MLM：Masked Language Modeling） - CLOVER&#127808;>https://kazuhira-r.hatenablog.com/entry/2024/01/03/221331]] 2024.1
-[[TransformersやDatasetsといったHugging Faceのライブラリーを使った時に、モデルやデータセットがどこにダウンロードされるのかを確認する - CLOVER&#127808;>https://kazuhira-r.hatenablog.com/entry/2024/01/03/154909]] 2024.1
-[[Transformersでテキスト生成を試してみる - CLOVER&#127808;>https://kazuhira-r.hatenablog.com/entry/2024/01/03/152245]] 2024.1

-[[対話AI「ChatGPT」は教育現場で活躍するため禁止するのではなく使い方を教えるべきという指摘 - GIGAZINE>https://gigazine.net/news/20230117-chatgpt-school/]] 2023.1
-[[[書評] 機械学習エンジニアのためのTransformers ー 自然言語のTransformerについてより知りたい人向けな一冊 - まったり勉強ノート>https://www.mattari-benkyo-note.com/2023/05/08/transformers_book_review/]] 2023.5
--[[【書籍】機械学習エンジニアのためのTransformers ―最先端の自然言語処理ライブラリによるモデル開発>https://amzn.to/3VJ3yZ9]] 

-[[ChatGPTに共通テストの英語を解かせてみたら77%取れた>https://www.satoooh.org/blog/chatgpt-exam]] 2023.1
-[[[輪講資料] LoRA: Low-Rank Adaptation of&#8232;Large Language Models - Speaker Deck>https://speakerdeck.com/hpprc/lun-jiang-zi-liao-lora-low-rank-adaptation-of-large-language-models]] 2023.4

-[[VSCodeにChatGPTの拡張機能を入れてコードレビューやバグを発見してもらう - Qiita>https://qiita.com/tak001/items/c3000b3ce9b6e72b2ae5]] 2023.1
--[[VSCodeのChatGPTプラグインを日本語化する - Qiita>https://qiita.com/akiraak/items/b8ad643eafe1a32341ff]] 2023.1
-[[BERT-to-GPT Catch Up Survey - Speaker Deck>https://speakerdeck.com/karakurist/bert-to-gpt-catch-up-survey]] 2023.4

-[[Transformerをゼロから実装する | One Tech Blog>https://tech.gmogshd.com/transformer/]] 2023.3

-[[ChatGPTとは？始め方やアカウント登録・使い方を解説 - BTCC>https://www.btcc.com/ja-JP/academy/crypto-basics/what-is-chatgpt]] 2023.1
-[[Hugging Face Pipelineを使ったお手軽AIプログラミング | IIJ Engineers Blog>https://eng-blog.iij.ad.jp/archives/17980]] 2023.2

-[[GitHub - openai/openai-cookbook: Examples and guides for using the OpenAI API>https://github.com/openai/openai-cookbook]] 2023.1
-[[画像や文章の生成などを行う「ジェネレーティブAI」はなぜ急に発展したのか？ - GIGAZINE>https://gigazine.net/news/20230202-generative-ai-revolution/]] 2023.2
--プログラミング言語としてのトレーニングから、自然言語処理(NLP)を用いた「コードではなく言語を理解」する学習法に推移していく段階でRNNやLSTMが用いられていましたが、近年まで「言語の処理では単語の順序が重要な違いを生む」点や、「適切なトレーニングデータを取得するのが難しい」という点で、長い文章の処理を行えなかった
--そこで突破口となったのがGoogleの「Transformer」で、RNNよりも言語理解タスクに秀でたニューラルネットワークアーキテクチャとして質の高い翻訳に成功しました。翻訳には言語ごとの語順が重要で、それがTransformerには当然に組み込まれていたため、Transformerが用いた「位置エンコーディング」「マルチヘッドアテンション」という処理法が言語処理のブレイクスルーとして機能した
--言語モデルにおける大きな転換点は、翻訳のために作られた驚くべきモデルを利用する事で、言語処理タスクが抱えていた問題を翻訳の問題に変換する方法を見つけ出したこと
--Transformerはある言語から別の言語に変換する翻訳モデルとして発明されましたが、画像など他のパラメータを言語と同様の方法で表現する方法を理解できれば、そこにあるルールを見つけ出して別の言語にマッピングするTransformerの能力を訓練して、翻訳を行うことができます。こうして「画像から特徴を抽出し、潜在表現と呼ばれる低次元表現に圧縮し、細かいポイントを軸として座標に表す」といったアプローチが可能になりました。

-[[GitHub - f/awesome-chatgpt-prompts: This repo includes ChatGPT prompt curation to use ChatGPT better.>https://github.com/f/awesome-chatgpt-prompts]] 2023.1
-[[Vision Transformer入門をもっと楽しむために - Speaker Deck>https://speakerdeck.com/sei88888/vision-transformerru-men-womotutole-simutameni]] 2022.12
--[[【書籍】Vision Transformer入門>https://amzn.to/3jZsugl]]

-[[ChatGPTのヤバさは、論理処理が必要と思ったことが確率処理でできるとわかったこと - きしだのHatena>https://nowokay.hatenablog.com/entry/2023/01/10/142544]] 2023.1
-[[Transformerのモデル、"T5"について調べてみました！ - CCCMKホールディングス TECH Labの Tech Blog>https://techblog.cccmk.co.jp/entry/2022/12/13/125045]] 2022.12

-[[IDEにChatGPTを統合、「この関数のテストコードはどこ？」「XXXを実装するならどう書けばいい？」など、AIでコードと対話できる「qqbot」登場 － Publickey>https://www.publickey1.jp/blog/23/idechatgptxxxaiqqbot.html]] 2023.1
-[[CS25 I Stanford Seminar - Transformers United: DL Models that have revolutionized NLP, CV, RL - YouTube>https://www.youtube.com/watch?v=P127jhj-8-Y&list=PLoROMvodv4rNiJRchCzutFw5ItR_Z27CM]] 2022.7

-[[ChatGPTはソフトウェアエンジニアリングを変えるだろう ― しかし、あなたが望んでいるような仕方ではない | AI専門ニュースメディア AINOW>https://ainow.ai/2023/01/10/271486/]] 2023.1
-[[作って理解する Transformer / Attention - Qiita>https://qiita.com/halhorn/items/c91497522be27bde17ce]] 2018

-[[Best ChatGPT Resources 101>https://enchanting-trader-463.notion.site/Best-ChatGPT-Resources-101-94a7c6dbabcc4febbfb498c555d6ef5f]] 2023.1

-[[ChatGPTでの英文校正というチート：使い方・注意点まとめ - Riklog>https://riklog.com/research/chatgpt/]] 2023.1
-[[【活用事例】ChatGPTを利用したプログラミングの効率化 | ジコログ>https://self-development.info/%e3%80%90%e6%b4%bb%e7%94%a8%e4%ba%8b%e4%be%8b%e3%80%91chatgpt%e3%82%92%e5%88%a9%e7%94%a8%e3%81%97%e3%81%9f%e3%83%97%e3%83%ad%e3%82%b0%e3%83%a9%e3%83%9f%e3%83%b3%e3%82%b0%e3%81%ae%e5%8a%b9%e7%8e%87/]] 2023.1
**概要 [#v94495bb]
-時系列処理が必要なRNNは並列化と相性が悪いのでAttentionに全振りしたのがTransformer
-自己注意機能により系列データを一括同時処理可能になった。RNNでは逐次計算が必要、また離れた単語の関係づけできず長文理解が難しかった。
--GPUフレンドリで容易に並列化可能→学習の高速化、劇的な学習時間短縮を実現
--入力シーケンス全体を考慮可能
--CV(Computer Vision)タスクへの応用もあり→画像認識／検出／トラッキング

-[[Running ChatGPT Locally using Docker Desktop - DEV Community &#128105;&#8205;&#128187;&#128104;&#8205;&#128187;>https://dev.to/docker/running-chatgpt-locally-using-docker-desktop-2i31]] 2023.1

-[[ChatGPT使い方総まとめ - Qiita>https://qiita.com/sakasegawa/items/82069c97a1ee011c2d1e]] 2022.12
*理論的な解説 [#g2b6b0dd]
-[[Transformersによる自然言語処理の実践 - YouTube>https://www.youtube.com/watch?v=uFz3s6NcUNg]] 2024.4

-[[PyChatGPT: Python Client for The Unofficial ChatGPT API>https://morioh.com/p/337c1ffce36f?f=5c21fb01c16e2556b555ab32&fbclid=IwAR0VVh_-6ylrLBW47Jvz1UryAzivBZAan2ciiIcsN36EkA-8GznqzkBIxvU]] 2022.12
-[[注目の可視化、変幻自在の心臓｜第6章 ディープ・ラーニング - YouTube>https://www.youtube.com/watch?v=eMlx5fFNoYc]] 2024.4
-[[しかし、GPTとは何なのか？ トランスフォーマーのビジュアル入門｜ディープラーニング・第5章 - YouTube>https://www.youtube.com/watch?v=wjZofJX0v4M]] 2024.4

-[[高度なチャットボット「ChatGPT」は検索エンジンを置き換える！！Googleは創業以来の危機に直面 | Emerging Technology Review>https://etechnologyreview.com/2022/12/16/%e9%ab%98%e5%ba%a6%e3%81%aa%e3%83%81%e3%83%a3%e3%83%83%e3%83%88%e3%83%9c%e3%83%83%e3%83%88%e3%80%8cchatgpt%e3%80%8d%e3%81%af%e6%a4%9c%e7%b4%a2%e3%82%a8%e3%83%b3%e3%82%b8%e3%83%b3%e3%82%92%e7%bd%ae/]] 2022.12
-[[ASCII.jp：「ExcelでChatGPTを再現するシート」が想像以上に素晴らしかった (1/4)>https://ascii.jp/elem/000/004/187/4187763/]] 2024.3
-[[大規模言語モデルの動作をExcelで完全に再現することでプログラミングをせずにAIの構造を学習できるシートが登場 - GIGAZINE>https://gigazine.net/news/20240302-excel-gpt-2/]] 2024.3

-[[ChatGPTさんに企画候補・企画書の生成・コーディングまでやってもらった (小説風) - Qiita>https://qiita.com/alclimb/items/91d9183aed12fd6db4f8]] 2022.12
-[[大規模言語モデル第二回 Transformer - Speaker Deck>https://speakerdeck.com/m7142yosuke/da-gui-mo-yan-yu-moderudi-er-hui-transformer]] 2024.1

-[[ChatGPT 人間のフィードバックから強化学習した対話AI>https://www.slideshare.net/ShotaImai3/chatgpt-254863623]] 2022.12
-[[Transformerとは何か？ 「ChatGPT」や「Gemini」を生み出した超重要技術の進化 ｜ビジネス+IT>https://www.sbbit.jp/article/cont1/130017]] 2024.1

-[[ChatGPTの学習データと学習方法が知りたい！ &#12316;Q.埼玉県沖で採れるウニはいくらですか？ A.ウニはいくらではない。&#12316; - GMOインターネットグループ グループ研究開発本部（次世代システム研究室）>https://recruit.gmo.jp/engineer/jisedai/blog/chatgpt_please_tell_me_uni_ikura/]] 2023.1
-[[話題爆発中のAI「ChatGPT」の仕組みにせまる！ - Qiita>https://qiita.com/omiita/items/c355bc4c26eca2817324]] 2022.12
-[[Python(PyTorch)で自作して理解するTransformer>https://zenn.dev/yukiyada/articles/59f3b820c52571]] 2022

-[[ChatGPTにおけるチャットログの自動保存【Python】 | ジコログ>https://self-development.info/chatgpt%e3%81%ab%e3%81%8a%e3%81%91%e3%82%8b%e3%83%81%e3%83%a3%e3%83%83%e3%83%88%e3%83%ad%e3%82%b0%e3%81%ae%e8%87%aa%e5%8b%95%e4%bf%9d%e5%ad%98%e3%80%90python%e3%80%91/]] 2022.12
-[[PythonからChatGPTにアクセスできるPyChatGPTのインストール | ジコログ>https://self-development.info/python%e3%81%8b%e3%82%89chatgpt%e3%81%ab%e3%82%a2%e3%82%af%e3%82%bb%e3%82%b9%e3%81%a7%e3%81%8d%e3%82%8bpychatgpt%e3%81%ae%e3%82%a4%e3%83%b3%e3%82%b9%e3%83%88%e3%83%bc%e3%83%ab/]] 2022.12
-[[[上級編]LLMへ至る道~TransoformerのEncoderって何をエンコードするの？~[17日目] | DevelopersIO>https://dev.classmethod.jp/articles/road-to-llm-advent-calendar-2023-17/]] 2023.12

-[[ChatGPTはどのように学習を行なっているのか>https://zenn.dev/ttya16/articles/chatgpt20221205]] 2022.12
-[[[上級編]LLMへ至る道~Transformerは何をするのか~[15日目] | DevelopersIO>https://dev.classmethod.jp/articles/road-to-llm-advent-calendar-2023-15/]] 2023.12

-[[ChatGPTを速報解説してみた - 神戸のデータ活用塾！KDL Data Blog>https://kdl-di.hatenablog.com/entry/Bulletin-ChatGPT]] 2022.12
-[[Transformer メタサーベイ | PPT>https://www.slideshare.net/cvpaperchallenge/transformer-247407256]] 2021

-[[ChatGPT使い方総まとめ - Qiita>https://qiita.com/sakasegawa/items/82069c97a1ee011c2d1e]] 2022.12
-[[AI界を席巻する「Transformer」をゆっくり解説(1日目) ～Abstract編～>https://zenn.dev/attentionplease/articles/2d4b2b55ba396e]] 2021
--[[AI界を席巻する「Transformer」をゆっくり解説(3日目) ～Model Architecture編 1～>https://zenn.dev/attentionplease/articles/5b4133a4956578]] 

-[[Quickstart tutorial - OpenAI API>https://beta.openai.com/docs/quickstart]] 2023.1
-[[大規模言語モデル - Speaker Deck>https://speakerdeck.com/chokkan/llm]] 2023.9

-API Key を取得するには https://beta.openai.com/account/api-keys へアクセスする。
-[[ChatGPT の仕組みを理解する（前編） - ABEJA Tech Blog>https://tech-blog.abeja.asia/entry/chat-gpt-first-half-202307]] 2023.7
--[[ChatGPT の仕組みを理解する（後編） - ABEJA Tech Blog>https://tech-blog.abeja.asia/entry/chat-gpt-second-half-202307]] 2023.7

-[[深層学習の革命児！Transformer を今こそ理解しよう | キカガクの技術ブログ>https://blog.kikagaku.co.jp/deep-learning-transformer]] 2023.6

-[[ChatGPTにも使われる機械学習モデル「Transformer」が自然な文章を生成する仕組みとは？ - GIGAZINE>https://gigazine.net/news/20230423-transformer-model/]] 2023.4

* GPT一般 [#l9bc9c4d]
-[[GPT Index の使用方法｜npaka｜note>https://note.com/npaka/n/n6a2b39b7da7c]] 2023.1
--「GPT Index」は、LLMと外部データを簡単に接続できるインデックスを作成するためのライブラリです。
-[[Transformerの構造を理解したい - Qiita>https://qiita.com/ski2_1116/items/45052a55ea8b9dc5984a]] 2023.4

-[[言語の壁を打ち破る：GPT with 多言語インデックス - Qiita>https://qiita.com/yakigac/items/d350ec3c94f2c640c3cf]] 2023.2
-[[【5分で解説】AI進化のきっかけになったTransformerとは！？Attention層とは？｜スタビジ>https://toukei-lab.com/transformer#GPT]] 2023.3

-[[How Does GPT-3 Work? - DEV Community &#128105;&#8205;&#128187;&#128104;&#8205;&#128187;>https://dev.to/deepgram/how-does-gpt-3-work-hco]] 2023.1
-[[GPTの仕組みと限界についての考察（2.1） - conceptualization>https://isobe324649.hatenablog.com/entry/2023/03/27/064121]] 2023.3
--[[GPTの解説記事を読んだ上での個人的補足とChatGPTの手軽な利用例について触れてみた | DevelopersIO>https://dev.classmethod.jp/articles/memo-for-commentary-blog-gpt-by-japanese/]] 2023.3

-[[FAQチャットボット開発に役立つGPT Indexのインストール | ジコログ>https://self-development.info/faq%e3%83%81%e3%83%a3%e3%83%83%e3%83%88%e3%83%9c%e3%83%83%e3%83%88%e9%96%8b%e7%99%ba%e3%81%ab%e5%bd%b9%e7%ab%8b%e3%81%a4gpt-index%e3%81%ae%e3%82%a4%e3%83%b3%e3%82%b9%e3%83%88%e3%83%bc%e3%83%ab/]] 2023.1
-[[全力解説！Transformer>https://www.slideshare.net/ArithmerInc/transformer-248613529]] 2023.3

-[[TypeScriptでGPT-3.5を使ってChatGPTクローンを作る1 - GPTで検索エージェント>https://zenn.dev/erukiti/articles/deno-chatgpt-clone-1]] 2023.1
-[[A Gentle Introduction to Positional Encoding in Transformer Models, Part 1 - MachineLearningMastery.com>https://machinelearningmastery.com/a-gentle-introduction-to-positional-encoding-in-transformer-models-part-1/]] 2023.3
--前処理で行っている単語位置情報のエンコーディング

-[[OpenAI API で提供されている GPT-3モデル まとめ｜npaka｜note>https://note.com/npaka/n/nef372ec2e33a]] 2023.1
-[[(数式を使わない) Transformer の直感的な説明 / 真面目なプログラマのためのディープラーニング入門>https://euske.github.io/introdl/transformer/index.html]] 2023.2

-[[GPT-3の論文を読んでいます！ - CCCMKホールディングス TECH Labの Tech Blog>https://techblog.cccmk.co.jp/entry/2022/12/28/094423]] 2022.12
--"GPT-3"は"Transformer"をベースにしたモデルで、その特徴はその中に含まれる巨大なパラメータ数にあります。そのパラメータ数は175Billion, つまり1,750億になるそうです。"GPT"が117Million(1億1,700万)、"GPT-2"が1,542Million(15億4,200万)のパラメータで構成されている
-[[【図解】誰でもわかるTransformer入門！凄さ・仕組みをわかりやすく解説 - すえつぐのNLP&G>https://nlpillustration.tech/?p=2171]] 2023.2

-[[OpenAI開発のテキスト生成AI「GPT-3」がどんな処理を行っているのかを専門家が解説 - GIGAZINE>https://gigazine.net/news/20221212-gpt-3-architecture/]] 2022.12
-[[ネットワーク分析から直感的に理解するTransformerの仕組みと処理の流れ - あつまれ統計の森>https://www.hello-statisticians.com/ml/deeplearning/transformer1.html]] 2023.2

-[[【無料】GPT-3レベルのGoogle製Flan-T5を利用する方法 | ジコログ>https://self-development.info/%e3%80%90%e7%84%a1%e6%96%99%e3%80%91gpt-3%e3%83%ac%e3%83%99%e3%83%ab%e3%81%aegoogle%e8%a3%bdflan-t5%e3%82%92%e5%88%a9%e7%94%a8%e3%81%99%e3%82%8b%e6%96%b9%e6%b3%95/]] 2022.11
-[[30分で完全理解するTransformerの世界>https://zenn.dev/zenkigen/articles/2023-01-shimizu]] 2023.2
--※一見入門ぽいタイトルだが本格的な説明であり入門解説ではない。ある程度分かっている人の復習用

-[[ABEJAで作った大規模GPTモデルとその道のり - ABEJA Tech Blog>https://tech-blog.abeja.asia/entry/abeja-gpt-project-202207]] 2022.7
-[[「Transformer」の仕組み──AIによる画像・動画生成や自然言語処理で話題の深層学習モデルを理解する (1/3)|CodeZine（コードジン）>https://codezine.jp/article/detail/16860]] 2022.12
--&ref(Transformerよくある図.png);

-[[13億パラメータの日本語特化GPT言語モデルを使ってSlackAIチャットボットを作ってみた1～文章生成機能編～ - Qiita>https://qiita.com/milky04/items/24d7d2abf90e90417d93]] 2022.7
-[[Transformerの最前線 &#12316; 畳込みニューラルネットワークの先へ &#12316; - Speaker Deck>https://speakerdeck.com/yushiku/20220608_ssii_transformer]] 2022.7

-[[【備忘録】Pythonで自然言語処理の学習を始めるにあたって参考にしたサイト - Qiita>https://qiita.com/ama_aki/items/59aa012db7b5ce81f6e5]] 2022.7
--GPT2, GPT3
-[[GPT-2を使ってポケモン図鑑の説明文生成器を作ってみた - Qiita>https://qiita.com/Napier1550/items/0edf1613ef4f213dc875]] 2022.5
-[[[2207.09238] Formal Algorithms for Transformers>https://arxiv.org/abs/2207.09238]] 2022.7

-[[最近のDeep Learning (NLP) 界隈におけるAttention事情>https://www.slideshare.net/yutakikuchi927/deep-learning-nlp-attention]] 2022.3

* Transformer一般 [#e422cd4b]
-[[画像や文章の生成などを行う「ジェネレーティブAI」はなぜ急に発展したのか？ - GIGAZINE>https://gigazine.net/news/20230202-generative-ai-revolution/]] 2023.2
--プログラミング言語としてのトレーニングから、自然言語処理(NLP)を用いた「コードではなく言語を理解」する学習法に推移していく段階でRNNやLSTMが用いられていましたが、近年まで「言語の処理では単語の順序が重要な違いを生む」点や、「適切なトレーニングデータを取得するのが難しい」という点で、長い文章の処理を行えなかった
--そこで突破口となったのがGoogleの「Transformer」で、RNNよりも言語理解タスクに秀でたニューラルネットワークアーキテクチャとして質の高い翻訳に成功しました。翻訳には言語ごとの語順が重要で、それがTransformerには当然に組み込まれていたため、Transformerが用いた「位置エンコーディング」「マルチヘッドアテンション」という処理法が言語処理のブレイクスルーとして機能した
--言語モデルにおける大きな転換点は、翻訳のために作られた驚くべきモデルを利用する事で、言語処理タスクが抱えていた問題を翻訳の問題に変換する方法を見つけ出したこと
--Transformerはある言語から別の言語に変換する翻訳モデルとして発明されましたが、画像など他のパラメータを言語と同様の方法で表現する方法を理解できれば、そこにあるルールを見つけ出して別の言語にマッピングするTransformerの能力を訓練して、翻訳を行うことができます。こうして「画像から特徴を抽出し、潜在表現と呼ばれる低次元表現に圧縮し、細かいポイントを軸として座標に表す」といったアプローチが可能になりました。
-[[自然言語処理の必須知識 Transformer を徹底解説！ | DeepSquare>https://deepsquare.jp/2020/07/transformer/]] 2022.3


-時系列処理が必要なRNNは並列化と相性が悪いのでAttentionに全振りしたのがTransformer
-自己注意機能により系列データを一括同時処理可能になった。RNNでは逐次計算が必要、また離れた単語の関係づけできず長文理解が難しかった。
--GPUフレンドリで容易に並列化可能→学習の高速化、劇的な学習時間短縮を実現
--入力シーケンス全体を考慮可能
--CV(Computer Vision)タスクへの応用もあり→画像認識／検出／トラッキング

-[[「Transformer」の仕組み──AIによる画像・動画生成や自然言語処理で話題の深層学習モデルを理解する (1/3)|CodeZine（コードジン）>https://codezine.jp/article/detail/16860]] 2022.12
--&ref(Transformerよくある図.png);

-[[Vision Transformer入門をもっと楽しむために - Speaker Deck>https://speakerdeck.com/sei88888/vision-transformerru-men-womotutole-simutameni]] 2022.12

-[[Transformerのモデル、"T5"について調べてみました！ - CCCMKホールディングス TECH Labの Tech Blog>https://techblog.cccmk.co.jp/entry/2022/12/13/125045]] 2022.12

-[[Hugging Face Courseで学ぶ自然言語処理とTransformer 【part1】>https://zenn.dev/ttya16/articles/ce89dcab833d32cadb39]] 2021.6
--[[Hugging Face Courseで学ぶ自然言語処理とTransformer 【part2】>https://zenn.dev/ttya16/articles/329ec9e7c79634893271]] 2021.6
--[[Hugging Face Courseで学ぶ自然言語処理とTransformer 【part3】>https://zenn.dev/ttya16/articles/8b9d19d87065c579bccb]] 2021.7
--[[Hugging Face Courseで学ぶ自然言語処理とTransformer 【part4】>https://zenn.dev/ttya16/articles/3c51001f9e6d4b0ecc0b]] 2021.7
--[[Hugging Face Courseで学ぶ自然言語処理とTransformer 【part5】>https://zenn.dev/ttya16/articles/0e3e1bff645f161fb4d7]] 2021.7


-[[図で理解するTransformer - Qiita>https://qiita.com/birdwatcher/items/b3e4428f63f708db37b7]] 2021.5

-[[[2207.09238] Formal Algorithms for Transformers>https://arxiv.org/abs/2207.09238]] 2022.7

-[[CS25 I Stanford Seminar - Transformers United: DL Models that have revolutionized NLP, CV, RL - YouTube>https://www.youtube.com/watch?v=P127jhj-8-Y&list=PLoROMvodv4rNiJRchCzutFw5ItR_Z27CM]] 2022.7

-[[Transformerの最前線 &#12316; 畳込みニューラルネットワークの先へ &#12316; - Speaker Deck>https://speakerdeck.com/yushiku/20220608_ssii_transformer]] 2022.7

-[[自然言語処理の必須知識 Transformer を徹底解説！ | DeepSquare>https://deepsquare.jp/2020/07/transformer/]] 2022.3

-[[深層学習界の大前提Transformerの論文解説！ - Qiita>https://qiita.com/omiita/items/07e69aef6c156d23c538]] 2019
--アーキテクチャのポイントは以下の3つだよ。
--Transformerは基本的な大枠はエンコーダ-デコーダモデルでself-attention層とPosition-wise全結合層を使用していることが特徴。
--つまり、以下の3つ(+2つ)のことが分かればモデル構造が理解できる
---エンコーダー-デコーダモデル
---Attention
---全結合層
---Position-wise全結合層
---文字の埋め込みとソフトマックス
---位置エンコーディング
--NLPの最近のSoTAたち(BERT,XLNet,GPT-2など)のベースとなるモデル だから理解必須

**Attention [#i003e997]
-[[作って理解する Transformer / Attention - Qiita>https://qiita.com/halhorn/items/c91497522be27bde17ce]] 2018

-[[The Illustrated Transformer>http://jalammar.github.io/illustrated-transformer/]] 2018

-[[【論文】"Attention is all you need"の解説>https://www.acceluniverse.com/blog/developers/2019/08/attention.html]] 2019

-[[論文解説 Attention Is All You Need (Transformer) - ディープラーニングブログ>https://deeplearning.hatenablog.com/entry/transformer]] 2017
--[[[1706.03762] Attention Is All You Need>https://arxiv.org/abs/1706.03762]] 2017


**Attention [#mdbef216]
-[[注目の可視化、変幻自在の心臓｜第6章 ディープ・ラーニング - YouTube>https://www.youtube.com/watch?v=eMlx5fFNoYc]] 2024.4

-[[[上級編]LLMへ至る道~画期的な機構！Attentionさん~[16日目] | DevelopersIO>https://dev.classmethod.jp/articles/road-to-llm-advent-calendar-2023-16/]] 2023.12

-[[ChatGPTなどの対話型AIの基礎となっている「Attention」を可視化した「Attention Viz」 - GIGAZINE>https://gigazine.net/news/20230520-attention-viz/]] 2023.5
--http://attentionviz.com/

-[[ChatGPT先生に教わりながら「Transformerの肝」である「注意機構（Attention機構）」を可視化する | 豆蔵デベロッパーサイト>https://developer.mamezou-tech.com/blogs/2023/03/26/using-transformer-03/]] 2023.3

-[[ざっくり理解する分散表現, Attention, Self Attention, Transformer - Qiita>https://qiita.com/norihitoishida/items/2fead107792b504eaccf]] 2020

-[[【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning - YouTube>https://www.youtube.com/watch?v=50XvMaWhiTY]] 2023.3

-[[【深層学習】Attention - 全領域に応用され最高精度を叩き出す注意機構の仕組み【ディープラーニングの世界 vol. 24】#095 #VRアカデミア #DeepLearning - YouTube>https://www.youtube.com/watch?v=bPdyuIebXWM]] 2021

-[[Pay Attention To 生成モデル - Qiita>https://qiita.com/maechanneler/items/7fa7255e73c02bff490e]] 2022.9

-[[最近のDeep Learning (NLP) 界隈におけるAttention事情>https://www.slideshare.net/yutakikuchi927/deep-learning-nlp-attention]] 2022.3
-[[Deep Learning入門：Attention（注意） - YouTube>https://www.youtube.com/watch?v=g5DSLeJozdw]] 2020

-[[作って理解する Transformer / Attention - Qiita>https://qiita.com/halhorn/items/c91497522be27bde17ce]] 2018

-[[[1706.03762] Attention Is All You Need>https://arxiv.org/abs/1706.03762]] 2017

* BERT (Bidirectional Encoder Representations from Transformers) [#x3a29000]
-[[[上級編]LLMへ至る道~BERTはよく聞くけど実は~[19日目] | DevelopersIO>https://dev.classmethod.jp/articles/road-to-llm-advent-calendar-2023-19/]] 2023.12

**PaLM [#eff95934]
-超大規模Transformerモデル、コーディングタスクや多言語タスクでも高い性能
-[[高性能・高速・軽量な日本語言語モデル LINE DistilBERTを公開しました>https://engineering.linecorp.com/ja/blog/line-distilbert-high-performance-fast-lightweight-japanese-language-model]] 2023.3

-[[Googleは世界最大規模のAI言語モデル「PaLM」を開発、言葉を理解する機能が格段に向上、人間のように論理的に考えジョークのオチを説明する | Emerging Technology Review>https://etechnologyreview.com/2022/04/29/google%E3%81%AF%E4%B8%96%E7%95%8C%E6%9C%80%E5%A4%A7%E8%A6%8F%E6%A8%A1%E3%81%AEai%E8%A8%80%E8%AA%9E%E3%83%A2%E3%83%87%E3%83%AB%E3%80%8Cpalm%E3%80%8D%E3%82%92%E9%96%8B%E7%99%BA%E3%80%81%E8%A8%80/#:~:text=Google%E3%81%AF%E4%B8%96%E7%95%8C%E5%A4%A7%E8%A6%8F%E6%A8%A1,%E3%83%96%E3%83%AC%E3%83%BC%E3%82%AF%E3%82%B9%E3%83%AB%E3%83%BC%E3%82%92%E9%81%94%E6%88%90%E3%81%97%E3%81%9F%E3%80%82]] 2022.7
-[[BERTのFine-Tuningの方法を安定させる方法を試してみました！ - CCCMKホールディングス TECH Labの Tech Blog>https://techblog.cccmk.co.jp/entry/2023/03/07/104156]] 2023.3

-[[BERTで自殺ツイートを検出する試み　～?EDAとルールベースでの検出～ - Qiita>https://qiita.com/harunan0913/items/b8d6a7414898e691da40]] 2023.2

* BERT [#c4fb7787]
-Transformerから発展。大量の汎用テキストデータで事前学習→タスクに合わせて追加学習
-文章のマスクと復元という自己教師学習によりラベルなし文章を学習に適用可能
-双方向モデル、単語の前後から文脈を把握

-[[自然言語処理モデル(BERT)で文の意味上の類似度を計算 | GMOアドパートナーズ TECH BLOG byGMO>https://techblog.gmo-ap.jp/2022/12/21/bert_calc_sentence_similarity/]] 2022.12

-[[BERT 自然言語解析手法の変遷について - MONEX ENGINEER BLOG │マネックス エンジニアブログ>https://blog.tech-monex.com/entry/2022/08/19/183846]] 2022.8

-[[【やってみた】BERTにブログの特徴を教えてもらってみた - 神戸のデータ活用塾！KDL Data Blog>https://kdl-di.hatenablog.com/entry/2022/08/08/090000]] 2022.8

-[[文章からLGTM数を予測して「バズる記事」を判別してみた - Qiita>https://qiita.com/pyopp8128/items/2cb0edabaf94e9385871]] 2022.6
--BERTのファインチューニングにより、Qiita中の記事がLGTM>100かどうか判別する2クラス分類深層学習モデルを作成したよ

-[[BERT入門>https://www.slideshare.net/matsukenbook/bert-217710964]] 2022.6

-[[BERT Research - Ep. 1 - Key Concepts & Sources - YouTube>https://www.youtube.com/watch?v=FKlPCK1uFrc]] 2019
-[[自然言語処理モデル「BERT」の日本語版事前学習モデルが無償公開 商用利用も可>https://ledge.ai/bert-free-learning-model-in-japanese/]] 2022.4
--[[インフォマティクス、BERT日本語版事前学習モデルを公開｜株式会社インフォマティクスのプレスリリース>https://prtimes.jp/main/html/rd/p/000000068.000034332.html]] 2022.4
--[[GitHub - informatix-inc/bert>https://github.com/informatix-inc/bert]]

-[[BERTとベクトル検索を用いたYahoo!ショッピングの製品名寄せ作業の効率化検証 - Yahoo! JAPAN Tech Blog>https://techblog.yahoo.co.jp/entry/2022040630294096/]] 2022.4
-[[BERTを用いて文章の穴埋め問題を解く - Qiita>https://qiita.com/kai_notebook/items/58048b027ae48cb700cb]] 2022.3

-[[プロ棋士の谷合廣紀四段がBERTを使った将棋ソフトを作られました>http://yaneuraou.yaneu.com/2021/05/15/bert-mcts/]] 2021
--[[GitHub - nyoki-mtl/bert-mcts-youtube>https://github.com/nyoki-mtl/bert-mcts-youtube]]


**BERTの理論的な話 [#dce24e5a]
-[[【深層学習】BERT - 実務家必修。実務で超応用されまくっている自然言語処理モデル【ディープラーニングの世界vol.32】#110 #VRアカデミア #DeepLearning - YouTube>https://www.youtube.com/watch?v=IaTCGRL41_k]] 2021

-通常のDLでは一気に高精度モデルを作る。そのために大量の教師付きデータが必要。大量の計算資源も必要
--大量の汎用テキストデータで言語ベースを事前学習(Pre-Training)→タスクに合わせて追加学習(Fine-Tuning)
--Pre-Training済みのモデルを提供してもらえれば、追加学習は少ない計算資源で可能になった。
--文章のマスクと復元という自己教師学習によりラベルなし文章を学習に適用可能

-双方向モデル、単語の前後から文脈を把握
--問題文と選択肢、などのように文章を２つ入力する。
--Segment Vector EA or EBを入力ベクタへ足す

-Pre-Training
--1.Masked Language Model(Close Test)
---入力の15％をマスクし、単語穴埋め問題を解く
--2.Next Sentence Prediction
---2文のつながりを予測させる→文脈の理解


*LLaMA [#e84ef279]
-[[GPT-3に匹敵するチャットAIモデル「LLaMA」をiPhoneやPixelなどのスマホで動かすことに成功 - GIGAZINE>https://gigazine.net/news/20230314-llama-iphone-pixel/]] 2023.3

-[[チャットAI「LLaMA」を一発でローカルにインストールして「文章の続きを書く機能」を試せる「Dalai」使い方まとめ - GIGAZINE>https://gigazine.net/news/20230314-dalai-llama/]] 2023.3

-[[Metaが大規模言語モデル「LLaMA」を発表、GPT-3に匹敵する性能ながら単体のGPUでも動作可能 - GIGAZINE>https://gigazine.net/news/20230227-llama-large-language-model-meta-ai/]] 2023.3

-[[「たった2行のコードで、自分のコンピューターでGPT-3、Chinchilla、PaLM級のモデル「LLaMa」を実行する方法が公開 / Twitter>https://twitter.com/Yamkaz/status/1635101889766494210]] 2023.3