#author("2023-09-05T15:48:10+09:00","default:irrp","irrp") →大規模言語モデル →GPT関連 #contents *一般 [#o94c914a] -[[LLMsのチューニング手法"Prompt Tuning"について論文を読んで調べてみました! - CCCMKホールディングス TECH Labの Tech Blog>https://techblog.cccmk.co.jp/entry/2023/09/05/144119]] 2023.9 -[[大規模言語モデル入門 / LLM introduction (SES2023) - Speaker Deck>https://speakerdeck.com/kyoun/llm-introduction-ses2023]] 2023.9 -[[LLM登場までの深層学習の歴史を振り返ってみた[前編]|ONE CAREER Tech Blog>https://note.com/dev_onecareer/n/n041ccc285706]] 2023.8 -[[「わたしの話」を体系的に覚えてもらいながらLLMと会話する技術MemoChat登場 | AIDB>https://aiboom.net/archives/54560]] 2023.8 -[[100億パラメータサイズ・日英2ヶ国語対応の大規模言語モデル“Weblab-10B”をオープンソースで公開しました。 – 東京大学松尾研究室 – Matsuo Lab>https://weblab.t.u-tokyo.ac.jp/100%E5%84%84%E3%83%91%E3%83%A9%E3%83%A1%E3%83%BC%E3%82%BF%E3%82%B5%E3%82%A4%E3%82%BA%E3%83%BB%E6%97%A5%E8%8B%B12%E3%83%B6%E5%9B%BD%E8%AA%9E%E5%AF%BE%E5%BF%9C%E3%81%AE%E5%A4%A7%E8%A6%8F%E6%A8%A1/]] 2023.8 -[[エンジニアはLLMとどう付き合うか / How engineer get along with LLM - Speaker Deck>https://speakerdeck.com/kishida/how-engineer-get-along-with-llm]] 2023.7 -[[PythonでChatGPTとBardを対話させてみた…ChatGptさんGoogle AIと会話していることを認識してしまう - Qiita>https://qiita.com/foo4/items/f5e05f7601383d988459]] 2023.7 -[[数値で整理する大規模言語モデル(LLM) のメモ | ドクセル>https://www.docswell.com/s/KanHatakeyama/ZEN8V6-2023-07-06-110038#p1]] 2023.7 -[[“PCで自宅ChatGPT”がかなり手軽に! GUIで簡単導入でき日本語もOKの「Text generation web UI」【イニシャルB】 - INTERNET Watch>https://internet.watch.impress.co.jp/docs/column/shimizu/1510290.html]] 2023.7 -[[最近公開された日本語LLMを要約生成タスクで検証してみる|朝日新聞社 メディア研究開発センター>https://note.com/asahi_ictrad/n/n4acbc964504f]] 2023.6 -[[Azure OpenAIをもちいたLLMアプリの企画から本番構築までの道のり/Microsoft Build Japan - Speaker Deck>https://speakerdeck.com/yoshidashingo/microsoft-build-japan]] 2023.6 -[[大規模言語モデルの中身を覗いてみよう / look inside Large Language Models - Speaker Deck>https://speakerdeck.com/ae14watanabe/look-inside-large-language-models]] 2023.6 -[[大規模言語モデル (LLM) の進化: GPT 以降の最新動向 / AWS Dev Day 2023 - Evolution of LLM since GPT - Speaker Deck>https://speakerdeck.com/hariby/aws-dev-day-2023-evolution-of-llm-since-gpt]] 2023.6 -[[大規模自然言語モデル(LLM)をお試し利用できるツールを作ってみた - Platinum Data Blog by BrainPad>https://blog.brainpad.co.jp/entry/2023/06/21/153039]] 2023.6 -[[大規模AIモデルの時代は終わった | AI専門ニュースメディア AINOW>https://ainow.ai/2023/06/14/273829/]] 2023.6 -[[ローカルLLMの情報まとめ|npaka>https://note.com/npaka/n/nd95fba328b65]] 2023.6 -[[GPU不要・メモリ16GBの本当の一般家庭PCでチャットAIを動作させるライブラリ「GGML」が鋭意開発中、すでにRaspberry Piで音声認識AIを動作させるデモも登場済み - GIGAZINE>https://gigazine.net/news/20230607-ggml/]] 2023.6 -[[GPT-4登場以降に出てきたChatGPT/LLMに関する論文や技術の振り返り - Platinum Data Blog by BrainPad>https://blog.brainpad.co.jp/entry/2023/06/05/153034]] 2023.6 -[[ChatGPTなどの大規模言語モデルはどんな理論で成立したのか?重要論文24個まとめ - GIGAZINE>https://gigazine.net/news/20230604-large-language-model-paper/]] 2023.6 -[[GPUメモリが小さくてもパラメーター数が大きい言語モデルをトレーニング可能になる手法「QLoRA」が登場、一体どんな手法なのか? - GIGAZINE>https://gigazine.net/news/20230603-qlora-finetuning-llm/]] 2023.6 -[[【一撃でわかる】大規模言語モデル(LLM)とは。自然言語処理の基礎からわかりやすく徹底解説。 - すえつぐのNLP&G>https://nlpillustration.tech/?p=5201]] 2023.5 -[[独自のデータセットでGPTのような大規模言語モデルを簡単にファインチューニングできるライブラリ「Lit-Parrot」をGoogle Cloud Platformで使ってみた - GIGAZINE>https://gigazine.net/news/20230531-lit-parrot/]] 2023.5 -[[【書籍】大規模言語モデルは新たな知能か――ChatGPTが変えた世界 (岩波科学ライブラリー) >https://amzn.to/3qgCViz]] 2023.5 -[[東北大学NLPグループの言語モデルをとりあえず動かす - きしだのHatena>https://nowokay.hatenablog.com/entry/2023/05/19/153556]] 2023.5 -[[オープンなLLMをDockerで動かす>https://zenn.dev/karaage0703/articles/2b753b4dc26471]] 2023.5 -[[LLMとプログラミングを調和させるライブラリ、Marvinを体験してみました。|はまち>https://note.com/hamachi_jp/n/na1960fc9d6d3]] 2023.5 -[[文系非エンジニアがChatGPT / LLMを数式なしで解説してみる|Yuichiro.ito@Finatext(フィナテキスト)>https://note.com/110_110_110/n/n22d8c338163b]] 2023.5 -[[Google Japan Blog: Bard が日本語に対応>https://japan.googleblog.com/2023/05/bard.html]] 2023.5 -[[今日の論文2023/04/29,30:The Geometry of Multilingual Language Model Representations - izmyonの日記>https://izmyon.hatenablog.com/entry/2023/04/30/230245]] 2023.4 -[[大規模言語モデル間の性能比較まとめ|mah_lab / 西見 公宏|note>https://note.com/mahlab/n/na71a267a16dc]] 2023.4 -[[大規模言語モデルを自社でトレーニング&活用する方法|mah_lab / 西見 公宏|note>https://note.com/mahlab/n/n15969add8558]] 2023.4 -[[大規模言語モデルのための強化学習|npaka|note>https://note.com/npaka/n/ne6d2e7e076ea]] 2023.4 -[[How Do We Fix and Update Large Language Models?>https://hai.stanford.edu/news/how-do-we-fix-and-update-large-language-models]] 2023.4 -[[大規模言語モデルをだます Hindsight Neglect タスクとは | 楽しみながら理解するAI・機械学習入門>https://data-analytics.fun/2023/04/23/understanding-hindsight-neglect/]] 2023.4 -[[ChatGPTとBardの対決を超える“事件”。無料の「StableLM」登場で「AIの超民主化」争いが始まった | Business Insider Japan>https://www.businessinsider.jp/post-269014]] 2023.4 -[[Stable Diffusion開発元、独自の大規模言語モデル「StableLM」をGitHubで公開し、商用利用も可能。チャットAI「StableChat」は数カ月後 | テクノエッジ TechnoEdge>https://www.techno-edge.net/article/2023/04/20/1189.html]] 2023.4 -[[Building LLM applications for production>https://huyenchip.com/2023/04/11/llm-engineering.html]] 2023.4 -[[ChatGPTなどに使われる大規模言語モデルを従来のシステムよりも15倍高速・低コストで学習できる「DeepSpeed-Chat」をMicrosoftが公開 - GIGAZINE>https://gigazine.net/news/20230413-deepspeed-chat-chatgpt/]] 2023.4 --[[DeepSpeed/blogs/deepspeed-chat/japanese at master · microsoft/DeepSpeed · GitHub>https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-chat/japanese]] 2023.4 -[[メモリを追加して64GBになったので動かせなかった言語モデルを試した - きしだのHatena>https://nowokay.hatenablog.com/entry/2023/04/05/213842]] 2023.4 -[[LLMがなぜ大事なのか?経営者の視点で考える波の待ち受け方|福島良典 | LayerX>https://comemo.nikkei.com/n/nf3132b57539c]] 2023.3 --[[LayerX LLM Labsチームを立ち上げます - LayerX エンジニアブログ>https://tech.layerx.co.jp/entry/2023/04/04/110000]] 2023.4 -[[マルチレイヤーLLMでAIアシスタントの未来を切り拓く - Qiita>https://qiita.com/yakigac/items/1a4e3983031f385719e4]] 2023.4 -[[LLMが変える、ユーザインターフェースの未来|Dory|note>https://note.com/dory111111/n/nf3c707c0bb5b]] 2023.4 -[[大規模言語モデルの知識を補完するための Retriever の紹介 - ACES エンジニアブログ>https://tech.acesinc.co.jp/entry/2023/03/31/121001]] 2023.3 -[[現状のLLMの流れ / Twitter>https://twitter.com/umiyuki_ai/status/1641083326940475393]] 2023.3 --1.マイクロソフトのBing VS GoogleのBard→検索エンジンの戦い --2.オープン(メタのLLaMAとかGPT-J、GPT-NEOX、Cerebras-GPT) VS クローズ(ChatGPT, GPT-4, LaMDA, PaLM) ---→クローズ勢はオープン勢の研究成果を一方的に利用できる。逆にオープン勢はクローズモデルの入出力で蒸留できる。(規約的に微妙) --3.ChatGPT VS AIスタートアップ→ChatGPTプラグインが登場して万能AIプラットフォーム化した事でAIスタートアップは壊滅か。これからは単なるプラグインの一つに収まる運命かも --4.既存ツール VS ネイティブAIツール→あらゆるツールにLLMが搭載されだした。フォトショ、Blender、UE、Unity、Office、Note、Notion… ---これまた既存ツールにAI乗せただけみたいなAIスタートアップはバチボコ(たとえばTome)でも、AIネイティブなツールは?例えばRunway --5.LLaMAの隆盛。リークされた途端にStable Diffusionの時みたいな盛り上がりを見せる。LLaMA. cpp(CPUで動く)、Alpaca、Alpaca_Lora、Alpacoom、日本語Alpaca、lit_LLaMA、OpenFlamingo、GPT4All --6.マルチモーダル化の流れ。GPT-4やOpenFlamingo。テキスト学習データは枯渇しているからマルチモーダルにするしかない。マルチモーダルなら小パラメータでも高性能説? --7.ロボットの頭脳にLLMを使う流れ。Googleが色々やってる。RT-1、PaLM-E --8.H3やHyenaとかの最新アーキテクチャを使ったクソデカコンテキスト枠のモデルはどこが作るのか? --9.RWKVのような思わぬダークホースのオープンソースモデルもやって来る。高速、省メモリ、長コンテキスト。Alpaca食わせてRavenに --10.LLMの開発規制!?イーロン達がOpenAIにズルいとか言い出す。ゆくゆくはLLMの研究禁止などの規制に繋がるのか? --11.周辺ライブラリ。LangChain、Llama Index、Guardrails --12.GPT-4登場の衝撃。自称汎用テクノロジー、自称汎用知能。人間の仕事を相当置き換えられるポテンシャルという論文もある。 ---心の理論タスクほぼ全クリ。9割の人間を上回る創造性。ワールドモデルを持っている?マンガも読める。最大コンテキスト長32k。未知の創発能力の可能性 -[[大規模言語モデルの驚異と脅威 - Speaker Deck>https://speakerdeck.com/chokkan/20230327_riken_llm]] 2023.3 -[[AIによる「大規模言語モデル」の最新潮流、日本が世界No.1になるための勝ち筋とは〜Shane Gu×スプツニ子!×松尾豊×山田敦×上野山勝也 - YouTube>https://www.youtube.com/watch?v=C-HqDod73xE]] 2023.3 -[[ChatGPTや大規模言語モデルによる変化とソフトウェア開発の雑感|Matsumoto Yuki|note>https://note.com/y_matsuwitter/n/nb9a49086147a]] 2023.3 -[[Large Language Models and Where to Use Them: Part 1>https://txt.cohere.ai/llm-use-cases/]] 2022.9 -[[Are Large Language Models Sentient? | by Naim Kabir | Jun, 2022 | Level Up Coding>https://levelup.gitconnected.com/are-large-language-models-sentient-d11b18ef0a0a]] 2022.6 -[[【日本語モデル付き】2021年に自然言語処理をする人にお勧めしたい事前学習済みモデル - Qiita>https://qiita.com/sonoisa/items/a9af64ff641f0bbfed44#2-%E3%83%8B%E3%83%A5%E3%83%BC%E3%82%B9%E8%A8%98%E4%BA%8B%E3%81%AE%E3%82%BF%E3%82%A4%E3%83%88%E3%83%AB%E7%94%9F%E6%88%90%E4%B8%80%E7%A8%AE%E3%81%AE%E6%96%87%E7%AB%A0%E8%A6%81%E7%B4%84]] 2021 -[[フリーで使える日本語の主な大規模言語モデルまとめ>https://zenn.dev/hellorusk/articles/ddee520a5e4318]] 2022.4