大規模言語モデルの履歴ソース(No.22)

#author("2023-05-29T16:40:17+09:00","default:irrp","irrp")
→自然言語処理

→OpenAIのAPI

#contents


*サブトピック [#t3278c3a]
-GPT関連
-Transformer




*LLM一般 [#o94c914a]
-[[東北大学NLPグループの言語モデルをとりあえず動かす - きしだのHatena>https://nowokay.hatenablog.com/entry/2023/05/19/153556]] 2023.5

-[[オープンなLLMをDockerで動かす>https://zenn.dev/karaage0703/articles/2b753b4dc26471]] 2023.5

-[[LLMとプログラミングを調和させるライブラリ、Marvinを体験してみました。｜はまち>https://note.com/hamachi_jp/n/na1960fc9d6d3]] 2023.5

-[[文系非エンジニアがChatGPT / LLMを数式なしで解説してみる｜Yuichiro.ito@Finatext(フィナテキスト)>https://note.com/110_110_110/n/n22d8c338163b]] 2023.5

-[[Google Japan Blog: Bard が日本語に対応>https://japan.googleblog.com/2023/05/bard.html]] 2023.5

-[[今日の論文2023/04/29,30：The Geometry of Multilingual Language Model Representations - izmyonの日記>https://izmyon.hatenablog.com/entry/2023/04/30/230245]] 2023.4

-[[大規模言語モデル間の性能比較まとめ｜mah_lab / 西見 公宏｜note>https://note.com/mahlab/n/na71a267a16dc]] 2023.4

-[[大規模言語モデルを自社でトレーニング＆活用する方法｜mah_lab / 西見 公宏｜note>https://note.com/mahlab/n/n15969add8558]] 2023.4

-[[大規模言語モデルのための強化学習｜npaka｜note>https://note.com/npaka/n/ne6d2e7e076ea]] 2023.4

-[[How Do We Fix and Update Large Language Models?>https://hai.stanford.edu/news/how-do-we-fix-and-update-large-language-models]] 2023.4

-[[大規模言語モデルをだます Hindsight Neglect タスクとは | 楽しみながら理解するAI・機械学習入門>https://data-analytics.fun/2023/04/23/understanding-hindsight-neglect/]] 2023.4

-[[ChatGPTとBardの対決を超える“事件”。無料の｢StableLM｣登場で｢AIの超民主化｣争いが始まった | Business Insider Japan>https://www.businessinsider.jp/post-269014]] 2023.4

-[[Stable Diffusion開発元、独自の大規模言語モデル「StableLM」をGitHubで公開し、商用利用も可能。チャットAI「StableChat」は数カ月後 | テクノエッジ TechnoEdge>https://www.techno-edge.net/article/2023/04/20/1189.html]] 2023.4

-[[Building LLM applications for production>https://huyenchip.com/2023/04/11/llm-engineering.html]] 2023.4

-[[ChatGPTなどに使われる大規模言語モデルを従来のシステムよりも15倍高速・低コストで学習できる「DeepSpeed-Chat」をMicrosoftが公開 - GIGAZINE>https://gigazine.net/news/20230413-deepspeed-chat-chatgpt/]] 2023.4
--[[DeepSpeed/blogs/deepspeed-chat/japanese at master &#183; microsoft/DeepSpeed &#183; GitHub>https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-chat/japanese]] 2023.4


-[[メモリを追加して64GBになったので動かせなかった言語モデルを試した - きしだのHatena>https://nowokay.hatenablog.com/entry/2023/04/05/213842]] 2023.4

-[[LLMがなぜ大事なのか?経営者の視点で考える波の待ち受け方｜福島良典 | LayerX>https://comemo.nikkei.com/n/nf3132b57539c]] 2023.3
--[[LayerX LLM Labsチームを立ち上げます - LayerX エンジニアブログ>https://tech.layerx.co.jp/entry/2023/04/04/110000]] 2023.4

-[[マルチレイヤーLLMでAIアシスタントの未来を切り拓く - Qiita>https://qiita.com/yakigac/items/1a4e3983031f385719e4]] 2023.4

-[[LLMが変える、ユーザインターフェースの未来｜Dory｜note>https://note.com/dory111111/n/nf3c707c0bb5b]] 2023.4

-[[大規模言語モデルの知識を補完するための Retriever の紹介 - ACES エンジニアブログ>https://tech.acesinc.co.jp/entry/2023/03/31/121001]] 2023.3

-[[現状のLLMの流れ / Twitter>https://twitter.com/umiyuki_ai/status/1641083326940475393]] 2023.3
--1.マイクロソフトのBing VS GoogleのBard→検索エンジンの戦い
--2.オープン（メタのLLaMAとかGPT-J、GPT-NEOX、Cerebras-GPT） VS クローズ（ChatGPT, GPT-4,  LaMDA, PaLM）
---→クローズ勢はオープン勢の研究成果を一方的に利用できる。逆にオープン勢はクローズモデルの入出力で蒸留できる。（規約的に微妙）
--3.ChatGPT VS AIスタートアップ→ChatGPTプラグインが登場して万能AIプラットフォーム化した事でAIスタートアップは壊滅か。これからは単なるプラグインの一つに収まる運命かも
--4.既存ツール VS ネイティブAIツール→あらゆるツールにLLMが搭載されだした。フォトショ、Blender、UE、Unity、Office、Note、Notion…
---これまた既存ツールにAI乗せただけみたいなAIスタートアップはバチボコ（たとえばTome）でも、AIネイティブなツールは？例えばRunway
--5.LLaMAの隆盛。リークされた途端にStable Diffusionの時みたいな盛り上がりを見せる。LLaMA. cpp（CPUで動く）、Alpaca、Alpaca_Lora、Alpacoom、日本語Alpaca、lit_LLaMA、OpenFlamingo、GPT4All
--6.マルチモーダル化の流れ。GPT-4やOpenFlamingo。テキスト学習データは枯渇しているからマルチモーダルにするしかない。マルチモーダルなら小パラメータでも高性能説？
--7.ロボットの頭脳にLLMを使う流れ。Googleが色々やってる。RT-1、PaLM-E
--8.H3やHyenaとかの最新アーキテクチャを使ったクソデカコンテキスト枠のモデルはどこが作るのか？
--9.RWKVのような思わぬダークホースのオープンソースモデルもやって来る。高速、省メモリ、長コンテキスト。Alpaca食わせてRavenに
--10.LLMの開発規制！？イーロン達がOpenAIにズルいとか言い出す。ゆくゆくはLLMの研究禁止などの規制に繋がるのか？
--11.周辺ライブラリ。LangChain、Llama Index、Guardrails
--12.GPT-4登場の衝撃。自称汎用テクノロジー、自称汎用知能。人間の仕事を相当置き換えられるポテンシャルという論文もある。
---心の理論タスクほぼ全クリ。9割の人間を上回る創造性。ワールドモデルを持っている？マンガも読める。最大コンテキスト長32k。未知の創発能力の可能性

-[[大規模言語モデルの驚異と脅威 - Speaker Deck>https://speakerdeck.com/chokkan/20230327_riken_llm]] 2023.3

-[[AIによる「大規模言語モデル」の最新潮流、日本が世界No.1になるための勝ち筋とは～Shane Gu×スプツニ子！×松尾豊×山田敦×上野山勝也 - YouTube>https://www.youtube.com/watch?v=C-HqDod73xE]] 2023.3

-[[ChatGPTや大規模言語モデルによる変化とソフトウェア開発の雑感｜Matsumoto Yuki｜note>https://note.com/y_matsuwitter/n/nb9a49086147a]] 2023.3

-[[Large Language Models and Where to Use Them: Part 1>https://txt.cohere.ai/llm-use-cases/]] 2022.9

-[[Are Large Language Models Sentient? | by Naim Kabir | Jun, 2022 | Level Up Coding>https://levelup.gitconnected.com/are-large-language-models-sentient-d11b18ef0a0a]] 2022.6


-[[【日本語モデル付き】2021年に自然言語処理をする人にお勧めしたい事前学習済みモデル - Qiita>https://qiita.com/sonoisa/items/a9af64ff641f0bbfed44#2-%E3%83%8B%E3%83%A5%E3%83%BC%E3%82%B9%E8%A8%98%E4%BA%8B%E3%81%AE%E3%82%BF%E3%82%A4%E3%83%88%E3%83%AB%E7%94%9F%E6%88%90%E4%B8%80%E7%A8%AE%E3%81%AE%E6%96%87%E7%AB%A0%E8%A6%81%E7%B4%84]] 2021
-[[フリーで使える日本語の主な大規模言語モデルまとめ>https://zenn.dev/hellorusk/articles/ddee520a5e4318]] 2022.4


*rinna [#vcc7fc94]
-[[話題のrinna-3.6bをColab無料枠で動かしたい！(Hugging Face load_in_8bitを使ったサンプルコード) - Qiita>https://qiita.com/kota-iw/items/b89a5eb4b7804c93c65d]] 2023.5
-[[【Python】手持ちのGPUがVRAM12Gだけど「Rinna-3.6B」とお話がしたい！！！ - Qiita>https://qiita.com/ys_dirard/items/e8904f8ded1d73532f8c]] 2023.5
-[[Google Colab で Rinna-3.6B を試す｜npaka>https://note.com/npaka/n/ne4a38239f420]] 2023.5



*OpenCALM [#g26d0ca4]
-[[CyberAgent社の日本語LLM OpenCALMの対話モデル用途のfinetune検証 - ACES エンジニアブログ>https://tech.acesinc.co.jp/entry/2023/05/19/181407]] 2023.5
-[[サイバーエージェントの日本語LLM OpenCALMをDatabricksで動かしてみる - Qiita>https://qiita.com/taka_yayoi/items/f28037d969b15c037c9e]] 2023.5
-[[CyberAgentの日本語言語モデルを試してみる - きしだのHatena>https://nowokay.hatenablog.com/entry/2023/05/17/144518]] 2023.5


*Semantic Kernel [#zd88ffec]
-[[Semantic Kernel で Open AI の Embeddings を使う (あいまい検索出来てすげーやつ)>https://zenn.dev/microsoft/articles/semantic-kernel-8]] 2023.5

-[[Semantic Kernelを使ってGPTと外部ツールを簡単に連携してみる - Taste of Tech Topics>https://acro-engineer.hatenablog.com/entry/2023/04/18/120000]] 2023.4

-[[MicrosoftがSemantic Kernelの扱いを容易にするVSCode拡張機能を公開、アプリに大規模言語モデルの機能を組み込みやすく|CodeZine（コードジン）>https://codezine.jp/article/detail/17681#:~:text=Semantic%20Kernel%E3%81%A8%E3%81%AF%E3%80%81Microsoft%E3%81%8C%E9%96%8B%E7%99%BA%E3%81%97%E3%81%A6%E3%81%84%E3%82%8B%E3%82%BD%E3%83%95%E3%83%88%E3%82%A6%E3%82%A7%E3%82%A2%E3%81%A7%E3%80%81%E4%B8%80%E8%88%AC%E7%9A%84%E3%81%AA%E3%83%97%E3%83%AD%E3%82%B0%E3%83%A9%E3%83%9F%E3%83%B3%E3%82%B0%E8%A8%80%E8%AA%9E%E3%81%8B%E3%82%89%E5%A4%A7%E8%A6%8F%E6%A8%A1%E8%A8%80%E8%AA%9E%E3%83%A2%E3%83%87%E3%83%AB%EF%BC%88Large%20Language,Models%EF%BC%89%E3%82%92%E6%89%B1%E3%81%88%E3%82%8B%E3%82%88%E3%81%86%E3%81%AB%E3%81%99%E3%82%8B%E8%BB%BD%E9%87%8F%E3%81%AESDK%EF%BC%88Software%20Development%20Kit%EF%BC%89%E3%81%A0%E3%80%82]] 2023.5

-[[Microsoft が LLM をアプリ開発に統合するための OSS「Semantic Kernel」を発表 - Qiita>https://qiita.com/nohanaga/items/430b59209b02c298ef2a]] 2023.4



*Dolly [#p6852928]
-[[大規模言語モデル(LLM)Dollyをパラメーター数を変えて動かしてみた - APC 技術ブログ>https://techblog.ap-com.co.jp/entry/2023/05/09/092127]] 2023.5
-[[LLMのオープンソース化とDatabricks - Speaker Deck>https://speakerdeck.com/naoyaabedb/llmnoopunsosuhua-todatabricks]] 2023.4
-[[無料・商用利用可なオープンソースの大規模言語モデル Dolly 2.0(dolly-v2-12b) を試してみた - Qiita>https://qiita.com/riversun/items/7c45580f1a098b041528]] 2023.4
-[[Hello Dolly: オープンなモデルでChatGPTの魔法を民主化する - Qiita>https://qiita.com/taka_yayoi/items/e9c895c169da652c6efb]] 2023.3



*RWKV [#efdcce35]
-[[RNNでTransformer並みの性能を実現するRWKVがやばい>https://zenn.dev/hikettei/articles/5d6c1318998411]] 2023.4

-[[RWKVをローカルPCで動かす（pyenv/Docker）>https://zenn.dev/karaage0703/articles/d58d79d8e77ab8]] 2023.3

-[[おうちの8GB VRAM GPUでChatRWKVと会話する - きしだのHatena>https://nowokay.hatenablog.com/entry/2023/03/28/192028]] 2023.3

-[[Google Colab で RWKV を試す｜npaka｜note>https://note.com/npaka/n/nc0592a884903]] 2023.3

-[[ChatGPT終了のお知らせ!?完全無料&オープン爆速大規模自然言語モデルRWKVが爆誕 - YouTube>https://www.youtube.com/watch?v=hnkiLlTiG6Y]] 2023.3



*Alpaca [#v7a594c5]
-[[日本語Alpacaデータを用いてJapanese-Alapaca-LoRAを作ったので公開します【デモページあり】｜kun1emon｜note>https://note.com/kun1emon/n/n1533345d5d26]] 2023.3

-[[BloomをLoRaを使い日本語alpaca datasetでfine tuneを動かす - Qiita>https://qiita.com/iss-f/items/9ab11ed38dde2fc1f43b]] 2023.3

-[[チャットAI「Alpaca」をローカルにインストールしてオフラインでAIと会話できる「Alpaca.cpp」インストール手順まとめ - GIGAZINE>https://gigazine.net/news/20230320-chat-ai-alpaca-cpp/]] 2023.3
-[[Alpaca-loraを日本語タスクでファインチューニングする - Qiita>https://qiita.com/toshi_456/items/280efc31950ddb083286]] 2023.3
-[[GitHub - antimatter15/alpaca-lora: Code for reproducing the Stanford Alpaca InstructLLaMA result on consumer hardware>https://github.com/antimatter15/alpaca-lora]] 2023.3



*FlexGen [#d50e3855]
-[[LLM推論にGPUは1つでいい？FlexGenについてまとめてみた - Platinum Data Blog by BrainPad>https://blog.brainpad.co.jp/entry/2023/05/29/153000]] 2023.5

-[[FlexGenでおうちのパソコンとお話する - きしだのHatena>https://nowokay.hatenablog.com/entry/2023/03/29/140719]] 2023.3
-[[ChatGPTで騒いでる場合じゃない。 AI研究者が｢FlexGen｣をゲームチェンジャーと呼ぶ理由 | Business Insider Japan>https://www.businessinsider.jp/post-265982]] 2023.2

-[[自宅で動くChatGPTと噂のFlexGenをDockerで手軽に動かす>https://zenn.dev/karaage0703/articles/de7045e9792623]] 2023.2
-[[大規模言語モデルをシングルGPUで動かせる!? FlexGenを触ってみた | DevelopersIO>https://dev.classmethod.jp/articles/flexgen-in-colaboratory/]] 2023.2
-[[ChatGPT級のAIチャットボットがすぐに使えるFlexGen（あなたもColabでできる） - Qiita>https://qiita.com/john-rocky/items/28f17229b524c45d2204]] 2023.2


*LLM系統樹 [#zf238204]
-[[[2304.13712] Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond>https://arxiv.org/abs/2304.13712]]
--&ref(LLM系統.jpg);


*大規模言語モデルと法律 [#i0742ac2]
-[[【連載1】大規模言語モデル（LLM）のビジネス利用に関して注意すべき点-LLMの使用許諾条件- - Platinum Data Blog by BrainPad>https://blog.brainpad.co.jp/entry/2023/05/16/153000]] 2023.5
--[[【連載2】大規模言語モデル（LLM）のビジネス利用に関して注意すべき点-個人情報や営業秘密等の保護- - Platinum Data Blog by BrainPad>https://blog.brainpad.co.jp/entry/2023/05/17/161613]] 2023.5
--[[【連載3】大規模言語モデル（LLM）のビジネス利用に関して注意すべき点-著作権の侵害リスク- - Platinum Data Blog by BrainPad>https://blog.brainpad.co.jp/entry/2023/05/23/153826]] 2023.5
--[[【連載4】大規模言語モデル（LLM）のビジネス利用に関して注意すべき点-海外の法規制- - Platinum Data Blog by BrainPad>https://blog.brainpad.co.jp/entry/2023/05/24/155316]] 2023.5
大規模言語モデル の履歴ソース(No.22)

大規模言語モデルの履歴ソース(No.22)