大規模言語モデル - 技術情報Wiki

[ トップ ] [ 編集 | 凍結 | 差分 | 履歴 | 添付 | リロード ] [ 新規 | 一覧 | 検索 | 最終更新 | ヘルプ | ログイン ] [ Twitter ]

→自然言語処理

→OpenAIのAPI

サブトピック
LlaMA
- Llama.cpp
- Alpaca
Cohere Command R+
1ビットLLM/BitNet
rinna
PaLM
OpenCALM
Dolly
RWKV
FlexGen
その他のモデル

サブトピック†

LLM一般
- Amazon Bedrock

LLMアプリ開発

LLMのローカル知識対応
- RAG関連

LlaMA†

→Amazon Bedrock

「Llama 3.1」の日本語追加学習モデル、サイバーエージェントが公開　SNSでは「爆速すぎる」の声 - ITmedia AI＋ 2024.7

ついに始まった大規模言語モデルの真の”民主化” 5年後の社会はどうなるか – WirelessWire News 2024.7
- ローカル環境での利用可能性:このモデルがローカル環境で動作可能であり、クラウドにデータをアップロードする必要がないこと。
- 商用利用の緩和:月間5億ユーザー以下の場合、商用利用でも無償で使用できること。
- 技術的障壁の低下:高性能なAIモデルを比較的安価なハードウェアで運用できるようになったこと。
- データセキュリティの向上:企業が自社の機密データをクラウドにアップロードせずにAIを活用できるようになったこと。

Meta の Llama 3.1 が Amazon Bedrock で利用可能になりました | DevelopersIO 2024.7

オープンモデル最強のLLM、Llama 3.1が登場！ AWSのBedrockから使ってみた #生成AI - Qiita 2024.7

llama2のpretrainingを試す 2023.10

Meta開発のLLMであるLLaMA、LLaMA2、派生モデルAlpacaについて解説！｜スタビジ 2023.10
- LLaMAの基本アーキテクチャはTransformer

【西川和久の不定期コラム】340億パラメータのLLMは手元のPCで動く？Metaの「Code Llama 34B」を試してみた！ - PC Watch 2023.9

えっ、まだChatGPT使ってんの？ - Qiita 2023.9

Metaの「Llama 2」をベースとした商用利用可能な日本語LLM「ELYZA-japanese-Llama-2-7b」を公開しました｜ELYZA, Inc. 2023.8

ChatGPT（3.5）に匹敵する「Llama 2」をローカルPCで動かしてみた（1/3 ページ） - ITmedia NEWS 2023.7

Llama 2の性能がGPT-3.5並みだというのが本当かテストしてみた｜IT navi 2023.7

オープンソースで商用利用可能な大規模言語モデル「Llama 2」がReplicateに登場したのでAPI経由で使ってみた - GIGAZINE 2023.7

話題のLlama 2という大規模言語モデルをAmazon SageMaker JumpStartで動かしてみた | DevelopersIO 2023.7

Llama.cpp†

Alpaca†

LLaMAの派生モデル

日本語Alpacaデータを用いてJapanese-Alapaca-LoRAを作ったので公開します【デモページあり】｜kun1emon｜note 2023.3

BloomをLoRaを使い日本語alpaca datasetでfine tuneを動かす - Qiita 2023.3

Cohere Command R+†

ASCII.jp：まるで“いけない話ができるChatGPT”　ローカルAI「Command R+」の爆発的な可能性 (1/5) 2024.5

Amazon BedrockでCohere Commandのプロンプトの奥地に迫る #AWS - Qiita 2024.5

Cohere Command R+ のクエリの書き換え機能を確認する #AWS - Qiita 2024.5

Cohere の Command R/R+ において 128k input tokens は短いのか長いのか #bedrock - Qiita 2024.4

Command R+はどこまで量子化するとアホになってしまうのか？ – soy-software 2024.4
- 4bitまでは大して劣化しない

Command R+はトークナイザーもすごかった #LLM - Qiita 2024.4

【Command R+】オープンソース界最強LLMがGPT-4レベルの性能を達成 | WEEL 2024.4

OpenAIのライバル:Cohereが最高にイけている件 #LLM - Qiita 2024.4

日本語対応でGPT-4よりも高性能な大規模言語モデル「Command R＋」が登場したので使ってみた、無料でダウンロードしてローカル動作も可能 - GIGAZINE 2024.4

1ビットLLM/BitNet†

生成AIでGPUがいらなくなる？　業界を揺るがす「1ビットLLM」とは何か、識者に聞いた（1/3 ページ） - ITmedia AI＋ 2024.4

【論文丁寧解説】BitNet b1.58とは一体何者なのか #アルゴリズム - Qiita 2024.3

BitNetから始める量子化入門 2024.3

速報：話題の 1ビットLLMとは何か？｜寺田英雄（?オープンストリームCTO） 2023.3

既存日本語LLMをBitNetで置き換えて実行してみた｜はち 2023.3

rinna†

HuggingFaceのLLMのメモリ使用率を調べる #NLP - Qiita 2023.10

ローカルで動くマルチモーダルモデル(rinna-4b multimodal)を使って簡単なゲーム実況AIを作ってみた - Qiita 2023.8

ローカルでも動く！？日本語に特化した強化学習済み対話GPT言語モデルを検証してみる - Qiita 2023.7

上司「オンプレでチャットAI作って」 - Qiita 2023.6

ローカルで動く大規模言語モデル(Rinna-3.6B)を使ってあなただけのAIパートナーを作ろう - Qiita 2023.6

自分の過去ツイートでrinna/japanese-gpt-neox-3.6bをfinetuningして「俺tter」を生成する｜松xRのnote 2023.6

話題のrinna-3.6bをColab無料枠で動かしたい！(Hugging Face load_in_8bitを使ったサンプルコード) - Qiita 2023.5

【Python】手持ちのGPUがVRAM12Gだけど「Rinna-3.6B」とお話がしたい！！！ - Qiita 2023.5

Google Colab で Rinna-3.6B を試す｜npaka 2023.5

PaLM†

超大規模Transformerモデル、コーディングタスクや多言語タスクでも高い性能

PaLM 2 APIを使ってtext-bisonモデルに感情分析させてみた 2023.6

Googleは世界最大規模のAI言語モデル「PaLM」を開発、言葉を理解する機能が格段に向上、人間のように論理的に考えジョークのオチを説明する | Emerging Technology Review 2022.7

OpenCALM†

Dolly†

RWKV†

従来の大規模言語モデルの制約だった「入力量の限界」を取り払った「RWKV」は一体どんな言語モデルなのか？ - GIGAZINE 2023.7
- アテンションの計算においては入力トークン間の全てのペアについて計算する必要があるため、処理に必要な時間が入力トークンの量の2乗に比例してしまうほか、テキストを生成する時には全トークンのアテンションベクトルを利用するのでメモリを大量に必要とするなど、入力トークンの長さに関して制限が存在しています。一方、RNNの場合は計算量が入力トークンの量の1乗に比例するため、かなり長い文章を「読む」ことが可能です

RNNでTransformer並みの性能を実現するRWKVがやばい 2023.4

RWKVをローカルPCで動かす（pyenv/Docker） 2023.3

おうちの8GB VRAM GPUでChatRWKVと会話する - きしだのHatena 2023.3

Google Colab で RWKV を試す｜npaka｜note 2023.3

ChatGPT終了のお知らせ!?完全無料&オープン爆速大規模自然言語モデルRWKVが爆誕 - YouTube 2023.3

FlexGen†

LLM推論にGPUは1つでいい？FlexGenについてまとめてみた - Platinum Data Blog by BrainPad 2023.5

その他のモデル†

LLM 勉強会 - LLM 勉強会 2024.6

X（旧Twitter）に「Grok」が搭載！イーロン・マスク氏が設立したxAI社の生成AI - 窓の杜 2024.5

いちばんやさしいローカル LLM｜ぬこぬこ 2024.4
- Ollama,quantkit

Google Colab で Xwin-LM-70B-V0.1-GPTQ を試す。｜npaka 2023.9

100億パラメータサイズ・日英2ヶ国語対応の大規模言語モデル“Weblab-10B”をオープンソースで公開しました。 – 東京大学松尾研究室 – Matsuo Lab 2023.8

最新の50件

2024-07-27

2024-07-26

2024-07-25

2024-07-24

2024-07-23

2024-07-22

添付ファイル:

LLM系統.jpg 196件 [詳細]

Last-modified: 2024-07-26 (金) 22:14:13