LLMのローカル知識対応の履歴差分(No.7)

追加された行はこの色です。
削除された行はこの色です。
#author("2023-10-10T12:39:01+09:00","default:irrp","irrp")
#author("2023-10-12T18:44:33+09:00","default:irrp","irrp")
→自然言語処理

→OpenAIのAPI

→Amazon Bedrock

→LLMライブラリ


#contents



* 一般 [#hf9f1ff9]
-[[Amazon RDS for PostgreSQLがpgvectorモジュールに対応しベクトル検索できるようになりました | DevelopersIO>https://dev.classmethod.jp/articles/amazon-rds-postgresql-pgvector-embedding/]] 2023.10

-[[BERT系モデルで文章をEmbeddingする際のTips - Qiita>https://qiita.com/anyai_corp/items/1d66feea6102c28dd077]] 2023.8

-[[ベクトル検索で欲しい情報が得られないときの問題点と改良方法を考えてみた | DevelopersIO>https://dev.classmethod.jp/articles/problem-and-improve-methods-of-vector-search/]] 2023.7

-[[OpenAIのAPIを使って営業資料をベクトル検索するボットをつくってみた | DevelopersIO>https://dev.classmethod.jp/articles/implement-sales-documents-search-bot/]] 2023.7

-[[PostgreSQL(pgvector) のベクトル検索による全自動PDF検索 : Blob Storage にアップロードしPDFをテキストに変換 - Qiita>https://qiita.com/yoshioterada/items/fddbc738cca9f24dac8b]] 2023.6

-[[Azure OpenAI Embedding モデルを利用し最も関連性の高いドキュメントを見つける方法 - Qiita>https://qiita.com/yoshioterada/items/3e575828368bf3767532]] 2023.6

-[[ChatGPTを使ってOpenAIのEmbeddings APIを実験してみる - Kaizen Platform 開発者ブログ>https://developer.kaizenplatform.com/entry/yu/2023-06]] 2023.6

-[[ChatGPTで独自データを扱うためのエンべディング｜緒方 壽人 (Takram)>https://note.com/ogatahisato/n/n899dcb459f35]] 2023.5

-[[OpenAIのEmbeddings APIのベクトルを使って検索を行う | DevelopersIO>https://dev.classmethod.jp/articles/search-with-openai-embeddings/]] 2023.5

-[[ChatGPTに日本語テキストを入力するとき、日本語テキストがどのように分割されてトークンに変換されるかをtiktokenでのぞく - nikkie-ftnextの日記>https://nikkie-ftnext.hatenablog.com/entry/how-chatgpt-tokenize-japanese-text-tackling-with-tiktoken]] 2023.4

-[[Embeddingで埋め込みベクトルとってDBに投入して検索するのをout-context learningと呼ぶのはどうか - きしだのHatena>https://nowokay.hatenablog.com/entry/2023/04/13/212226]] 2023.4

-[[「単語ヘ&#12441;クトル」とは何か？ - YouTube>https://www.youtube.com/watch?v=l8YCKz15Hn8]] 2023.4

-[[ChatGPTなどのチャットAIがどんな風に文章を認識しているのかが一目で分かる「Tokenizer」 - GIGAZINE>https://gigazine.net/news/20230407-tokenizer-open-ai/]] 2023.4

-[[GPTのEmbeddingを利用してブログの投稿に対する近いものを探し出す - きしだのHatena>https://nowokay.hatenablog.com/entry/2023/03/09/094810]] 2023.3
-[[GPTのEmbeddingを使った近いエントリを探す処理がVector APIなどで10倍高速になった - きしだのHatena>https://nowokay.hatenablog.com/entry/2023/04/03/173313]] 2023.4

-[[OpenAI GPTにおいて、モデルごとにトークン量が変動するのはなぜ？ | IIJ Engineers Blog>https://eng-blog.iij.ad.jp/archives/18815]] 2023.3

-[[OpenAI 言語モデルごとのエンコーディング一覧>https://zenn.dev/microsoft/articles/3438cf410cc0b5]] 2023.3

-[[人間の言葉をコンピュータが理解できるようにするための「ベクトル化」の話 | DevelopersIO>https://dev.classmethod.jp/articles/vectorization-in-natural-language-processing/]] 2022.12
--形態素解析,構文解析,意味解析,文脈解析,カウントベース,分散表現

-[[自然言語処理：単語ベクトルの導出ー埋め込み表、CBOW、Skipgram - YouTube>https://www.youtube.com/watch?v=ylWNajlpiEo]] 2020

-[[ざっくり理解する単語の分散表現(One-hot encode, word2vec, ELMo, BERT) - Qiita>https://qiita.com/norihitoishida/items/85150cfacc1f75f552f3]] 2019

-[[自然言語処理の必須知識！Word2Vec とは？ | キカガクの技術ブログ>https://blog.kikagaku.co.jp/word2vec]] 2022.12

-[[青空文庫の全小説でword2vecしてみる - Qiita>https://qiita.com/sheep96/items/1995a3eacfc0be317a08]] 2022.7

-[[BERT vs Word2Vec ～単語分散表現による同義語抽出～ - Qiita>https://qiita.com/chicken_data_analyst/items/15c0046062c6e016f467]] 2022.7

-[[Word2Vecを用いたタンパク質の分散表現 - Qiita>https://qiita.com/kuro3210/items/aa45753d301dfc13811b]] 2022.4
-[[【転職会議】クチコミをword2vecで自然言語処理して会社を分類してみる - Qiita>https://qiita.com/naotaka1128/items/2c4551abfd40e43b0146#2-gensim-%E3%81%A7-doc2vec-%E3%81%AE%E3%83%A2%E3%83%87%E3%83%AB%E6%A7%8B%E7%AF%89]] 2016
-[[【word2vec】会社のクチコミを自然言語処理した結果を可視化してみる - Qiita>https://qiita.com/naotaka1128/items/e617f63907fed035408a]] 2017



*RAG(Retrieval Augmented Generation）[#g35e41ef]
-[[Amazon KendraとAWS Lambdaを使い、RAGのRetrievalフェーズを試してみた | DevelopersIO>https://dev.classmethod.jp/articles/kendra-lambda-retrieval/]] 2023.10

-[[ChatGPT・AOAIに自社データを組み込む場合(RAG)のアクセス制御のデザインパターン &#8211; CloudNative Inc. BLOGs>https://blog.cloudnative.co.jp/20885/]] 2023.10

-[[【Bedrock / Claude】AWSオンリーでRAGを使った生成AIボットを構築してみた【Kendra】 | DevelopersIO>https://dev.classmethod.jp/articles/implement-rag-with-aws-services/]] 2023.10

-[[【Bedrock / Claude】AWSオンリーでRAGを使った社内情報を回答できる生成AIボットで構築してみた【Kendra】 | DevelopersIO>https://dev.classmethod.jp/articles/implement-rag-with-aws-services/]] 2023.10

-[[【ChatGPT】ベクトルデータベースによる企業内データの活用(RAG) - Qiita>https://qiita.com/ksonoda/items/ba6d7b913fc744db3d79]] 2023.9

-[[LangChainでCognitive SearchのベクトルDBと連携させたRAGを構築する - Qiita>https://qiita.com/tmiyata25/items/bfb7f4f5f22ec659c791]] 2023.9

-[[LLMを利用したRAG（Retrieval Augmented Generation）と著作権侵害｜知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】>https://storialaw.jp/blog/9885]] 2023.8

-[[実践LangChain！RAGによる特化LLMシステムの作り方 - Qiita>https://qiita.com/t_serizawa/items/a2ced4441da714b3076f]] 2023.6



*Amazon Bedrock によるエンベディング [#v422b591]
-[[Amazon BedrockでテキストのEmbeddingsを取得してみた | DevelopersIO>https://dev.classmethod.jp/articles/amazon-bedrock-titan-embeddings/]] 2023.10

-[[Amazon BedrockのEmbeddingsを試しました。（良さげです） - Qiita>https://qiita.com/moritalous/items/d68ee613776e2e18b81b]] 2023.9



*OpenAI Embedding API [#p7cbc263]
-[[ChatGPT x LangChain で独自ドキュメントのベクターストア検索をチューニングする / 開発者向けブログ・イベント | GMO Developers>https://developers.gmo.jp/38381/]] 2023.9

-[[OpenAI の Embeddings API はイケてるのか、定量的に調べてみる - Qiita>https://qiita.com/akeyhero/items/ce371bfed64399027c23]] 2023.9

-[[OpenAIのEmbeddings APIを使って文の意味上の類似度を計算 | GMOアドパートナーズ TECH BLOG byGMO>https://techblog.gmo-ap.jp/2023/06/22/embeddings_api_calc_sentence_similarity/]] 2023.6

-[[【ChatGPT】Embeddingsでドメイン知識をChatGPTに理解させる - Qiita>https://qiita.com/yuno_miyako/items/589efa5c5dd6df2b16a7]] 2023.6

-[[ChatGPT_APIのEmbedding_カスタマイス&#12441;入門 - Speaker Deck>https://speakerdeck.com/ryoheiigushi/chatgpt-apinoembedding-kasutamaisuru-men]] 2023.4



*ベクトルDB [#c373e648]
-[[ChromaDBの完全なチュートリアル - Qiita>https://qiita.com/jingwora/items/d39635b2d727725bf4ca]] 2023.10
LLMのローカル知識対応 の履歴差分(No.7)

LLMのローカル知識対応の履歴差分(No.7)