自然言語処理の履歴差分(No.69)

追加された行はこの色です。
削除された行はこの色です。
#author("2023-04-24T12:51:40+09:00","default:irrp","irrp")
#author("2023-04-25T09:14:27+09:00","default:irrp","irrp")
→データ処理関連

→ディープラーニング

→AI／機械学習

→画像生成

→画像認識／検出／トラッキング

→音声処理関連


#contents


*サブトピック [#y53db77d]
-Transformer ←BERTもこちら
--GPT関連
--OpenAIのAPI
--ChatGPT関連


-全文検索


*NLP一般/大規模モデル(LLM) [#p48667e6]
-[[大規模言語モデルのための強化学習｜npaka｜note>https://note.com/npaka/n/ne6d2e7e076ea]] 2023.4

-[[大規模言語モデルをだます Hindsight Neglect タスクとは | 楽しみながら理解するAI・機械学習入門>https://data-analytics.fun/2023/04/23/understanding-hindsight-neglect/]] 2023.4

-[[ChatGPTとBardの対決を超える“事件”。無料の｢StableLM｣登場で｢AIの超民主化｣争いが始まった | Business Insider Japan>https://www.businessinsider.jp/post-269014]] 2023.4

-[[Stable Diffusion開発元、独自の大規模言語モデル「StableLM」をGitHubで公開し、商用利用も可能。チャットAI「StableChat」は数カ月後 | テクノエッジ TechnoEdge>https://www.techno-edge.net/article/2023/04/20/1189.html]] 2023.4

-[[Baby-AGIなるAI連動型の推論システムを評価してみた | IIJ Engineers Blog>https://eng-blog.iij.ad.jp/archives/19126]] 2023.4

-[[NLP2023 緊急パネル：ChatGPTで自然言語処理は終わるのか？（言語処理学会理事会主催）2023年3月14日 沖縄コンベンションセンター - YouTube>https://www.youtube.com/watch?v=TXgOrYUPs_s]] 2023.4

-[[Building LLM applications for production>https://huyenchip.com/2023/04/11/llm-engineering.html]] 2023.4

-[[ChatGPTなどに使われる大規模言語モデルを従来のシステムよりも15倍高速・低コストで学習できる「DeepSpeed-Chat」をMicrosoftが公開 - GIGAZINE>https://gigazine.net/news/20230413-deepspeed-chat-chatgpt/]] 2023.4
--[[DeepSpeed/blogs/deepspeed-chat/japanese at master &#183; microsoft/DeepSpeed &#183; GitHub>https://github.com/microsoft/DeepSpeed/tree/master/blogs/deepspeed-chat/japanese]] 2023.4

-[[メモリを追加して64GBになったので動かせなかった言語モデルを試した - きしだのHatena>https://nowokay.hatenablog.com/entry/2023/04/05/213842]] 2023.4

-[[Microsoft が LLM をアプリ開発に統合するための OSS「Semantic Kernel」を発表 - Qiita>https://qiita.com/nohanaga/items/430b59209b02c298ef2a]] 2023.4

-[[LLMがなぜ大事なのか?経営者の視点で考える波の待ち受け方｜福島良典 | LayerX>https://comemo.nikkei.com/n/nf3132b57539c]] 2023.3
--[[LayerX LLM Labsチームを立ち上げます - LayerX エンジニアブログ>https://tech.layerx.co.jp/entry/2023/04/04/110000]] 2023.4


-[[マルチレイヤーLLMでAIアシスタントの未来を切り拓く - Qiita>https://qiita.com/yakigac/items/1a4e3983031f385719e4]] 2023.4

-[[LLMが変える、ユーザインターフェースの未来｜Dory｜note>https://note.com/dory111111/n/nf3c707c0bb5b]] 2023.4

-[[大規模言語モデルの知識を補完するための Retriever の紹介 - ACES エンジニアブログ>https://tech.acesinc.co.jp/entry/2023/03/31/121001]] 2023.3

-[[Is Attention All You Need?Transformer を超える(?)新モデルS4 - GMOインターネットグループ グループ研究開発本部（次世代システム研究室）>https://recruit.gmo.jp/engineer/jisedai/blog/is-attention-all-you-need/]] 2023.3

-[[現状のLLMの流れ / Twitter>https://twitter.com/umiyuki_ai/status/1641083326940475393]] 2023.3
--1.マイクロソフトのBing VS GoogleのBard→検索エンジンの戦い
--2.オープン（メタのLLaMAとかGPT-J、GPT-NEOX、Cerebras-GPT） VS クローズ（ChatGPT, GPT-4,  LaMDA, PaLM）
---→クローズ勢はオープン勢の研究成果を一方的に利用できる。逆にオープン勢はクローズモデルの入出力で蒸留できる。（規約的に微妙）
--3.ChatGPT VS AIスタートアップ→ChatGPTプラグインが登場して万能AIプラットフォーム化した事でAIスタートアップは壊滅か。これからは単なるプラグインの一つに収まる運命かも
--4.既存ツール VS ネイティブAIツール→あらゆるツールにLLMが搭載されだした。フォトショ、Blender、UE、Unity、Office、Note、Notion…
---これまた既存ツールにAI乗せただけみたいなAIスタートアップはバチボコ（たとえばTome）でも、AIネイティブなツールは？例えばRunway
--5.LLaMAの隆盛。リークされた途端にStable Diffusionの時みたいな盛り上がりを見せる。LLaMA. cpp（CPUで動く）、Alpaca、Alpaca_Lora、Alpacoom、日本語Alpaca、lit_LLaMA、OpenFlamingo、GPT4All
--6.マルチモーダル化の流れ。GPT-4やOpenFlamingo。テキスト学習データは枯渇しているからマルチモーダルにするしかない。マルチモーダルなら小パラメータでも高性能説？
--7.ロボットの頭脳にLLMを使う流れ。Googleが色々やってる。RT-1、PaLM-E
--8.H3やHyenaとかの最新アーキテクチャを使ったクソデカコンテキスト枠のモデルはどこが作るのか？
--9.RWKVのような思わぬダークホースのオープンソースモデルもやって来る。高速、省メモリ、長コンテキスト。Alpaca食わせてRavenに
--10.LLMの開発規制！？イーロン達がOpenAIにズルいとか言い出す。ゆくゆくはLLMの研究禁止などの規制に繋がるのか？
--11.周辺ライブラリ。LangChain、Llama Index、Guardrails
--12.GPT-4登場の衝撃。自称汎用テクノロジー、自称汎用知能。人間の仕事を相当置き換えられるポテンシャルという論文もある。
---心の理論タスクほぼ全クリ。9割の人間を上回る創造性。ワールドモデルを持っている？マンガも読める。最大コンテキスト長32k。未知の創発能力の可能性

-[[画像と文字を扱うマルチモーダルモデルがオープンソースの「OpenFlamingo」として登場、無料で使えるデモも公開中 - GIGAZINE>https://gigazine.net/news/20230329-openflamingo/]] 2023.3

-[[自然言語処理のためのDeep Learning>https://www.slideshare.net/yutakikuchi927/deep-learning-26647407]] 2023.3

-[[大規模言語モデルの驚異と脅威 - Speaker Deck>https://speakerdeck.com/chokkan/20230327_riken_llm]] 2023.3

-[[無料・商用利用可なオープンソースの大規模言語モデル Dolly 2.0(dolly-v2-12b) を試してみた - Qiita>https://qiita.com/riversun/items/7c45580f1a098b041528]] 2023.4
-[[Hello Dolly: オープンなモデルでChatGPTの魔法を民主化する - Qiita>https://qiita.com/taka_yayoi/items/e9c895c169da652c6efb]] 2023.3

-[[AIによる「大規模言語モデル」の最新潮流、日本が世界No.1になるための勝ち筋とは～Shane Gu×スプツニ子！×松尾豊×山田敦×上野山勝也 - YouTube>https://www.youtube.com/watch?v=C-HqDod73xE]] 2023.3

-[[ChatGPTや大規模言語モデルによる変化とソフトウェア開発の雑感｜Matsumoto Yuki｜note>https://note.com/y_matsuwitter/n/nb9a49086147a]] 2023.3

-[[プロンプトエンジニアリングを加速する、AI モデルの性能評価フレームワーク「OpenAI Evals」を試してみた | DevelopersIO>https://dev.classmethod.jp/articles/openai-evals-trial/]] 2023.3

-[[二つの文章がどこまで似ているか判定したい - Qiita>https://qiita.com/mingchun_zhao/items/866109c3846157d57aed]] 2023.3

-[[NLPとVision-and-Languageの基礎・最新動向 (1) / DEIM Tutorial Part 1: NLP - Speaker Deck>https://speakerdeck.com/kyoun/deim-tutorial-part-1-nlp]] 2023.3
--[[NLPとVision-and-Languageの基礎・最新動向 (2) / DEIM Tutorial Part 2 Vision-and-Language - Speaker Deck>https://speakerdeck.com/kyoun/deim-tutorial-part-2-vision-and-language]] 2023.3

-[[【実験】OpenAI、GPTZero…AIが書いた文章はどれぐらい見抜かれる？7つのAI判別ツールを比べてみた【テッククランチ】 | レバテックラボ（レバテックLAB）>https://levtech.jp/media/article/news/detail_202/]] 2023.2

-[[大規模言語モデル AI が道具をつかえるようになったという衝撃>https://newspicks.com/topics/dx/posts/43]] 2023.2

-[[NLPの専門用語一覧まとめ - すえつぐのNLP&G>https://nlpillustration.tech/?p=2442]] 2023.2

-[[自然言語処理(NLP)の歴史まとめ｜ニューラルネットワークベースのNLP - すえつぐのNLP&G>https://nlpillustration.tech/?p=2408]] 2023.2

-[[【論文解説】Google の対話 AI『LaMDA』を理解する | 楽しみながら理解するAI・機械学習入門>https://data-analytics.fun/2023/02/19/understanding-lamda/]] 2023.2

-[[文章を自動的にナレッジグラフにできるGraphGPTのインストール | ジコログ>https://self-development.info/%e6%96%87%e7%ab%a0%e3%82%92%e8%87%aa%e5%8b%95%e7%9a%84%e3%81%ab%e3%83%8a%e3%83%ac%e3%83%83%e3%82%b8%e3%82%b0%e3%83%a9%e3%83%95%e3%81%ab%e3%81%a7%e3%81%8d%e3%82%8bgraphgpt%e3%81%ae%e3%82%a4%e3%83%b3/]] 2023.2

-[[AI Text Classifier - OpenAI API>https://platform.openai.com/ai-text-classifier]] 2023.1
--AIによる文章を判定するAPI

-[[ChatGPTだけではない。大手テック企業による会話AI開発の最前線 | AI専門ニュースメディア AINOW>https://ainow.ai/2023/01/30/271654/]] 2023.1

-[[【Deep Learning研修（発展）】系列データモデリング - YouTube>https://www.youtube.com/playlist?list=PLbtqZvaoOVPA-keirzqx2wzpujxE-fzyt]] 2022.12

-[[政治家の発言を可視化し、問題解決に取り組んでいるかを調べる [by ChatGPT] - Qiita>https://qiita.com/yutakobayashi/items/1381de1da52ea7ca56b9]] 2022.12

-[[言語処理100本ノック第2章　解答と解説のまとめ - ブレインズコンサルティング・テックブログ>https://blog.brains-consulting.tech/entry/2022/09/13/173954]] 2022.12

-[[MIT Tech Review: 大規模言語AIにアキレス腱、訓練用データが2026年にも枯渇か>https://www.technologyreview.jp/s/291329/we-could-run-out-of-data-to-train-ai-language-programs/]] 2022.11

-[[Hugging Faceのモデル学習で、モデルをカスタマイズする方法 | DevelopersIO>https://dev.classmethod.jp/articles/huggingface-usage-custom-model/]] 2022.11

-[[Introduction - Hugging Face Course>https://huggingface.co/course/chapter0/1?fw=pt]] 2022.11

-[[第５回 【Python】まだ見ぬアクティビティーを求めてアソビュー ！Doc2Vecモデルチューニング - Qiita>https://qiita.com/Tokoroteen/items/1da9434e90ff407e6422]] 2022.11

-[[DeepL APIを公式のDeepL Python Libraryから利用する | ジコログ>https://self-development.info/deepl-api%e3%82%92%e5%85%ac%e5%bc%8f%e3%81%aedeepl-python-library%e3%81%8b%e3%82%89%e5%88%a9%e7%94%a8%e3%81%99%e3%82%8b/]] 2022.11

-[[(PDF) Natural Language Processing with Python>https://www.researchgate.net/publication/220691633_Natural_Language_Processing_with_Python]] 2022.10

-[[Large Language Models and Where to Use Them: Part 1>https://txt.cohere.ai/llm-use-cases/]] 2022.9

-[[夏目漱石さんの「こころ」の心を感情分析プログラムで解析してみた - Qiita>https://qiita.com/Mizuiro__sakura/items/236ef2b239c8c0e077a9]] 2022.9

-[[今さら聞けない自然言語処理(NLP) - Qiita>https://qiita.com/taka_yayoi/items/92ec880c7d7c6ce271d5]] 2022.9

-[[近年の本格ミステリを可視化する【テキストマイニング】 - Qiita>https://qiita.com/masaka_programming/items/4d871f90c5876a3bcb38]] 2022.9

-[[[Salesforce Research論文]自然言語からコードを生み出す”CodeGen”を試してみた | DevelopersIO>https://dev.classmethod.jp/articles/check-sample-code-for-codegen/]] 2022.8

-[[【メタサーベイ】基盤モデル / Foundation Models>https://www.slideshare.net/cvpaperchallenge/foundation-models]]  2022.8
--Transformer,BERT, ViT, CLIP, GLIDE, ...

-[[自然言語処理分野で用いられる敵対的学習手法について - Platinum Data Blog by BrainPad>https://blog.brainpad.co.jp/entry/2022/08/23/153001]] 2022.8

-[[Pythonで文章要約！自然言語処理を使ってExciteの記事を要約してみた - エキサイト TechBlog.>https://tech.excite.co.jp/entry/2022/08/19/181445]] 2022.8

-[[Wav2Vec2.0を使った音声認識を試してみました！ - CCCマーケティング TECH Labの Tech Blog>https://techblog.cccmk.co.jp/entry/2022/08/09/131953]] 2022.8

-[[GitHub - manticoresoftware/manticoresearch: Easy to use open source fast database for search | Good alternative to Elasticsearch now | Drop-in replacement for E in the ELK soon>https://github.com/manticoresoftware/manticoresearch]] 2022.8

-[[BLOOMはここ10年で最も重要なAIモデルだ | AI専門ニュースメディア AINOW>https://ainow.ai/2022/08/30/267101/]] 2022.8
-[[The Technology Behind BLOOM Training>https://huggingface.co/blog/bloom-megatron-deepspeed]] 2022.7


-[[Are Large Language Models Sentient? | by Naim Kabir | Jun, 2022 | Level Up Coding>https://levelup.gitconnected.com/are-large-language-models-sentient-d11b18ef0a0a]] 2022.6

-[[NER（固有表現抽出）始めませんか？ 第1回 | NTTデータ先端技術株式会社>https://www.intellilink.co.jp/column/ai/2021/120700.aspx]] 2021.12

-[[【保存版】さまざまな自然言語処理の手法を学べるレシピ30選（2022年4月版） - Qiita>https://qiita.com/AxrossRecipe_SB/items/fd1e6e893e3f3fb50d2c]] 2022.4

-[[【日本語モデル付き】2021年に自然言語処理をする人にお勧めしたい事前学習済みモデル - Qiita>https://qiita.com/sonoisa/items/a9af64ff641f0bbfed44#2-%E3%83%8B%E3%83%A5%E3%83%BC%E3%82%B9%E8%A8%98%E4%BA%8B%E3%81%AE%E3%82%BF%E3%82%A4%E3%83%88%E3%83%AB%E7%94%9F%E6%88%90%E4%B8%80%E7%A8%AE%E3%81%AE%E6%96%87%E7%AB%A0%E8%A6%81%E7%B4%84]] 2021
-[[フリーで使える日本語の主な大規模言語モデルまとめ>https://zenn.dev/hellorusk/articles/ddee520a5e4318]] 2022.4

-[[SageMakerで作るケチケチ文書分類 - Mirai Translate TECH BLOG>https://miraitranslate-tech.hatenablog.jp/entry/2022/04/19/120000]] 2022.4

-[[【タイタニック】AutoTrainで2値分類 - Qiita>https://qiita.com/relu/items/200168efa13a7ed55d12]] 2022.4
--AutoTrainとはノーコードでテキスト分類や要約や構造化データの機械学習などがstate-of-the-artできるサービスです。
-[[AutoTrainで文章要約 - Qiita>https://qiita.com/relu/items/129de82967d99ee4c398]] 2022.4

-[[NLP2022に参加しました（前編）｜朝日新聞社 メディア研究開発センター｜note>https://note.com/asahi_ictrad/n/n2b6721134972]] 2022.3

-[[「テキストアナリティクスの基礎と実践」をpythonで読む3 テキストの特徴分析 - Qiita>https://qiita.com/tanaka_benkyo/items/58f5ace6d7668688117f]] 2022.3

-[[言語処理100本ノック 2020 (Rev 2) - NLP100 2020>https://nlp100.github.io/ja/]] 2020
--[[【言語処理100本ノック 2020】Pythonによる解答例まとめ - Qiita>https://qiita.com/yamaru/items/0cac24710626333bd693]] 2020.11

-[[【AIのべりすと】とうとうAIが面白い小説を書けるようになってきた！！　～AIによる小説の自動生成の最前線～　 - Qiita>https://qiita.com/mfuji3326/items/f86aca1df4ddc85c4a50]] 2021.11
--https://ai-novel.com/index.php

-[[【関連書籍】深層学習による自然言語処理 >https://amzn.to/3kh0zbN]]
-[[【関連書籍】ゼロから作るDeep Learning &#10103; ―自然言語処理編>https://amzn.to/3k1lRKC]]


*RWKV [#efdcce35]
-[[RNNでTransformer並みの性能を実現するRWKVがやばい>https://zenn.dev/hikettei/articles/5d6c1318998411]] 2023.4

-[[RWKVをローカルPCで動かす（pyenv/Docker）>https://zenn.dev/karaage0703/articles/d58d79d8e77ab8]] 2023.3

-[[おうちの8GB VRAM GPUでChatRWKVと会話する - きしだのHatena>https://nowokay.hatenablog.com/entry/2023/03/28/192028]] 2023.3

-[[Google Colab で RWKV を試す｜npaka｜note>https://note.com/npaka/n/nc0592a884903]] 2023.3

-[[ChatGPT終了のお知らせ!?完全無料&オープン爆速大規模自然言語モデルRWKVが爆誕 - YouTube>https://www.youtube.com/watch?v=hnkiLlTiG6Y]] 2023.3



*Alpaca [#v7a594c5]
-[[日本語Alpacaデータを用いてJapanese-Alapaca-LoRAを作ったので公開します【デモページあり】｜kun1emon｜note>https://note.com/kun1emon/n/n1533345d5d26]] 2023.3

-[[BloomをLoRaを使い日本語alpaca datasetでfine tuneを動かす - Qiita>https://qiita.com/iss-f/items/9ab11ed38dde2fc1f43b]] 2023.3

-[[チャットAI「Alpaca」をローカルにインストールしてオフラインでAIと会話できる「Alpaca.cpp」インストール手順まとめ - GIGAZINE>https://gigazine.net/news/20230320-chat-ai-alpaca-cpp/]] 2023.3
-[[Alpaca-loraを日本語タスクでファインチューニングする - Qiita>https://qiita.com/toshi_456/items/280efc31950ddb083286]] 2023.3
-[[GitHub - antimatter15/alpaca-lora: Code for reproducing the Stanford Alpaca InstructLLaMA result on consumer hardware>https://github.com/antimatter15/alpaca-lora]] 2023.3


*FlexGen [#d50e3855]
-[[FlexGenでおうちのパソコンとお話する - きしだのHatena>https://nowokay.hatenablog.com/entry/2023/03/29/140719]] 2023.3
-[[ChatGPTで騒いでる場合じゃない。 AI研究者が｢FlexGen｣をゲームチェンジャーと呼ぶ理由 | Business Insider Japan>https://www.businessinsider.jp/post-265982]] 2023.2

-[[自宅で動くChatGPTと噂のFlexGenをDockerで手軽に動かす>https://zenn.dev/karaage0703/articles/de7045e9792623]] 2023.2
-[[大規模言語モデルをシングルGPUで動かせる!? FlexGenを触ってみた | DevelopersIO>https://dev.classmethod.jp/articles/flexgen-in-colaboratory/]] 2023.2
-[[ChatGPT級のAIチャットボットがすぐに使えるFlexGen（あなたもColabでできる） - Qiita>https://qiita.com/john-rocky/items/28f17229b524c45d2204]] 2023.2


*形態素解析/構文解析 [#l8b0b3e6]
-[[WorksApplications/sudachi.rs: Sudachi in Rust &#129408; and new generation of SudachiPy>https://github.com/WorksApplications/sudachi.rs]] 2023.4

-[[【爆速で理解できる】英語の形態素解析の使い方をCHATGPTに教えてもらう - Qiita>https://qiita.com/makaishi2/items/eb43cfcef2ca0d9761bb]] 2023.3

-[[Pythonを使った、形態素解析器での読みの取得 - estie inside blog>https://inside.estie.co.jp/entry/2022/11/09/110000]] 2022.11

-[[Pythonでかな漢字変換 mozcpy の紹介 - Qiita>https://qiita.com/yukinoi/items/000f6fe4560799378dc0]] 2022.8

-[[AWS Lambda で形態素解析&#12316;句を詠めば鐘が鳴るなりスッコココ&#12316; - estie inside blog>https://inside.estie.co.jp/entry/20220819]] 2022.8

-[[日本語形態素解析 - Yahoo!デベロッパーネットワーク>https://developer.yahoo.co.jp/webapi/jlp/ma/v1/parse.html]]


**GiNZA [#rd078b51]
-[[日本語自然言語処理オープンソースライブラリ「GiNZA」で構文解析をやってみた | DevelopersIO>https://dev.classmethod.jp/articles/try-parsing-using-ginza/]] 2022.12
-[[【Python】GiNZA: 日本語自然言語処理オープンソースライブラリ - Qiita>https://qiita.com/BUU-SAN/items/a511981df820e07e015b]] 2022.7


**MeCab [#hce9b9e9]
-[[日本語機械学習開発環境の作成 | PR TIMES 開発者ブログ>https://developers.prtimes.jp/2023/01/26/create_ml_env/]] 2023.1

-[[MeCabを使った575判定 - estie inside blog>https://inside.estie.co.jp/entry/2022/11/10/110000]] 2022.11

-[[MeCab互換な形態素解析器Vibratoの高速化技法 - LegalForce Engineering Blog>https://tech.legalforce.co.jp/entry/2022/09/20/133132]] 2022.9

-[[python MeCab で listの文章を一部を取り出し機械学習 - Qiita>https://qiita.com/TaichiEndoh/items/10b26ccb7ec8609c0d54]] 2022.8
-[[PythonでMeCabを使う際のメモ - Qiita>https://qiita.com/smiler5617/items/0744c256841875824ed2]] 2022.7
-[[MeCabで形態素解析すれば品名の表記が異なっても一向にかまわんッッ - CUEBiC TEC BLOG>https://cuebic.hatenablog.com/entry/2022/06/28/090000]] 2022.6
-[[MeCab>http://mecab.sourceforge.net/]]
--MeCabは 京都大学情報学研究科－日本電信電話株式会社コミュニケーション科学基礎研究所共同研究ユニットプロジェクトを通じて開発されたオープンソース形態素解析エンジンです. 言語, 辞書,コーパスに依存しない汎用的な設計を基本方針としています. パラメータの推定に Conditional Random Fields (CRF) を用いており, ChaSenが採用している隠れマルコフモデルに比べ性能が向上しています。また、平均的に ChaSen, Juman, KAKASIより高速に動作します.



* Word2Vec/単語の分散表現、ベクトル表現、トーカナイズ [#y4b94d4f]
-[[ChatGPTに日本語テキストを入力するとき、日本語テキストがどのように分割されてトークンに変換されるかをtiktokenでのぞく - nikkie-ftnextの日記>https://nikkie-ftnext.hatenablog.com/entry/how-chatgpt-tokenize-japanese-text-tackling-with-tiktoken]] 2023.4

-[[Embeddingで埋め込みベクトルとってDBに投入して検索するのをout-context learningと呼ぶのはどうか - きしだのHatena>https://nowokay.hatenablog.com/entry/2023/04/13/212226]] 2023.4

-[[「単語ヘ&#12441;クトル」とは何か？ - YouTube>https://www.youtube.com/watch?v=l8YCKz15Hn8]] 2023.4

-[[ChatGPTなどのチャットAIがどんな風に文章を認識しているのかが一目で分かる「Tokenizer」 - GIGAZINE>https://gigazine.net/news/20230407-tokenizer-open-ai/]] 2023.4

-[[GPTのEmbeddingを利用してブログの投稿に対する近いものを探し出す - きしだのHatena>https://nowokay.hatenablog.com/entry/2023/03/09/094810]] 2023.3
-[[GPTのEmbeddingを使った近いエントリを探す処理がVector APIなどで10倍高速になった - きしだのHatena>https://nowokay.hatenablog.com/entry/2023/04/03/173313]] 2023.4

-[[OpenAI GPTにおいて、モデルごとにトークン量が変動するのはなぜ？ | IIJ Engineers Blog>https://eng-blog.iij.ad.jp/archives/18815]] 2023.3

-[[OpenAI 言語モデルごとのエンコーディング一覧>https://zenn.dev/microsoft/articles/3438cf410cc0b5]] 2023.3

-[[人間の言葉をコンピュータが理解できるようにするための「ベクトル化」の話 | DevelopersIO>https://dev.classmethod.jp/articles/vectorization-in-natural-language-processing/]] 2022.12
--形態素解析,構文解析,意味解析,文脈解析,カウントベース,分散表現

-[[自然言語処理：単語ベクトルの導出ー埋め込み表、CBOW、Skipgram - YouTube>https://www.youtube.com/watch?v=ylWNajlpiEo]] 2020

-[[ざっくり理解する単語の分散表現(One-hot encode, word2vec, ELMo, BERT) - Qiita>https://qiita.com/norihitoishida/items/85150cfacc1f75f552f3]] 2019

-[[自然言語処理の必須知識！Word2Vec とは？ | キカガクの技術ブログ>https://blog.kikagaku.co.jp/word2vec]] 2022.12

-[[青空文庫の全小説でword2vecしてみる - Qiita>https://qiita.com/sheep96/items/1995a3eacfc0be317a08]] 2022.7

-[[BERT vs Word2Vec ～単語分散表現による同義語抽出～ - Qiita>https://qiita.com/chicken_data_analyst/items/15c0046062c6e016f467]] 2022.7

-[[Word2Vecを用いたタンパク質の分散表現 - Qiita>https://qiita.com/kuro3210/items/aa45753d301dfc13811b]] 2022.4
-[[【転職会議】クチコミをword2vecで自然言語処理して会社を分類してみる - Qiita>https://qiita.com/naotaka1128/items/2c4551abfd40e43b0146#2-gensim-%E3%81%A7-doc2vec-%E3%81%AE%E3%83%A2%E3%83%87%E3%83%AB%E6%A7%8B%E7%AF%89]] 2016
-[[【word2vec】会社のクチコミを自然言語処理した結果を可視化してみる - Qiita>https://qiita.com/naotaka1128/items/e617f63907fed035408a]] 2017



* RNN/LSTM [#ge1d0e12]
-[[リカレントニューラルネットワーク（RNN）の基礎 - Qiita>https://qiita.com/_oshiritantei/items/3494590a92c609cf0e50]] 2023.4
-[[Deep Learning入門：数式なしで理解するLSTM (Long short-term memory) - YouTube>https://www.youtube.com/watch?v=unE_hofrYrk&t=1s]] 2022.4
-[[RNNにsin波を学習させて予測してみた - Qiita>https://qiita.com/yuyakato/items/ab38064ca215e8750865]] 2016



* ワードクラウド [#w5a83eca]
-[[ノーコードで、いろんな見た目の「Word Cloud」を描かせる（Google Colab使用） - Qiita>https://qiita.com/hima2b4/items/8958ee0ff2618b9b4cb9]] 2022.8

-[[Twitter可視化システムを作ってみたら日本に笑顔が溢れていた話 - NTT Communications Engineers' Blog>https://engineers.ntt.com/entry/2022/06/20/111744]] 2022.6
-[[ワードクラウドでよろしく ザ・ベスト &#8211; プログラマーやめました>https://www.premium-tsubu-hero.net/wordcloud-yoroshiku-thebest/]] 2022.6
-[[WordCloudを使って父の日プレゼントを探す &#8211; プログラマーやめました>https://www.premium-tsubu-hero.net/wordcloud-chichinohi/]] 2022.5
-[[ワードクラウド>https://okumuralab.org/~okumura/python/wordcloud.html]] 2019


* 文字起こし/音声読み上げ [#b606bf16]
→音声処理関連へ


*機械翻訳 [#o37deb76]
-[[Google Colabで英語の論文を無料で翻訳する方法 - Qiita>https://qiita.com/sakasegawa/items/f50aae7f3acf475411aa]] 2023.2
-[[Amazon Translateに再入門する（2023年01月版） | DevelopersIO>https://dev.classmethod.jp/articles/reintro-managed-ml-translate/]] 2023.1
自然言語処理 の履歴差分(No.69)

自然言語処理の履歴差分(No.69)