#author("2025-10-10T15:26:28+09:00","default:irrp","irrp")
#author("2025-12-04T21:37:57+09:00","default:irrp","irrp")
いわゆるCVタスクのページ

→画像処理関連

→画像生成

→AI/機械学習

→ディープラーニング

#contents


*一般 [#y60953d6]
-[[PythonとOpenAI Batch APIでの長時間動画の非同期解析処理 - RAKSUL TechBlog>https://techblog.raksul.com/entry/2025/12/04/120000]] 2025.12

-[[Gemini 2.5 Proの画像処理はどこまで進化した?GPT-5との物体検出性能も比較 - 神戸のデータ活用塾!KDL Data Blog>https://kdl-di.hatenablog.com/entry/2025/10/10/100000]] 2025.10

-[[【特集】PrintScreenがいつの間にか進化していた。スクショだけじゃないあんなことやこんなこと - PC Watch>https://pc.watch.impress.co.jp/docs/topic/feature/2040675.html]] 2025.8

-[[「Microsoft Lens」アプリ廃止へ 代替は「Microsoft 365 Copilot」推奨 - ITmedia Mobile>https://www.itmedia.co.jp/mobile/articles/2508/09/news039.html]] 2025.8

-[[【初心者向け】なぜAIは画像がわかる?CNN(畳み込みニューラルネットワーク)の大まかな仕組みを解説 #初学者向け - Qiita>https://qiita.com/makimuramakoto/items/05de3122ffc992743d2a]] 2025.7

-[[OpenAIの「o3」はマスターランクのGeoGuessrプレイヤーに勝利できる、偽のEXIFデータを与えられても関係なし - GIGAZINE>https://gigazine.net/news/20250430-o3-beat-geoguessr-master-fake-exif/#google_vignette]] 2025.5

-[[AIは時計が読めない | ギズモード・ジャパン>https://www.gizmodo.jp/2025/03/ai-sucks-at-reading-clocks-jpn.html]] 2025.3

-[[Pythonで作成した物体検出アプリをC++、C#でWindowsネイティブアプリに作り直した話 #ポエム - Qiita>https://qiita.com/calcMCalcm/items/b75addda2974fa76b91a]] 2025.2

-[[Amazon Nova モデルと Bedrock Knowledge Base で動画検索を実現する - Taste of Tech Topics>https://acro-engineer.hatenablog.com/entry/2025/02/05/120000]] 2025.1

-[[生成AIは間違い探しをどれだけ解けるのか?ChatGPT o1 VS Gemini 2.0 Flash|朝日新聞社 メディア研究開発センター>https://note.com/asahi_ictrad/n/nb8d71b29b11c]] 2025.2

-[[アナログメーターやデジタルメーターの値を生成AIで読み取る | DevelopersIO>https://dev.classmethod.jp/articles/read-values-of-analog-and-digital-meters-with-gen-ai/]] 2025.1
--現状では生成AIに未加工のアナログメーター画像は読めなさそう

-[[Googleの「私はロボットではありません」を100%突破するCAPTCHA解きAI登場。もう人間とボットを区別できない?(生成AIクローズアップ) | テクノエッジ TechnoEdge>https://www.techno-edge.net/article/2024/09/24/3708.html]] 2024.9

-[[ハフ変換 (Hough Transform) による直線・円の検出 | CVMLエキスパートガイド>https://cvml-expertguide.net/terms/cv/image-feature-detection/hough-transform/]] 2021
-[[Hough変換と、局所的な傾きを用いたその拡張 #画像処理 - Qiita>https://qiita.com/inoz/items/dbc18a7845e81d050886]] 2022

-[[ヒューマノイドロボットをwebカメラの骨格推定で操作するゲーム。 #JavaScript - Qiita>https://qiita.com/tetsutakamurata76/items/231f5383325ae62734d3]] 2024.9

-[[コラム<「アナログメーター読み取りAI」を開発しました> | 株式会社プライムキャスト>https://www.primecast.co.jp/columns/8ieb_pgnqe]] 2024.8
-[[設備点検支援システム moni-meter | 横浜・東京のソフトウェア・システム開発 | 株式会社ジェイエスピー(JSP)>https://www.jspnet.co.jp/product/moni-meter/?gad_source=1&gclid=EAIaIQobChMIw_TL6OGThQMV_tEWBR1xDA1lEAAYAiAAEgJFivD_BwE]] 2024.8

-[[sports/README.md at main &#183; roboflow/sports>https://github.com/roboflow/sports/blob/main/README.md]] 2024.7

-[[高精度アニメ顔検出|めぐチャンネル>https://note.com/ai_meg/n/n3cbc258dfa3e]] 2924,5

-[[第6章 サンプルアプリケーションの作成>https://manual.atmark-techno.com/armadillo-iot-g4/armadillo-base-os-dev-guide_ja-1.0.0/ch06.html]] 2024.3
--メーターを読むアプリ

-[[【Python】お手軽に顔認証を実装する #Python - Qiita>https://qiita.com/f-paico/items/e27e4eefc8c009ecdeab]] 2024.1
--face-recognition

-[[コンピュータビジョン(CV)の動向 2021 | gihyo.jp>https://gihyo.jp/dev/column/newyear/2021/computer-vision-trends]] 2021

-[[Unity×Teachable Machineで画像分類をやってみた ->https://techceed-inc.com/engineer_blog/10284/]] 2023.10

-[[OpenCVをNPPにした結果→10倍高速に!>https://zenn.dev/turing_motors/articles/14a6ea47794535]] 2023.2
--NPPとはNVIDIA Performance Primitivesの略です

-[[バージョンが多すぎるYOLOについて語りたい - Sansan Tech Blog>https://buildersbox.corp-sansan.com/entry/2024/12/18/000000]] 2024.12
-[[【動画あり】早速YOLOv8を使って自作データセットで物体検出してみた | DevelopersIO>https://dev.classmethod.jp/articles/yolov8-trial-custom-dataset/]] 2023.1

-[[【Detectron2】物体検出/セグメンテーション/骨格検出 Python | みやしんのプログラミングスキル通信>https://miyashinblog.com/detectron2/]] 2022.11

-[[python画像認識による商品分類 - Qiita>https://qiita.com/jamie09/items/7fcf3537fcc6e225e4ae]] 2022.10

-[[【リモートワーク】Web会議で自分の顔を画像に変えるのをmediaPipe+p5jsでやってみた【顔見せNG】 - Qiita>https://qiita.com/suginoko/items/78eaa71468c2f5604721]] 2022.8

-[[Azure Machine LearningのAutoMLで画像分類を試してみた - Qiita>https://qiita.com/tmiyata25/items/4871a30bdad8acf19ae1]] 2022.7

-[[Kapaoで、人物検出と姿勢推定を行う>http://cedro3.com/ai/kapao/]] 2021
-[[PHALPで、人物の3Dモデルをトラッキングする | cedro-blog>http://cedro3.com/ai/phalp/]] 2022.7

-[[2017年に発表された DeepSORT を解説! | DeepSquare>https://deepsquare.jp/2022/07/deep-sort/]] 2022.7
-[[DeepSort : 人物のトラッキングを行う機械学習モデル. ailia… | by Kazuki Kyakuno | axinc | Medium>https://medium.com/axinc/deepsort-%E4%BA%BA%E7%89%A9%E3%81%AE%E3%83%88%E3%83%A9%E3%83%83%E3%82%AD%E3%83%B3%E3%82%B0%E3%82%92%E8%A1%8C%E3%81%86%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92%E3%83%A2%E3%83%87%E3%83%AB-e8cb7410457c]] 2020

-[[現在のトラッキングモデルの基礎ともいえる SORT を解説! | DeepSquare>https://deepsquare.jp/2022/06/sort/]] 2022.6



*Amazon Rekognition [#xef12e4d]
-[[AWS入門ブログリレー2024&#12316;Amazon Rekognition編&#12316; | DevelopersIO>https://dev.classmethod.jp/articles/introduction-2024-amazon-rekognition/]] 2024.4
-[[Amazon Rekognitionをアルティメット完全理解する | DevelopersIO>https://dev.classmethod.jp/articles/reintro-managed-ml-rekognition/]] 2024.3
-[[めちゃくちゃ簡単 Amazon Rekognition - Qiita>https://qiita.com/naka46/items/05624e23edb6341a5e27]] 2019



*マルチモーダルなLLMによる画像認識 [#h0ae4662]
-[[続・GPT-4oで画像解析をやってみた Fine-tuning編 - GMOインターネットグループ グループ研究開発本部>https://recruit.gmo.jp/engineer/jisedai/blog/gpt4o_vision_fine_tuning/]] 2024.10
-[[OpenAIのGPT-4oに「画像でファインチューニングする機能」が追加される、わずか100枚の画像でタスクの性能が向上 - GIGAZINE>https://gigazine.net/news/20241002-gpt-4o-vision-fine-tuning/]] 2024.10

-[[日本語CLIPを使って画像検索を作ったら素晴らしすぎた - きしだのHatena>https://nowokay.hatenablog.com/entry/2024/06/11/055415]] 2024.6
--JavaからPython APIを呼び出す

-[[退屈なことはマルチモーダルLLMにやらせよう(画像解析編) - GMOインターネットグループ グループ研究開発本部>https://recruit.gmo.jp/engineer/jisedai/blog/multimodal_llms_do_the_boring_stuff/]] 2024.4

-[[Google Colab で Claude 3 の Vision を試す|npaka>https://note.com/npaka/n/n972d94427dd7]] 2024.3

-[[マルチモーダル AI の Claude 3 は、日本独自の「こけし」の画像を認識できるか? Bedrock のチャットのプレイグラウンドで確認する - サーバーワークスエンジニアブログ>https://blog.serverworks.co.jp/bedrock_claude3_sonnet]] 

-[[類似画像検索にLLMを利用する。|tdual>https://note.com/tdual/n/n7b645c66ea19]] 2023.8



*OpenAI Vision API [#g04b2fa9]
-[[GPT-4oは画像の座標情報を理解しているのか?|朝日新聞社 メディア研究開発センター>https://note.com/asahi_ictrad/n/n1fed804c0fcf]] 2024.7

-[[OpenAI Vision API の使い方や料金について|ChatGPT研究所>https://chatgpt-lab.com/n/n9322bab6f6f3]] 2023.11
-[[OpenAI GPT-4V の API を使って画像を AI に説明させよう! #Python - Qiita>https://qiita.com/kenji-kondo/items/87e71bf9645338d59ecb]] 2023.11



*face-api.js [#h76418c4]
-[[face-api.jsのリサイズを理解する【技術メモ】【小ネタ】 - Qiita>https://qiita.com/Shinkijigyo_no_Usagi/items/405e42c36afaeac641ae]] 2022.10
-[[face-api.jsの顔検出速度を比較してみた【技術メモ】【小ネタ】 - Qiita>https://qiita.com/Shinkijigyo_no_Usagi/items/137d70dabb046ec9bcd9]] 2022.10
-[[【うわっ...私の表情、硬すぎ...?】face-api.jsで顔検出して感情と年齢を判定する - Qiita>https://qiita.com/ymmt1089/items/4e35a7ba62d38c568cb6]] 2022.10


* OpenCV [#u15b24f2]
-[[[OpenCV] 画像処理で気圧計の値を読み取ってみました | DevelopersIO>https://dev.classmethod.jp/articles/barometer/]] 2024.12

-[[OpenCVで使える画像圧縮フォーマットの比較 #OpenCV - Qiita>https://qiita.com/fukushima1981/items/512c908c5882032b8198]] 2024.12

-[[レシピ動画からサムネイル画像を自動抽出するAIシステムを作りました - every Tech Blog>https://tech.every.tv/entry/2024/06/09]] 2024.6

-[[C# で背景透過な 2 つの画像を合成した 1 枚の画像を生成する - OpenCVSharp、ImageSharp、SkiaSharp を使った作例 : @jsakamoto>https://devadjust.exblog.jp/30007598/]] 2024.3

-[[アナログメーターの画像から針の角度を読み取るやつ作ってみた(OpenCV): EeePCの軌跡>https://arkouji.cocolog-nifty.com/blog/2021/09/post-2c82af.html]] 2024.3

-[[【笑い男事件2024】OpenCVで顔を検出して笑い男にする #Python - Qiita>https://qiita.com/HESORIDER/items/ba87a5fa4d994747e4b7]] 2024.2

-[[OpenCVを用いたエッジ検出 #Python - Qiita>https://qiita.com/kakuteki/items/55c00e33cad63f9e440f]] 2024.1

-[[OpenCV + RetinaFaceで顔をぼかす - Qiita>https://qiita.com/yanagi-m/items/7650345068fef8f33113]] 2023.10

-[[OpenCV + YOLOで車をぼかす - Qiita>https://qiita.com/yanagi-m/items/608b90d48f58a7be4547]] 2023.10

-[[OpenCV の使い方をコードと一緒に解説>https://blog.kikagaku.co.jp/python-opencv]] 2023.8

-[[OpenCVの動画のフレーム取得エラー「error while decoding MB 〇 〇, bytestream 〇」 - Qiita>https://qiita.com/BUU-SAN/items/3076b8df3f88fd9a7785]] 2023.7

-[[【OpenCV】画像の差分を取得するとサンリオ間違い探しが高速クリアできる! - Qiita>https://qiita.com/kagami_t/items/2b4db4e2464439a48fb4]] 2023.6

-[[初めての画像処理&#12316;OpenCVって何ができるの?&#12316; | フューチャー技術ブログ>https://future-architect.github.io/articles/20230424a/]] 2023.4

-[[OpenCV のピクセル形式が BGR である理由 - Qiita>https://qiita.com/yoya/items/bfef7404ded22649a2af]] 2022.12

-[[OpenCVのvideoioモジュールでソースビルドのFFmpegを使う - Qiita>https://qiita.com/dandelion1124/items/4b0b134694abe65ed39f]] 2022.12

-[[Python + OpenCVでらんてくんとキュゥべえの類似点を検出する - Qiita>https://qiita.com/eityamo/items/c53b5669e6718a030f4f]] 2022.12

-[[OpenCVとNumPyでヒストグラムを作成する - Qiita>https://qiita.com/mo256man/items/f5fb06ea07d8a5fd3b11]] 2022.9

-[[OpenCVとYOLOv5を使って動画切り抜きをしてみる - Qiita>https://qiita.com/smiler5617/items/c8a0925373eaa89e2aae]] 2022.9

-[[【機械学習の前処理】OpenCVを使って文字位置を切り出して色調整してみた | DevelopersIO>https://dev.classmethod.jp/articles/opencv-preprocess-for-ml-training/]] 2022.7

-[[Python OpenCVで骨格検出AI OpenPose | みやしんのプログラミングスキル通信>https://miyashinblog.com/openpose/]] 2022.4

-[[【やってみた】OpenCVで動画フレームからパノラマ画像の生成 - 神戸のデータ活用塾!KDL Data Blog>https://kdl-di.hatenablog.com/entry/2022/07/08/113500]] 2022.7

-[[OpenCV.jsをJavaScript/Node.jsで使ってみた | DevelopersIO>https://dev.classmethod.jp/articles/using-opencvjs-with-javascript-and-nodejs/]] 2022.3

-[[[OpenCV] 100行で作るAR - Qiita>https://qiita.com/suo-takefumi/items/231a6f97cd880fe629a5]] 2021.12

-http://opencv.jp/
--[[OpenCVとは>http://ja.wikipedia.org/wiki/OpenCV]]

-[[OpenCVでライブアニメーションから私の愛馬を検出する>https://qiita.com/bianca26neve/items/19085841c9ac6209fe91]] 2021.9

-[[OpenCV(Python)でTemplate Matchingを使用して物体検出をしてみた | DevelopersIO>https://dev.classmethod.jp/articles/search-images-in-an-image-with-opencv-python/]] 2022.3
-[[OpenCVの新しい顔検出を試してみる - Qiita>https://qiita.com/UnaNancyOwen/items/f3db189760037ec680f3]] 2021.12
-[[Pythonで人検知の通知機能プログラムを作成してみる - Qiita>https://qiita.com/smiler5617/items/84c4c811a2d91b976109]] 2021.11
-[[OpenCVを使用して顔検出をする>https://oliversi.com/2019/01/13/python-opencv-face/]] 2019.1
-[[OpenCVで手っ取り早く動体検知してみた - Qiita>https://qiita.com/KMiura95/items/4eed79a7da6b3dafa96d]] 2019


*Vision Transformer/ViT [#m1e85ebf]
→NLPのTransformerについてはTransformer/GPT関連へ

-[[【コード付き】画像用Transformerを利用して衛星画像の分類機械学習モデルを作成する | 宙畑>https://sorabatake.jp/20454/]] 2024.4

-[[CNN vs. ViT - Speaker Deck>https://speakerdeck.com/yushiku/cnn-vs-vit]] 2022.10
--ViTとCNNの勝負は今のところ引き分け

-[[なぜビジョントランスフォーマーはこれほど高性能なのか。 | AI-SCHOLAR | AI:(人工知能)論文・技術情報メディア>https://ai-scholar.tech/articles/transformer/transformer-vs-cnn]] 2022.5

-[[著者陣の視点からVision Transformer入門の執筆の背景と書評を書きます - Seitaro Shinagawaの雑記帳>https://snowman-88888.hatenablog.com/entry/2022/09/17/090000]] 2022.9

-[[Hugging FaceとPyTorch LightningでImageCaptioningモデルを作ってみました! - CCCマーケティング TECH Labの Tech Blog>https://techblog.cccmk.co.jp/entry/2022/08/23/165231]] 2022.8

-[[近年のHierarchical Vision Transformer>https://www.slideshare.net/ren4yu/hierarchical-vision-transformer]] 2022.1

-[[【PyTorch】Vision Transformer (ViT) を自作しながら解説する - Qiita>https://qiita.com/zisui-sukitarou/items/d990a9630ff2c7f4abf2]] 2022.8
-[[近年のHierarchical Vision Transformer>https://www.slideshare.net/ren4yu/hierarchical-vision-transformer]] 2022.1

-[[Transformer メタサーベイ>https://www.slideshare.net/cvpaperchallenge/transformer-247407256]] 2021

-[[画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! - Qiita>https://qiita.com/omiita/items/0049ade809c4817670d7]] 2020



*OCR [#k5b7a87c]
-[[AWSで手書き日本語OCR #bedrock - Qiita>https://qiita.com/IEFBR13/items/4804caf6c87903b823fa]] 2025.8

-[[ocrmypdf/OCRmyPDF: OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched>https://github.com/ocrmypdf/OCRmyPDF]] 2025.4

-[[国立国会図書館のOCRライブラリが凄くよかった件(Windows向け) #Docker - Qiita>https://qiita.com/yanosen_jp/items/9d3852c29c80dbb952f2]] 2025.3
--[[ndl-lab/ndlocr_cli: NDLOCRアプリケーションのリポジトリ(ソースコードを含む)>https://github.com/ndl-lab/ndlocr_cli]] 2025.3

-[[AI-OCRを自作しました(2025.2) #CNN - Qiita>https://qiita.com/jupiter-san/items/d7b3e2a70c8624c43c45]] 2025.3

-[[日本語に特化したAI OCR「YomiToku」の紹介 #Python - Qiita>https://qiita.com/kanzoo/items/9d382fe4ec991a7eacd2]] 2025.2

-[[Claude.aiをつかって画像内の文字を正確に抽出する方法を見つけました #claude - Qiita>https://qiita.com/moritalous/items/f5afd052992afa40d524]] 2025.2

-[[LLM(GeminiやClaude)のPDFスキャン精度や料金の比較(2024年版)>https://zenn.dev/zozotech/articles/e5f537d52eeae2#claude]] 2024.12

-[[ndl-lab/ndlkotenocr-lite: NDL古典籍OCR-Liteのアプリケーションのリポジトリ(ソースコードを含む)>https://github.com/ndl-lab/ndlkotenocr-lite]] 2024.11

-[[日本語に特化したOCR、文書画像解析Pythonパッケージ「YomiToku」を公開しました|Kotaro.Kinoshita>https://note.com/kotaro_kinoshita/n/n70df91659afc]] 2024.11

-[[工数6割削減! 生成AIとOCRを組み合わせ、店舗毎に形式が異なるレストランメニューを読み取らせてみた - Tabelog Tech Blog>https://tech-blog.tabelog.com/entry/ai-menu-ocr]] 2024.11

-[[OCRはもう不要?視覚的特徴とテキストを高精度に捉える!次世代マルチモーダルAI『MPLUG-DOCOWL2』登場! #Python - Qiita>https://qiita.com/ryosuke_ohori/items/34581692852b8b406139]] 2024.11

-[[画像grepツールを作ってみた #Python - Qiita>https://qiita.com/UTA_v005/items/d8bc4f84ef25c55fe0f3]] 2024.6

-[[GPTが人知れず既存の名刺管理アプリを抹殺していた話 #Python - Qiita>https://qiita.com/watanabe-tsubasa/items/12dc7ba9a6de55e8afd9]] 2024.5

-[[OpenAIのGPT-4oを日本語OCRとして使ってみる>https://zenn.dev/tomioka/articles/74adf0c6bc8bc6]] 2024.5

-[[【Python】簡単OCR #Python - Qiita>https://qiita.com/masa1124/items/198ceea22becdf311f31]] 2023.10

-[[GitHub - kha-white/manga-ocr: Optical character recognition for Japanese text, with the main focus being Japanese manga>https://github.com/kha-white/manga-ocr]] 2023.6

-[[画像内の文字を抽出してみた件について - Qiita>https://qiita.com/r-okada/items/eb08c189c04a05787b5c]] 2022.11
--PaddleOCRやEasyOCRを使ってテキスト抽出

-[[【やってみた】EasyOCRで文字認識! - 神戸のデータ活用塾!KDL Data Blog>https://kdl-di.hatenablog.com/entry/2022/05/13/100000]] 2022.5

-[[【Python】OpenCVとpyocrで画像から文字を認識してみる - Qiita>https://qiita.com/pon187/items/f9a70fd52cc91ddb4ed7]] 2022.3

-[[【手書き文字認識】Azure-AI-OCRの進化がすごい! - Qiita>https://qiita.com/org-yuta-tanabe/items/bdb11e0fccc4efc488a0]] 2022.2

-[[SmartOCR紹介>http://www.forest.impress.co.jp/article/2005/11/29/smartocrlite.html]]
--独自エンジンで画像から文字を認識し、Word/ExcelファイルやRTF/HTML/CSV/PDF形式で保存できる日本語OCRソフト「SmartOCR Lite Edition」v1.0.3が、17日に公開された。Windows XP/2000に対応するフリーソフトで、現在作者のホームページからダウンロードできる。

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS