#author("2025-10-10T15:26:28+09:00","default:irrp","irrp") #author("2025-12-04T21:37:57+09:00","default:irrp","irrp") いわゆるCVタスクのページ →画像処理関連 →画像生成 →AI/機械学習 →ディープラーニング #contents *一般 [#y60953d6] -[[PythonとOpenAI Batch APIでの長時間動画の非同期解析処理 - RAKSUL TechBlog>https://techblog.raksul.com/entry/2025/12/04/120000]] 2025.12 -[[Gemini 2.5 Proの画像処理はどこまで進化した?GPT-5との物体検出性能も比較 - 神戸のデータ活用塾!KDL Data Blog>https://kdl-di.hatenablog.com/entry/2025/10/10/100000]] 2025.10 -[[【特集】PrintScreenがいつの間にか進化していた。スクショだけじゃないあんなことやこんなこと - PC Watch>https://pc.watch.impress.co.jp/docs/topic/feature/2040675.html]] 2025.8 -[[「Microsoft Lens」アプリ廃止へ 代替は「Microsoft 365 Copilot」推奨 - ITmedia Mobile>https://www.itmedia.co.jp/mobile/articles/2508/09/news039.html]] 2025.8 -[[【初心者向け】なぜAIは画像がわかる?CNN(畳み込みニューラルネットワーク)の大まかな仕組みを解説 #初学者向け - Qiita>https://qiita.com/makimuramakoto/items/05de3122ffc992743d2a]] 2025.7 -[[OpenAIの「o3」はマスターランクのGeoGuessrプレイヤーに勝利できる、偽のEXIFデータを与えられても関係なし - GIGAZINE>https://gigazine.net/news/20250430-o3-beat-geoguessr-master-fake-exif/#google_vignette]] 2025.5 -[[AIは時計が読めない | ギズモード・ジャパン>https://www.gizmodo.jp/2025/03/ai-sucks-at-reading-clocks-jpn.html]] 2025.3 -[[Pythonで作成した物体検出アプリをC++、C#でWindowsネイティブアプリに作り直した話 #ポエム - Qiita>https://qiita.com/calcMCalcm/items/b75addda2974fa76b91a]] 2025.2 -[[Amazon Nova モデルと Bedrock Knowledge Base で動画検索を実現する - Taste of Tech Topics>https://acro-engineer.hatenablog.com/entry/2025/02/05/120000]] 2025.1 -[[生成AIは間違い探しをどれだけ解けるのか?ChatGPT o1 VS Gemini 2.0 Flash|朝日新聞社 メディア研究開発センター>https://note.com/asahi_ictrad/n/nb8d71b29b11c]] 2025.2 -[[アナログメーターやデジタルメーターの値を生成AIで読み取る | DevelopersIO>https://dev.classmethod.jp/articles/read-values-of-analog-and-digital-meters-with-gen-ai/]] 2025.1 --現状では生成AIに未加工のアナログメーター画像は読めなさそう -[[Googleの「私はロボットではありません」を100%突破するCAPTCHA解きAI登場。もう人間とボットを区別できない?(生成AIクローズアップ) | テクノエッジ TechnoEdge>https://www.techno-edge.net/article/2024/09/24/3708.html]] 2024.9 -[[ハフ変換 (Hough Transform) による直線・円の検出 | CVMLエキスパートガイド>https://cvml-expertguide.net/terms/cv/image-feature-detection/hough-transform/]] 2021 -[[Hough変換と、局所的な傾きを用いたその拡張 #画像処理 - Qiita>https://qiita.com/inoz/items/dbc18a7845e81d050886]] 2022 -[[ヒューマノイドロボットをwebカメラの骨格推定で操作するゲーム。 #JavaScript - Qiita>https://qiita.com/tetsutakamurata76/items/231f5383325ae62734d3]] 2024.9 -[[コラム<「アナログメーター読み取りAI」を開発しました> | 株式会社プライムキャスト>https://www.primecast.co.jp/columns/8ieb_pgnqe]] 2024.8 -[[設備点検支援システム moni-meter | 横浜・東京のソフトウェア・システム開発 | 株式会社ジェイエスピー(JSP)>https://www.jspnet.co.jp/product/moni-meter/?gad_source=1&gclid=EAIaIQobChMIw_TL6OGThQMV_tEWBR1xDA1lEAAYAiAAEgJFivD_BwE]] 2024.8 -[[sports/README.md at main · roboflow/sports>https://github.com/roboflow/sports/blob/main/README.md]] 2024.7 -[[高精度アニメ顔検出|めぐチャンネル>https://note.com/ai_meg/n/n3cbc258dfa3e]] 2924,5 -[[第6章 サンプルアプリケーションの作成>https://manual.atmark-techno.com/armadillo-iot-g4/armadillo-base-os-dev-guide_ja-1.0.0/ch06.html]] 2024.3 --メーターを読むアプリ -[[【Python】お手軽に顔認証を実装する #Python - Qiita>https://qiita.com/f-paico/items/e27e4eefc8c009ecdeab]] 2024.1 --face-recognition -[[コンピュータビジョン(CV)の動向 2021 | gihyo.jp>https://gihyo.jp/dev/column/newyear/2021/computer-vision-trends]] 2021 -[[Unity×Teachable Machineで画像分類をやってみた ->https://techceed-inc.com/engineer_blog/10284/]] 2023.10 -[[OpenCVをNPPにした結果→10倍高速に!>https://zenn.dev/turing_motors/articles/14a6ea47794535]] 2023.2 --NPPとはNVIDIA Performance Primitivesの略です -[[バージョンが多すぎるYOLOについて語りたい - Sansan Tech Blog>https://buildersbox.corp-sansan.com/entry/2024/12/18/000000]] 2024.12 -[[【動画あり】早速YOLOv8を使って自作データセットで物体検出してみた | DevelopersIO>https://dev.classmethod.jp/articles/yolov8-trial-custom-dataset/]] 2023.1 -[[【Detectron2】物体検出/セグメンテーション/骨格検出 Python | みやしんのプログラミングスキル通信>https://miyashinblog.com/detectron2/]] 2022.11 -[[python画像認識による商品分類 - Qiita>https://qiita.com/jamie09/items/7fcf3537fcc6e225e4ae]] 2022.10 -[[【リモートワーク】Web会議で自分の顔を画像に変えるのをmediaPipe+p5jsでやってみた【顔見せNG】 - Qiita>https://qiita.com/suginoko/items/78eaa71468c2f5604721]] 2022.8 -[[Azure Machine LearningのAutoMLで画像分類を試してみた - Qiita>https://qiita.com/tmiyata25/items/4871a30bdad8acf19ae1]] 2022.7 -[[Kapaoで、人物検出と姿勢推定を行う>http://cedro3.com/ai/kapao/]] 2021 -[[PHALPで、人物の3Dモデルをトラッキングする | cedro-blog>http://cedro3.com/ai/phalp/]] 2022.7 -[[2017年に発表された DeepSORT を解説! | DeepSquare>https://deepsquare.jp/2022/07/deep-sort/]] 2022.7 -[[DeepSort : 人物のトラッキングを行う機械学習モデル. ailia… | by Kazuki Kyakuno | axinc | Medium>https://medium.com/axinc/deepsort-%E4%BA%BA%E7%89%A9%E3%81%AE%E3%83%88%E3%83%A9%E3%83%83%E3%82%AD%E3%83%B3%E3%82%B0%E3%82%92%E8%A1%8C%E3%81%86%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92%E3%83%A2%E3%83%87%E3%83%AB-e8cb7410457c]] 2020 -[[現在のトラッキングモデルの基礎ともいえる SORT を解説! | DeepSquare>https://deepsquare.jp/2022/06/sort/]] 2022.6 *Amazon Rekognition [#xef12e4d] -[[AWS入門ブログリレー2024〜Amazon Rekognition編〜 | DevelopersIO>https://dev.classmethod.jp/articles/introduction-2024-amazon-rekognition/]] 2024.4 -[[Amazon Rekognitionをアルティメット完全理解する | DevelopersIO>https://dev.classmethod.jp/articles/reintro-managed-ml-rekognition/]] 2024.3 -[[めちゃくちゃ簡単 Amazon Rekognition - Qiita>https://qiita.com/naka46/items/05624e23edb6341a5e27]] 2019 *マルチモーダルなLLMによる画像認識 [#h0ae4662] -[[続・GPT-4oで画像解析をやってみた Fine-tuning編 - GMOインターネットグループ グループ研究開発本部>https://recruit.gmo.jp/engineer/jisedai/blog/gpt4o_vision_fine_tuning/]] 2024.10 -[[OpenAIのGPT-4oに「画像でファインチューニングする機能」が追加される、わずか100枚の画像でタスクの性能が向上 - GIGAZINE>https://gigazine.net/news/20241002-gpt-4o-vision-fine-tuning/]] 2024.10 -[[日本語CLIPを使って画像検索を作ったら素晴らしすぎた - きしだのHatena>https://nowokay.hatenablog.com/entry/2024/06/11/055415]] 2024.6 --JavaからPython APIを呼び出す -[[退屈なことはマルチモーダルLLMにやらせよう(画像解析編) - GMOインターネットグループ グループ研究開発本部>https://recruit.gmo.jp/engineer/jisedai/blog/multimodal_llms_do_the_boring_stuff/]] 2024.4 -[[Google Colab で Claude 3 の Vision を試す|npaka>https://note.com/npaka/n/n972d94427dd7]] 2024.3 -[[マルチモーダル AI の Claude 3 は、日本独自の「こけし」の画像を認識できるか? Bedrock のチャットのプレイグラウンドで確認する - サーバーワークスエンジニアブログ>https://blog.serverworks.co.jp/bedrock_claude3_sonnet]] -[[類似画像検索にLLMを利用する。|tdual>https://note.com/tdual/n/n7b645c66ea19]] 2023.8 *OpenAI Vision API [#g04b2fa9] -[[GPT-4oは画像の座標情報を理解しているのか?|朝日新聞社 メディア研究開発センター>https://note.com/asahi_ictrad/n/n1fed804c0fcf]] 2024.7 -[[OpenAI Vision API の使い方や料金について|ChatGPT研究所>https://chatgpt-lab.com/n/n9322bab6f6f3]] 2023.11 -[[OpenAI GPT-4V の API を使って画像を AI に説明させよう! #Python - Qiita>https://qiita.com/kenji-kondo/items/87e71bf9645338d59ecb]] 2023.11 *face-api.js [#h76418c4] -[[face-api.jsのリサイズを理解する【技術メモ】【小ネタ】 - Qiita>https://qiita.com/Shinkijigyo_no_Usagi/items/405e42c36afaeac641ae]] 2022.10 -[[face-api.jsの顔検出速度を比較してみた【技術メモ】【小ネタ】 - Qiita>https://qiita.com/Shinkijigyo_no_Usagi/items/137d70dabb046ec9bcd9]] 2022.10 -[[【うわっ...私の表情、硬すぎ...?】face-api.jsで顔検出して感情と年齢を判定する - Qiita>https://qiita.com/ymmt1089/items/4e35a7ba62d38c568cb6]] 2022.10 * OpenCV [#u15b24f2] -[[[OpenCV] 画像処理で気圧計の値を読み取ってみました | DevelopersIO>https://dev.classmethod.jp/articles/barometer/]] 2024.12 -[[OpenCVで使える画像圧縮フォーマットの比較 #OpenCV - Qiita>https://qiita.com/fukushima1981/items/512c908c5882032b8198]] 2024.12 -[[レシピ動画からサムネイル画像を自動抽出するAIシステムを作りました - every Tech Blog>https://tech.every.tv/entry/2024/06/09]] 2024.6 -[[C# で背景透過な 2 つの画像を合成した 1 枚の画像を生成する - OpenCVSharp、ImageSharp、SkiaSharp を使った作例 : @jsakamoto>https://devadjust.exblog.jp/30007598/]] 2024.3 -[[アナログメーターの画像から針の角度を読み取るやつ作ってみた(OpenCV): EeePCの軌跡>https://arkouji.cocolog-nifty.com/blog/2021/09/post-2c82af.html]] 2024.3 -[[【笑い男事件2024】OpenCVで顔を検出して笑い男にする #Python - Qiita>https://qiita.com/HESORIDER/items/ba87a5fa4d994747e4b7]] 2024.2 -[[OpenCVを用いたエッジ検出 #Python - Qiita>https://qiita.com/kakuteki/items/55c00e33cad63f9e440f]] 2024.1 -[[OpenCV + RetinaFaceで顔をぼかす - Qiita>https://qiita.com/yanagi-m/items/7650345068fef8f33113]] 2023.10 -[[OpenCV + YOLOで車をぼかす - Qiita>https://qiita.com/yanagi-m/items/608b90d48f58a7be4547]] 2023.10 -[[OpenCV の使い方をコードと一緒に解説>https://blog.kikagaku.co.jp/python-opencv]] 2023.8 -[[OpenCVの動画のフレーム取得エラー「error while decoding MB 〇 〇, bytestream 〇」 - Qiita>https://qiita.com/BUU-SAN/items/3076b8df3f88fd9a7785]] 2023.7 -[[【OpenCV】画像の差分を取得するとサンリオ間違い探しが高速クリアできる! - Qiita>https://qiita.com/kagami_t/items/2b4db4e2464439a48fb4]] 2023.6 -[[初めての画像処理〜OpenCVって何ができるの?〜 | フューチャー技術ブログ>https://future-architect.github.io/articles/20230424a/]] 2023.4 -[[OpenCV のピクセル形式が BGR である理由 - Qiita>https://qiita.com/yoya/items/bfef7404ded22649a2af]] 2022.12 -[[OpenCVのvideoioモジュールでソースビルドのFFmpegを使う - Qiita>https://qiita.com/dandelion1124/items/4b0b134694abe65ed39f]] 2022.12 -[[Python + OpenCVでらんてくんとキュゥべえの類似点を検出する - Qiita>https://qiita.com/eityamo/items/c53b5669e6718a030f4f]] 2022.12 -[[OpenCVとNumPyでヒストグラムを作成する - Qiita>https://qiita.com/mo256man/items/f5fb06ea07d8a5fd3b11]] 2022.9 -[[OpenCVとYOLOv5を使って動画切り抜きをしてみる - Qiita>https://qiita.com/smiler5617/items/c8a0925373eaa89e2aae]] 2022.9 -[[【機械学習の前処理】OpenCVを使って文字位置を切り出して色調整してみた | DevelopersIO>https://dev.classmethod.jp/articles/opencv-preprocess-for-ml-training/]] 2022.7 -[[Python OpenCVで骨格検出AI OpenPose | みやしんのプログラミングスキル通信>https://miyashinblog.com/openpose/]] 2022.4 -[[【やってみた】OpenCVで動画フレームからパノラマ画像の生成 - 神戸のデータ活用塾!KDL Data Blog>https://kdl-di.hatenablog.com/entry/2022/07/08/113500]] 2022.7 -[[OpenCV.jsをJavaScript/Node.jsで使ってみた | DevelopersIO>https://dev.classmethod.jp/articles/using-opencvjs-with-javascript-and-nodejs/]] 2022.3 -[[[OpenCV] 100行で作るAR - Qiita>https://qiita.com/suo-takefumi/items/231a6f97cd880fe629a5]] 2021.12 -http://opencv.jp/ --[[OpenCVとは>http://ja.wikipedia.org/wiki/OpenCV]] -[[OpenCVでライブアニメーションから私の愛馬を検出する>https://qiita.com/bianca26neve/items/19085841c9ac6209fe91]] 2021.9 -[[OpenCV(Python)でTemplate Matchingを使用して物体検出をしてみた | DevelopersIO>https://dev.classmethod.jp/articles/search-images-in-an-image-with-opencv-python/]] 2022.3 -[[OpenCVの新しい顔検出を試してみる - Qiita>https://qiita.com/UnaNancyOwen/items/f3db189760037ec680f3]] 2021.12 -[[Pythonで人検知の通知機能プログラムを作成してみる - Qiita>https://qiita.com/smiler5617/items/84c4c811a2d91b976109]] 2021.11 -[[OpenCVを使用して顔検出をする>https://oliversi.com/2019/01/13/python-opencv-face/]] 2019.1 -[[OpenCVで手っ取り早く動体検知してみた - Qiita>https://qiita.com/KMiura95/items/4eed79a7da6b3dafa96d]] 2019 *Vision Transformer/ViT [#m1e85ebf] →NLPのTransformerについてはTransformer/GPT関連へ -[[【コード付き】画像用Transformerを利用して衛星画像の分類機械学習モデルを作成する | 宙畑>https://sorabatake.jp/20454/]] 2024.4 -[[CNN vs. ViT - Speaker Deck>https://speakerdeck.com/yushiku/cnn-vs-vit]] 2022.10 --ViTとCNNの勝負は今のところ引き分け -[[なぜビジョントランスフォーマーはこれほど高性能なのか。 | AI-SCHOLAR | AI:(人工知能)論文・技術情報メディア>https://ai-scholar.tech/articles/transformer/transformer-vs-cnn]] 2022.5 -[[著者陣の視点からVision Transformer入門の執筆の背景と書評を書きます - Seitaro Shinagawaの雑記帳>https://snowman-88888.hatenablog.com/entry/2022/09/17/090000]] 2022.9 -[[Hugging FaceとPyTorch LightningでImageCaptioningモデルを作ってみました! - CCCマーケティング TECH Labの Tech Blog>https://techblog.cccmk.co.jp/entry/2022/08/23/165231]] 2022.8 -[[近年のHierarchical Vision Transformer>https://www.slideshare.net/ren4yu/hierarchical-vision-transformer]] 2022.1 -[[【PyTorch】Vision Transformer (ViT) を自作しながら解説する - Qiita>https://qiita.com/zisui-sukitarou/items/d990a9630ff2c7f4abf2]] 2022.8 -[[近年のHierarchical Vision Transformer>https://www.slideshare.net/ren4yu/hierarchical-vision-transformer]] 2022.1 -[[Transformer メタサーベイ>https://www.slideshare.net/cvpaperchallenge/transformer-247407256]] 2021 -[[画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! - Qiita>https://qiita.com/omiita/items/0049ade809c4817670d7]] 2020 *OCR [#k5b7a87c] -[[AWSで手書き日本語OCR #bedrock - Qiita>https://qiita.com/IEFBR13/items/4804caf6c87903b823fa]] 2025.8 -[[ocrmypdf/OCRmyPDF: OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched>https://github.com/ocrmypdf/OCRmyPDF]] 2025.4 -[[国立国会図書館のOCRライブラリが凄くよかった件(Windows向け) #Docker - Qiita>https://qiita.com/yanosen_jp/items/9d3852c29c80dbb952f2]] 2025.3 --[[ndl-lab/ndlocr_cli: NDLOCRアプリケーションのリポジトリ(ソースコードを含む)>https://github.com/ndl-lab/ndlocr_cli]] 2025.3 -[[AI-OCRを自作しました(2025.2) #CNN - Qiita>https://qiita.com/jupiter-san/items/d7b3e2a70c8624c43c45]] 2025.3 -[[日本語に特化したAI OCR「YomiToku」の紹介 #Python - Qiita>https://qiita.com/kanzoo/items/9d382fe4ec991a7eacd2]] 2025.2 -[[Claude.aiをつかって画像内の文字を正確に抽出する方法を見つけました #claude - Qiita>https://qiita.com/moritalous/items/f5afd052992afa40d524]] 2025.2 -[[LLM(GeminiやClaude)のPDFスキャン精度や料金の比較(2024年版)>https://zenn.dev/zozotech/articles/e5f537d52eeae2#claude]] 2024.12 -[[ndl-lab/ndlkotenocr-lite: NDL古典籍OCR-Liteのアプリケーションのリポジトリ(ソースコードを含む)>https://github.com/ndl-lab/ndlkotenocr-lite]] 2024.11 -[[日本語に特化したOCR、文書画像解析Pythonパッケージ「YomiToku」を公開しました|Kotaro.Kinoshita>https://note.com/kotaro_kinoshita/n/n70df91659afc]] 2024.11 -[[工数6割削減! 生成AIとOCRを組み合わせ、店舗毎に形式が異なるレストランメニューを読み取らせてみた - Tabelog Tech Blog>https://tech-blog.tabelog.com/entry/ai-menu-ocr]] 2024.11 -[[OCRはもう不要?視覚的特徴とテキストを高精度に捉える!次世代マルチモーダルAI『MPLUG-DOCOWL2』登場! #Python - Qiita>https://qiita.com/ryosuke_ohori/items/34581692852b8b406139]] 2024.11 -[[画像grepツールを作ってみた #Python - Qiita>https://qiita.com/UTA_v005/items/d8bc4f84ef25c55fe0f3]] 2024.6 -[[GPTが人知れず既存の名刺管理アプリを抹殺していた話 #Python - Qiita>https://qiita.com/watanabe-tsubasa/items/12dc7ba9a6de55e8afd9]] 2024.5 -[[OpenAIのGPT-4oを日本語OCRとして使ってみる>https://zenn.dev/tomioka/articles/74adf0c6bc8bc6]] 2024.5 -[[【Python】簡単OCR #Python - Qiita>https://qiita.com/masa1124/items/198ceea22becdf311f31]] 2023.10 -[[GitHub - kha-white/manga-ocr: Optical character recognition for Japanese text, with the main focus being Japanese manga>https://github.com/kha-white/manga-ocr]] 2023.6 -[[画像内の文字を抽出してみた件について - Qiita>https://qiita.com/r-okada/items/eb08c189c04a05787b5c]] 2022.11 --PaddleOCRやEasyOCRを使ってテキスト抽出 -[[【やってみた】EasyOCRで文字認識! - 神戸のデータ活用塾!KDL Data Blog>https://kdl-di.hatenablog.com/entry/2022/05/13/100000]] 2022.5 -[[【Python】OpenCVとpyocrで画像から文字を認識してみる - Qiita>https://qiita.com/pon187/items/f9a70fd52cc91ddb4ed7]] 2022.3 -[[【手書き文字認識】Azure-AI-OCRの進化がすごい! - Qiita>https://qiita.com/org-yuta-tanabe/items/bdb11e0fccc4efc488a0]] 2022.2 -[[SmartOCR紹介>http://www.forest.impress.co.jp/article/2005/11/29/smartocrlite.html]] --独自エンジンで画像から文字を認識し、Word/ExcelファイルやRTF/HTML/CSV/PDF形式で保存できる日本語OCRソフト「SmartOCR Lite Edition」v1.0.3が、17日に公開された。Windows XP/2000に対応するフリーソフトで、現在作者のホームページからダウンロードできる。