音声処理関連の履歴(No.1) - 技術情報Wiki

[ トップ ] [ 新規 | 一覧 | 検索 | 最終更新 | ヘルプ | ログイン ] [ Twitter ]

→画像処理関連

→動画関連

一般
読み上げ／音声合成／音声言語処理／音声認識／音声分離
- Whisper
Sound/Wav
OSC
MIDI
ツール

一般†

【Python】pydub使ったら音声データの解析がめっちゃ簡単だった - Qiita 2022.11

【無料のAI作曲ツール】Musikaのインストール | ジコログ 2022.10

音楽に関連する計算式まとめ - Qiita 2022.1

信号処理とか音楽の分析に大活躍しそうなlibrosa 2021.9
- python用のライブラリです

FLACファイルとは？FLACをMP3/OGG/AAC/WAVへ変換するには？ 2015.6
- https://xiph.org/flac/index.html

読み上げ／音声合成／音声言語処理／音声認識／音声分離†

文章から音楽を生成するRiffusionのインストール | ジコログ 2022.12

【藤本健のDigital Audio Laboratory】AIでボーカル・ドラムを取り出す、無料音声分離「Demucs」を試す-AV Watch 2022.12

テキストから音楽を作成するMubert-Text-to-Musicのインストール | ジコログ 2022.10

GitHub - MubertAI/Mubert-Text-to-Music: A simple notebook demonstrating prompt-based music generation via Mubert API 2022.10

AudioGen: Textually Guided Audio Generation 2022.9

AI音声のAmazon Pollyを使ってみた! | DevelopersIO 2022.9

【Wav2LipによるAI動画編集】動画の人物を無理やりしゃべらせる | ジコログ 2022.9

【Pythonで音声合成（テキスト読み上げ）】gTTSのインストール | ジコログ 2022.9

AIで音楽をボーカル・ドラム・ベース・その他に分離できる「Demucs」【レビュー】 - 窓の杜 2022.9

音声読み上げアプリ作成 PySimpleGUI, gTTS, Python | みやしんのプログラミングスキル通信 2022.8

How To Transcribe Your Podcast with Python - DEV Community 2022.8

Python の SpeechRecognizer を用いて音声認識（SpeechRecognizer，Python を使用）（Windows 上） 2022.8

Creating Your Own Voice Assistant in Python - DEV Community 2022.7

ZOOMの日本語音声を無料で英語に翻訳した字幕をつける。 - Qiita 2022.5
- AzureのSpeech translationの無料枠を使用

Windows10,WSL2でESPNetのVITS学習レシピを実行する【音声合成】 - Qiita 2022.3
パソコンにしゃべらせてみよう
AquesTalk
- Softalkなどで使われているテキスト読み上げ機能のライブラリ

Whisper†

GitHub - ggerganov/whisper.cpp: Port of OpenAI's Whisper model in C/C++ 2022.12

PCで再生中の音声をWhisperでリアルタイムに文字起こしする - TadaoYamaokaの開発日記 2022.10

音声認識モデルwhisperの全モデル文字起こし比較 - 毎日がEveryday、日々 Day by Day 2022

OpenAIリリースのWhisperをCPUだけで動かすために色々試した話 | DevelopersIO 10

【Whisper】Webアプリ（GUIデモ）のインストール | ジコログ 2022.10

高精度な文字起こしAIでYoutubeの字幕を作ってみた - ニートの言葉 2022.9

【Python】AI音声認識Whisperを使ったSRT字幕ファイルの自動作成 | ジコログ 2022.9

無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ - GIGAZINE 2022.9

OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO 2022.9

ほぼ完璧な文字起こしができるAI音声認識Whisperのインストール | ジコログ 2022.9

Sound/Wav†

事業撤退するので、Apple MusicのクローンアプリをOSSにします - Qiita 2022.7
Sound recording and encoding in MP3
WAVファイルにリアルタイムでエフェクトをかける
- Ｃ言語によるmmio系処理による

OSC†

OpenSound Control - Wikipedia 2022.2
- OpenSound Control（OSC）とは、電子楽器（特にシンセサイザー）やコンピュータなどの機器において音楽演奏データをネットワーク経由でリアルタイムに共有するための通信プロトコルである。カリフォルニア大学バークレー校にある CNMAT（The Center for New Music and Audio Technologies）が開発した。
- OSC はMIDIの代替となることを意図して設計されている。MIDIは1982年に実装されたもので、最近のマルチメディア用途には適していない部分が多い。通信プロトコルであるため、OSCによって、楽器やMIDIコントローラや各種マルチメディア機器が屋内のネットワーク（TCP/IP、イーサネット）やインターネットを経由して通信することが可能となる。OSCはブロードバンド・ネットワークの通信速度を最大限に活かしてデータ転送を行うため、31.250[kbps]と言う規格上の速度上限があったMIDIでは不可能な新たな利用方法が可能となっている。また、転送データの柔軟性も増しており、より高度なレベルでの通信が可能である。

TouchDesigner×Pythonで軽率にOSC通信する方法を初心者向けに説明する - Qiita 2021

MIDI†

ツール†

最強コード解析ツール「chordify」の使い方 2017
- YouTubeにアップロードされている楽曲コードを自動で分析

Online tone generator 2021.8

Windowsユーザにオススメの万能仮想ミキサー「VoiceMeeter Banana」が凄い 2020.6
- https://vb-audio.com/Cable/index.htm

Eusing mp3 cutter

ギター練習用音楽再生プレーヤ
- 主に楽器の練習用に、音楽ファイルの再生速度を遅くしたり音程を変えたりして再生するソフト

読み上げテキスト

青空ろーどく
- 青空文庫の読み上げ

http://www35.atwiki.jp/softalk/
- Softalk テキスト読み上げソフト（ゆっくりしていってね！の声とも言われる）

プロ流CDリッピング

http://www.mediamonkey.com/
- mp3のタグ整理機能

iTunesは今すぐ捨てろ！音楽プレイヤの決定版登場
- http://teenspirit.artificialspirit.com/

手持ちの曲の歌詞を全自動で取ってきてくれるCassini
http://www.crintsoft.com/minilyrics.htm
MP3ファイルをロスレス編集することができるフリーソフト「mp3DirectCut」
Audacity
Adobe Soundbooth
Super C
- あらゆるマルチメディアファイルのコンバート
- ストリームの保存も可能
KKKKK.Net 音加工ツールがある