Scribble at 2026-05-24 18:13:52 Last modified: 2026-05-25 09:28:21

添付画像

Training and inference code for Irodori-TTS, a Flow Matching-based Text-to-Speech model. The architecture and training design largely follow Echo-TTS, using DACVAE continuous latents as the generation target.

Irodori-TTS

日本の研究者がリリースした Irodori-TTS というシステムは、喋る音声の合成システムとしてリリースされたのだが、音源としての声をプロンプトと絵文字だけで指定できるという手軽さが話題となっている。試しに使ってみると、テキストの解析と会話音声への変換は、かなり高い品質を保っている。また、プロンプトだけで変えられる音源としての声も、色々な声が出せるので、技術的に到達できている現状を知って、しかもそれをフリーで利用できるという状況を知るには絶好のツールだと思う。

ただ、やや遠回しな言い方をしたことで分かるかもしれないが、いま僕が社内研修用のポッドキャストを制作する素材として利用している NotebookLM の音声概要を置き換えられるかというと、それは残念ながら無理だと言わざるをえない。入力した文章の読み間違いが頻繁に起きるし、音源としてプロンプトで声を指定しても、読み上げてもらうテキストの長さによって声の質が変わってしまうという大きな問題があるからだ。

[追記:2026-05-25] 既に別の生成 AI システムをローカル・コンピュータに導入している環境では、Irodori-TTS のインストールに問題が生じることもある。僕の場合はGPU版の PyTorch をインストールしたりシステムに認識させることに何度か失敗したというケースだった。既に Forge Neo を入れていて、CUDA 13.2 を入れているのだが、Irodori-TTS は CUDA 12.8 に対応する PyTorch でしか動かないので、

# uv sync

あるいは

# uv sync --extra cu128

というコマンドではCPU版の PyTorch (2.10.0+cpu) しかインストールされなくなるのだ。このとき、対策として Irodori-TTS をインストールしたディレクトリにある /pyproject.toml の "[tool.uv.sources]" というディレクティブで "pytorch-cu128" のインデックスだけを参照するように設定することも一つの手だが、これではだめだった。他に、最初にインストールした時に作成された "/uv.lock" というロック・ファイルを削除する必要があるし、/.venv を再構築するために手動でフォルダごと削除して再インストールするし、他にも処理系そのものを、

# .\.venv\Scripts\python.exe gradio_app.py

として起動しなくてはいけない(別の処理系で PyTorch をロードしてしまうからだ)。

  1. もっと新しいノート <<
  2. >> もっと古いノート

冒頭に戻る