AI音声合成ソフトウェア 「VOICEVOX」試してみた!


技術部 G.Y

最近 AI を利用したサービスなどが話題に上がることが多くなりました。

会話AIの chatGPTであったり
作画AIの stableDiffusion であったり。。。

で、少し AI音声合成ソフトウェア ってのを試してみました。

今回試したのは完全無料の音声発声アプリの 「VOICEVOX」 になります。
<外部リンク> https://voicevox.hiroshiba.jp/

提供プラットフォームとしては
Windows( CPU,GPU)
Max(CPU)
Linux(CPU,GPU)

と 珍しくlinux が入っています。
また、Mac 以外は GPUの利用モードもあると言う事で RTX3060 を装着しているサーバへ入れて試してみようというわけです。

ちなみに CPU での利用も全然問題なく、音声を作成する際に若干待たされるだけで質にはあまり影響はないように思いました。

取り合えずサイトへアクセスし ダウンロードする画面になります。
あと、GPU版をダウンロードしていても 動作モードはデフォルトCPUになっていますので、取り合えずGPU版がある
windows、linux版であれば GPU版をダウンロードしておけば良いんじゃないかと思います。

で、普通にインストール。
これLinux版では(特にUbuntu)事前に必要なパッケージを導入しておくなどの手間が必要になるようです。
今回はwindows版ですので何も考えること無くインストールできました。

(初回起動時の画面はキャプチャー忘れました。。。)

起動するとキャラクター一覧が見れます。

声のサンプルを聞く事もこの画面でできます。(画面はダークモードに変更してます)

無料と言うことで3種類くらい(女性2タイプ、男性1タイプ)と思っていたのですが 思ったより多い。。。且つ、一つのキャラクターでもパターンがあるようです。
キャラクターによっては商用利用不可など 規約が違うのでここは注意が必要ですね。

また、テキストファイルの読み込みにも対応しているのですが テキストファイルを読み込むと
右のキャラクターが縦に並んでいると思いますが一番順序が上のキャラクターが設定されます。
順番を入れ替えはドラッグアンドドロップで出来ます。

今回は無難に男性キャラクターの玄野武宏 を選択して遊ん、、もとい、試してみます

まずは手で入力を試します。この画面で セリフを記述していきます。

また 下部の部分で「アクセント」、「イントネーション」、「長さ」を調整できます。

イントネーションなどは 最初フラットな状態で生成されるのかと思いきや、わりかし自然な感じで発声データが生成されます。
違和感がないとは言いませんが、ある程度の自然さはあります。
もし イントネーションなど編集したい際は ここで編集しますが 、個人的には 何もしなくても65-75点くらいの
感じですので そのまま利用できるのではないかと思います。

また、1行ごとにキャラクターを変更することができます。
いわゆる掛け合い なども 作成できます。

これは 上の文章を入力しただけの音声データです

先程 テキストファイルの読み込みにも対応していると書きましたが、本サイトのブログをテキストファイルに
して 読み込ませてみました。

まず、ブログのテキスト部分をコピーしてテキストファイルを作成します。

次に メニューでテキスト読み込みを選び、読み込むファイルを選択します。

読み込まれました。この時 選択される音声キャラクターは 上でも書きましたが順序が一番上のキャラクターになっています。

GPU利用モードでは このブログのテキストに対して 20秒程度のデータ生成時間かかりました。
が、その程度の待ち時間で これだけのテキストを発声データとして生成出来るのはかなりいいですね。
ちなみにCPU利用モードでは 1行あたり2秒~10秒程度 かかる感じでした。一度生成してしまえば 待ち時間は発生しません。

発声データは 音声ファイルとして出力も出来ますが、WAV ファイルとなるので サイズは大きくなるのかなと思います。
適宜、mp3などへは 別ツールを利用して変換する必要がありますね。
また、 リップシンク も出来るようですので アバター利用などの動画を作成する際にも便利なのではないでしょうか。

ということで 今回は無料で利用できるテキスト読み上げソフトの VOICEVOXを試してみました。設定画面ではリップシンクデータの生成にも対応していたりするので アバター利用の場合などに利用しやすいと思います。有料では当たり前なのでしょうが 無料でここまで?と思うと なかなかすごい事になっていると思います。
ゆっくり動画なんかを作ってみたいなーと思っているけど 割合世の中に溢れすぎているなーとお思いの方、こちらを使って動画作成などどうでしょうか?

私は動画作成テクニックなど無いので 取り合えず 遊んで楽しかったという事だけお伝えして 終わりたいと思います。