音声生成AI

2025年9月24日

放送業界の現場では生放送や屋外撮影においてタブーな言葉、いわゆる放送禁止用語が飛び出すケースが少なくなく、従来はピー音などで誤魔化したりディレイを利用してカットするなどの対応がされていました。

最近は音声の生成AIの技術も発展しており、①画像の補完（インペインティング）と同様に音声を補完する『オーディオ・インペインティング “Audio Inpainting”』、②部分修正ではなくフルで生成する『テキストトゥスピーチ “TTS: Text-to-Speech”』という2つの分野で研究と実装が進められています。

このような音声を生成するAIが一般的になれば、ワークフローが大きく変わるかも知れません。（そもそも、短尺～長尺の動画自体が生成出来てしまえば撮影自体が不要ですが、業界としてそれを望んでるようには見えていないのですが）

いくつかサービスやOSSを調べてみました。

Audio Inpainting（補完・部分編集）

元データとなる参照音声を読み込み、特定のワードやタイミングを指定して自然な音声を生成し、差し替えたり補完します。

フル生成と異なる点としては、発声したワードが間違っているだけであれば厳密なリップシンクが不要になるということがあります。例えば「荻原（オギワラ）」さんと「萩原（ハギワラ）」さんを間違えた場合など、音声としては全く異なりますが文字数は同じなのでオをハに変更しても元映像の口パクと大きな違和感は無いはずです。

オープンソース：PlayDiffusion

https://github.com/playht/PlayDiffusion

特定ワード置き換えに強いらしいです。GitHub上にサンプルがあるので、確認可能です。
カリフォルニアにある(らしい)会社が提供しているOSSなので、お試し版という感じでしょうか。OSSのライセンスはApache-2.0 licenseなので、商用利用も可能ではあります。
※もし使われる場合は最新情報をご自身でご確認ください。