話題のアニメ声合成AI「MoeGoe」を使ってみよう

高三 N AIMoeGoe

ツイッターで、最近新しく公開された音声合成AI「MoeGoe」が話題になっていたので、試してみました。

MoeGoeとは

まずはこちらをご覧ください。

MoeGoeは、最新のアニメ声合成AIです。名称は日本語の「萌え声」が由来だと思われますが、開発者は中国人の方のようです。GitHub及びHuggingFaceでソースコードや学習済みモデルなどが配布されており、誰でも試すことができます。学習済みモデルに関しては、商用利用は固く禁止されています。

技術的には、昨年韓国で開発された音声合成技術の「VITS」を応用したものになっているようです。VITSは今年初めごろに日本でも話題を呼び、複数の日本語による実装レポートもWEB上で発表されました。(Qiita「【機械学習】VITSでアニメ声へ変換できるボイスチェンジャー&読み上げ器を作った話」など)

VITSの仕組みについては一応英語の論文があるので、そちらをご覧ください。15ページ程度ですが私には読めません。(https://arxiv.org/abs/2106.06103)

また、学習に際しては、アニメのセリフを中心に多くの音声をデータベース化し配信しているウェブサイト「VoiStock」などから収集したデータを一部のモデルで使用しているとのことです。NovelAIがStableDiffusionベースのアニメイラスト生成AIをリリースした際、学習に使用したデータがイラストの無断転載サイトから入手したものであったことがネット上で非難の対象になりましたが、このサイトについても著作権周りのことは少し気がかりです。

追記:VoiStock社社長の福井氏によると、「15秒未満の音声には著作権利は発生しないので問題ない」とのこと(引用元記事)。文化庁HPの「著作物が自由に使える場合」の記事もご覧ください。法律についての判断は読者各位に委ねます。

作者のCjangCjenghさんがビリビリ動画に公開している紹介動画も併せてご覧ください。(https://www.bilibili.com/video/BV1P8411Y7v5/)

MoeGoeを試す方法3つ

MoeGoeは現在、GitHubで公開されているプログラムのほか、HuggingFace上のオンラインデモページ、Microsoft Azure上に構築された合成済み音声を返すAPIとそれを利用したAndroid向けアプリなどが主にリリースされています。

とりあえず試してみるだけであれば、すぐにブラウザから使用することができるHuggingFace版を試すのが良いでしょう。Androidユーザーの場合はアプリ版も有用です。以下にリンクを記載しています。

この記事では、せっかくなのでGitHubで公開されているものを実際に手元のパソコンで実行することを試みます。(といってもめちゃくちゃ簡単です)

MoeGoeをローカル環境(自分のパソコン)で実行しよう

※下記のソフトウェアを使用して発生したいかなる問題についても、私達は責任を負いかねます。

現在、MoeGoeのプログラムはWindows用のものしか配布されていないので、実行にはWindowsパソコンが必要です。実装自体はPythonですので、技術的にはMac、Linux等でも実行出来ると思われます(GUIアプリを除く)。

また、7-Zip形式の圧縮ファイルを解凍できるソフトウェアが何かしら必要です。7-Zipをインストールしておけば問題ないでしょう。

Windowsパソコンさえ用意できれば、実行ファイルは全て完全にexeファイルにまとめられているので、ソースコードのビルドなどに怖気づく必要は全くありません(私はexeファイルがあるのに気づかず、プログラムを地道にビルドしようとしてVisualStudioの依存関係不足で時間を溶かされました)。

以下、手順を示します。

MoeGoeの実行ファイルをダウンロード

まずはMoeGoeのGitHubレポジトリにあるReleasesページをブラウザで開き、最新のMoeGoeの実行ファイル(exeファイル)をダウンロードします。この記事の執筆時点で最新版はVer.3.0.0でした。「MoeGoe.7z」と書かれているファイルをダウンロードし解凍してください。

MoeGoeのReleasesページ:https://github.com/CjangCjengh/MoeGoe/releases

便利なMoeGoeのGUIアプリをダウンロード

このファイルだけでも実行することは可能ですが、コマンドライン上での操作となり不便ですので、GUIアプリも続けてダウンロードします。MoeGoe GUIのReleasesページから、最新の「MoeGoe_GUI.exe」をダウンロードします。先ほど解凍したMoeGoeのフォルダーの中に入れておくのが便利ではないでしょうか。

MoeGoe GUIのReleasesページ:https://github.com/CjangCjengh/MoeGoe_GUI/releases

学習済みモデルのダウンロード

最後に、各キャラクターのボイスを学習した学習済みモデルをダウンロードします。GitHubページから好きな物を選んで、それぞれ「Config File」と「Model」を両方ダウンロードしてください。私はMoeGoeのフォルダー内に「models」というフォルダーを作成し、その中に配置しましたが、ファイルがどこにあってもあとでその場所を適宜指定するだけなので問題ありません。

複数のモデルをダウンロードする場合は、以下のように適宜分かりやすいように名前を変更しておいた方が無難です。

モデルごとに対応している言語が異なっているので、ダウンロードリンクの上に書かれている対応言語を確認してください。中には日本語非対応のモデルもいくつかあります。

「ゼロの使い魔」や「ToLoveるダークネス」など絶妙に古いアニメのモデルが多いです。開発者の推しなのか、ノベルゲームメーカー「ゆずソフト」のキャラクターのモデルがなかなか充実しています。

また、下部にあるVoistockモデルは、先述のアニメ音声収集サイトから大量のデータベース化された音声を収集して学習した大型モデルで、3000人弱のキャラ(海外版声優と日本語版声優・同じ声優の演じる別キャラなどの重複はあるとみられる)の音声を学習しているモデルです。これが事実上の標準モデルでしょうか。日本語以外に英語、韓国語、中国語にも対応しています。

MoeGoeの学習済みモデルの配布ページ:https://github.com/CjangCjengh/TTSModels

実際に動かす

全ての必要ファイルのダウンロードが終わったところで、実際に音声合成を試してみましょう。

MoeGoe_GUI.exeを実行します。

このような画面が起動するので、それぞれのメニューについて、上から順に、以下のファイルを指定します。

  • 「打开文件」:「ファイルを開く」の意。このボタンをクリックして、先ほど解凍したフォルダーの中にある「MoeGoe.exe」のファイルを指定する。
  • 「VITS」「HuBERT-VITS」「W2V2-VITS」のメニュー:AIモデルの種類を指定する。MoeGoeが現在公開している学習済みモデルのほとんどがVITSなので、基本的にはVITSを指定しておけば問題ない。モデルをダウンロードしたページに、そのモデルがVITSなのか、HuBERT-VITSなのかといったことが書いてあるので確認する。
  • 「打开模型」:「モデルを開く」の意。このボタンをクリックして、使いたいモデルの.pthファイルを指定する。
  • 「打开配置」:「設定を開く」の意。このボタンをクリックして、先ほど指定したモデルに対応するconfig.jsonファイルを指定する。

モデルを設定出来たら、「文本」の画面に喋らせたい文章の内容を入力し、「说话人」に表示されるリストから、喋らせたいキャラクターを選択します。

最後に、保存ボタンをクリックし、保存先を指定すると、合成された音声が保存されます。「重新合成」は上書き保存、「删除」は削除、「播放」は保存した音声の再生、「停止」は再生中の音声の停止です。

また、一部の複数言語に対応したモデルを使用する際には、[JA]こんにちは[JA][ZH]你好[ZH]のように、中括弧で言語を示す必要があります。日本語はJA、中国語はZH、韓国語はKO、英語はENです。

設定はこのようになります。MoeGoe_GUIのアプリを日本語化してみたのですが、あとでMoeGoe_GUIのソースコードのライセンスが不明なことに気づき、公開はしていません。MoeGoe本体はMITライセンスだったので、いつかMoeGoe_GUIのライセンスが更新されたら、日本語化したものをGitHub上で公開するかもしれません。(ちなみに、「文章を消去」はおそらく誤訳で、発音・アクセント・イントネーションの手動設定?が正しい)

追記:5chユーザーの方が翻訳したバージョンが配布されているようですので、今後もこちらから配布を行う事は致しません。

合成した音声は載せません

今の段階では権利関係があまりに不透明すぎると思ったため。

代わりに、TwitterやYouTube、ビリビリ動画にあるおすすめの動画をいくつかご紹介します。

感想

音声合成のクオリティは総じて高く、VITSの技術を応用した製品の実用化が待たれます。

ただし、単純な音声の精度に関してのみ言えば、企業の資本のもとで、音声合成のために厳密に管理された録音環境で得たデータをもとに開発された音声合成ソフトウェアの方が、明らかに高性能な印象を受けました。最近では、AHS社のVOICEPEAKはかなりレベルの高い音声を出力しています。

MoeGoe(VITS)の真価は、音声合成ソフトとしてリリースされていない、一般のアニメのキャラクターの声から学習したモデルを利用できることです。ですが、それにはここ最近議論を巻き起こしているStable Diffusion以上に、権利問題が付きまとう事でしょう。必然的に、個別的な声優さんやキャラクターに一対一で対応する声を生成することになるからです。Stable Diffusionの日本国内向けの紹介記事をおそらく最初期に執筆(記事リンク)された、note株式会社の深津貴之さんも、これについて憂慮の念を示しています。

MoeGoeには、日本語の音声しか存在しないはずのキャラクターに対して、声優さんの声を変えないまま中国語、韓国語、英語などの音声を出力できるモデルが存在します。このような技術が発展すれば、映像コンテンツの翻訳の際に、吹き替え版に別の声優さんを起用することなく、日本のアニメをそのままの声で中国語に拭き替えたり、ハリウッドの映画を現地の俳優さんの声のまま日本語に吹き替えたりすることが出来るようになるかもしれません。非常に期待のできる技術なのではないでしょうか。

本当に人間の仕事を奪うような、クリエイティビティあふれる生成AIが登場するのも時間の問題なのかもしれません。

次へ「ただし同じ記号を二度用いてはならない」とは>
前へWindows 11にアップグレードして3ヶ月経った感想>