人工知能 (AI) は 今まさに絶好調で 、マイクロソフトが 3 秒間の短いサンプルを入力すると誰の声も真似できる AI の開発に取り組んでいるというニュースで、風が吹き続けています。
VALL-Eと呼ばれるこの新しいツールは、約6万時間の英語の音声データでトレーニングされており、Microsoftによれば、このデータは「既存のシステムの数百倍」であるという。その知識を利用して、その作成者は、ユーザーの声を複製する方法を理解するためにほんの少しの音声入力だけが必要だと主張しています。
さらに驚くべきことに、VALL-E は、他の音声 AI プログラムが苦労してきた、各サンプルに含まれる感情、声のトーン、音響環境を再現できます。これにより、より現実的な雰囲気が得られ、その結果は本物の人間の音声として通用するものに近づきます。
他のテキスト読み上げ (TTS) 競合製品と比較した場合、Microsoft は、VALL-E が「音声の自然さと話者の類似性の点で、最先端のゼロショット TTS システムを大幅に上回っている」と述べています。言い換えれば、VALL-E は、トレーニングを受けていない音声入力に遭遇したライバル AI よりも、はるかに本物の人間に近い音を出します。
Microsoft は GitHub 上に、VALL-E を使用して作成された サンプルの小さなライブラリを 作成しました。結果はほとんどが非常に印象的で、スピーカーの声の軽やかさとアクセントを再現するサンプルが多数含まれています。一部の例は説得力が低く、VALL-E が完成品ではない可能性があることを示していますが、全体的には出力は説得力があります。
巨大な可能性とリスク
VALL-E を紹介する論文 の中で Microsoft は、VALL-E が「音声 ID のなりすましや特定の話者のなりすましなど、モデルの悪用による潜在的なリスクを伴う可能性がある」と説明しています。リアルな音声を生成するこのような有能なツールは、かつての恋人から有名な国際的人物まで、あらゆるものを模倣するために使用できる、 これまで以上に説得力のあるディープフェイク の脅威を引き起こします。
この脅威を軽減するために、Microsoft は「オーディオ クリップが VALL-E によって合成されたかどうかを識別する検出モデルを構築することが可能です」と述べています。同社は、業務を開発する際にも独自の AI 原則 を使用すると述べています。これらの原則は、公平性、安全性、プライバシー、説明責任などの分野をカバーしています。
VALL-E は、Microsoft による AI 実験の最新の例にすぎません。最近、同社は ChatGPT を Bing に統合し 、AI を使用して Teams 会議を要約し 、 Outlook、Word、PowerPoint など のアプリに高度なツールを移植することに取り組んでいます。そしてSemaforによると、Microsoftはすでに多額の資金をつぎ込んでいる ChatGPTメーカーOpenAIに100億ドルの投資 を検討しているという。
明らかなリスクにもかかわらず、VALL-E のようなツールは、たとえば事故後に人々が声を取り戻すのを助けるなど、医療の分野で特に役立つ可能性があります。このような小さな入力セットで音声を複製できることは、正しく行われれば、このような状況では非常に有望です。しかし、マイクロソフト社もその他の企業も、AI に多額の資金が費やされていることから、AI がすぐになくなるわけではないことは明らかです。