ミッションインポッシブル3 に思い出されるシーンがあります。その中で、主人公のイーサン・ハント(トム・クルーズ)が映画の悪役に挑み、銃を突きつけて奇妙な一連の文章を読み上げるよう強要する。
「 バズビーと一緒にいるときの喜びが、私にとって最も楽しいことなのです」と 彼はしぶしぶ読んだ 。 「彼はミス・ヤンシーの椅子に鋲を置きました、そして彼女は彼のことをひどい少年と呼びました。月末には、彼は2匹の子猫を部屋の幅いっぱいに投げ飛ばしていました… 」
ランダムで重要ではないように聞こえるにもかかわらず、彼が読んでいる単語はまったくランダムではないことがすぐに明らかになります。これらの単語は、ソフトウェア プログラムが彼の声を複製できるように意図的に設計されています。彼が文章を読み終えると、ソフトウェアが音声を解析し、即座にハントに悪者と全く同じように話し、聞こえる能力を与えます。これが、彼のほぼ完璧な変装の最後の部分です。
さて、そのシーンからスパイ活動、銃、劇的な緊張感をすべて差し引くと、今日 CES で AI を活用した「ボイス バンキング」である My Own Voice のデモ中に私が体験したことのかなり確かな例が残ります。 Acapela Group というフランスの新興企業のサービスです。
同社の存在意義は、いずれ話す能力を失う人々を助けることだ。これは通常、怪我、病気、または ALS、ハンチントン病、喉頭がんなどの疾患の結果として発生します。原因が何であれ、同社の My Own Voice プラットフォームを使用すると、人は自分の声を合成してクローンし、その声を自分のものにする独特のトーン、音色、個性を保存できます。これは、ほとんどのテキスト読み上げソフトウェアでは通常失われます (スティーブンのことを考えてください)。ホーキング博士)。
公平を期すために言うと、現時点では音声クローン技術は必ずしも新しいものでも、技術的に画期的なものでもありません。このようなサービスは何年も前から存在しており、 の出現のおかげもあって、現在、アカペラ グループと同じことを実行できる企業が他にも数十社あります。しかし、My Own Voice を他の製品と区別する 2 つの大きな点があります。それは、スピードと目的です。
My Own Voice は驚くほど速いです。リアルなサウンドのクローンを作成するには、多くの場合何時間ものリファレンス音声が必要な他のサービスとは異なり、My Own Voice の AI は、わずか 50 の短い文、またはおよそ 3 分間の録音音声を聞くだけで、驚くほど優れた合成音声を起動できます。基本的にはミッションインポッシブルのシーンと同じです。 AI があなたの発音を学習しやすくするための合理化された一連の参考文を開発したため、考えられるすべての単語を手動で録音する代わりに、あなたがしなければならないのは、いくつかの簡単なフレーズを通して話すことだけです。
しかし、おそらくソフトウェアの速度よりも重要なのは、その目的です。繰り返しになりますが、この技術は特に目新しいものではありません。たとえば、カナダのスタートアップ Lyrebird やロンドンに拠点を置く Sonantic など、同様の音声クローン技術を立ち上げた注目すべきスタートアップがいくつかあります。しかし、これらの新興企業は両方ともすぐに買収され、その音声クローン技術は最終的に 映画 や ビデオ編集ソフトウェア の AI オーバーダビングに使用されることになりました。
だからといって、これらの音声クローン技術の使用法が良くないと言っているわけではありません。間違いなくその通りであり、起動するとおそらくかなり収益性の高いものになります。しかし、それこそが My Own Voice を素晴らしいものにしているのです。エンターテイメントや生産性のために構築されたものではなく、恵まれない人々を支援し、文字通り彼らに発言権を与えるために特別に開発された、これほど強力なテクノロジーに出会うことはめったにありません。