Meta は、ユーザーが入力した説明をビデオに変換できるクレイジーな人工知能モデルを発表しました。このシステムは Make-A-Video と呼ばれ、Web 上で AI が生成するコンテンツの最新トレンドです。
このシステムは、「海で波をサーフィンするロボット」や「サンゴ礁を泳ぐカクレクマノミ」などの短い説明を受け入れ、その説明の短い GIF を動的に生成します。超現実的、現実的、様式化された 3 つの異なるスタイルのビデオから選択することもできます。
Meta CEO の Mark Zuckerberg による Facebook の投稿 によると、ビデオには動きが必要なため、書かれたテキストをビデオに翻訳するのは非常に困難です。
「システムは各ピクセルを正確に生成するだけでなく、ピクセルが時間の経過とともにどのように変化するかを予測する必要があるため、写真よりもビデオを生成する方がはるかに困難です。 Make-A-Video は、システムが物理世界の動きを理解し、それを従来のテキストから画像への生成に適用できるようにする教師なし学習のレイヤーを追加することで、この問題を解決します。」
Meta の AI 研究チームは、このシステムがどのように機能するのか、また現在のテキストから画像への変換 (T2I) 手法とどのように異なるのかを説明する 論文 を書きました。他の機械語モデルとは異なり、Meta の Text-to-Video (T2V) メソッドは、事前定義されたテキストとビデオのペアを使用しません。たとえば、「歩く男性」と実際に歩く男性の動画を組み合わせることはありません。
これが人気のある T2I アプリケーションである DALL-E によく似ていると思われる方も、そう遠くないでしょう。 DALL-E の人気が高まって以来、他の T2I アプリケーションも展開されています。 TikTokは8月に、入力した単語に基づいて絵画風の画像を生成するAI Greenscreenと呼ばれるフィルターをリリースした 。
AI によって生成されたコンテンツは、ここ数年で非常に話題になるようになりました。 、人の顔を別の顔に置き換える機械学習技術は、 マンダロリアン のような高額予算の番組の視覚効果スタジオでも使用されています。
7月、タイムズ紙はロシア・ウクライナ戦争の最中にウクライナ人女性について誤って報道した。問題は、 彼女が本物ではなかったこと です。
AI の脅威はおそらく 本当の脅威ではありません が、DALL-E や Make-A-Video のようなプロジェクトは、興味深い可能性のいくつかを探求する楽しいものです。
