OpenAI の AI への最新の取り組みは、これまでで最も印象的なものかもしれません。 「Sora」と名付けられたこの新しいテキストからビデオへの AI モデルは、テストできる限られた数のユーザーに公開されたばかりです。同社は、完全に AI によって作成されたいくつかのビデオを表示することによってこのサービスを開始しましたが、最終結果は衝撃的なほど現実的です。
OpenAI は、Sora がテキスト プロンプトに基づいてリアルなシーンを作成できると紹介しており、Web サイトで共有されているビデオがそれを証明しています。プロンプトは説明的ですが短いです。私は個人的に、 ChatGPT と対話するだけの長いプロンプトを使用しました。たとえば、上の写真のケナガマンモスのビデオを生成するには、Sora は動物、環境、カメラの配置を説明する 67 語のプロンプトを必要としました。
「Sora は、視覚的な品質とユーザーのプロンプトに従いながら、最長 1 分のビデオを生成できます」と OpenAI は 発表 の中で述べています。 AI は、多くのキャラクター、風景、正確な動きで満たされた複雑なシーンを生成できます。そのために、OpenAI は、Sora が必要に応じて行間を予測して読み取ると述べています。
「このモデルは、ユーザーがプロンプトで何を要求したかだけでなく、それらのものが物理世界にどのように存在するのかも理解します」とOpenAIは述べています。このモデルは、キャラクター、服装、背景に取り組むだけでなく、「生き生きとした感情を表現する魅力的なキャラクター」を作成します。
Sora は、既存のビデオの隙間を埋めたり、ビデオを長くしたりすることもできるほか、画像に基づいてビデオを生成することもできるため、単なるテキスト プロンプトだけではありません。
ビデオはスクリーンショットされた静止画としては見栄えがしますが、実際の動きは驚くべきものです。 OpenAI は、サイバーパンク風の東京の街並みやゴールド ラッシュ時のカリフォルニアの「歴史的映像」など、新しいテクノロジーを披露する幅広いビデオを提供しました。人間の目の極端なクローズアップなど、他にもあります。プロンプトには、漫画から野生動物の写真まで、あらゆるものが含まれています。
ソラはまだいくつかの間違いを犯した。よく見ると、たとえば、群衆の中に頭がなかったり、奇妙な動きをしている人物がいることがわかります。いくつかのサンプルでは一見ぎこちない動きが目立っていましたが、全体的な奇妙さを見つけるには何度も見る必要がありました。
OpenAI が Sora を一般公開するまでにはしばらく時間がかかるかもしれません。現在、このモデルは潜在的なリスクを評価するレッドチームによってテストされます。まだ開発の初期段階にありますが、一部のクリエイターは今からテストを開始することもできます。
AIはまだ不完全なので、かなり厄介なことを期待して参加しました。期待の低さなのか、ソラの能力なのか、私は感心しながら立ち去りましたが、少し心配でもありました。私たちはすでに、偽物と本物を見分けるのが難しい世界に住んでいます。そして今、危険にさらされているのは画像だけではなく、ビデオも危険にさらされています。ただし、Sora は、 Pika など 、私たちがこれまでに見た最初のテキストからビデオへの変換モデルではありません。
人気テクノロジー系ユーチューバーのマーケス・ブラウンリー 氏など、他の人々も同様に旗を掲げているが、ソラのビデオに対して「これが少しでも気にならないなら、何も気にならない」とツイートした。
OpenAI の Sora が現時点でこれほど優れているとしても、数年間さらに開発とテストを行った後に何ができるようになるのかを想像するのは困難です。これは多くの仕事を奪う可能性のある種類のテクノロジーですが、できれば ChatGPT のように人間の専門家と共存することを願っています。

