OpenAI は、テキストに加えて画像や音声ディレクティブを使用してプロンプトを実行できるようにする ChatGPT の新機能を展開しています。
AI ブランドは 月曜日、 これらの新機能を今後 2 週間にわたって ChatGPT Plus および Enterprise ユーザーが利用できるようにすると発表しました。音声機能は iOS と でオプトイン機能で利用でき、画像機能はすべての ChatGPT プラットフォームで利用できます。 OpenAIは、段階的な展開後、画像と音声機能の利用可能範囲を有料ユーザー以外にも拡大する予定であると述べている。
ボイス チャットは、ユーザーと ChatGPT の間の聴覚的な会話として機能します。ボタンを押して質問を言います。情報を処理した後、チャットボットはテキストではなく音声で回答を返します。このプロセスは、 Alexa や Google アシスタント などの仮想アシスタントの使用に似ており、仮想アシスタント全体を完全に刷新する前置きとなる可能性があります。 OpenAI の発表は、Amazon が Alexa に同様の機能を導入すること を明らかにした数日後に行われました。
ChatGPT を使用した音声通信を実装するために、OpenAI は、「テキストと数秒のサンプル音声だけから人間のような音声」を生成できる新しいテキスト読み上げモデルを使用します。さらに、その Whisper モデルは「話された言葉をテキストに書き起こす」ことができます。
OpenAIは、この機能の背後にある力によって「悪意のある人物が著名人になりすましたり、詐欺を働いたりする可能性」などの問題が発生する可能性があることを認識していると述べている。
これが、同社が新機能の使用を「特定の使用例とパートナーシップ」に限定することを計画している主な理由の 1 つです。機能がより広く利用可能になったとしても、主に開発者などのより特権のあるユーザーがアクセスできるようになります。
画像機能を使用すると、画像をキャプチャし、質問やプロンプトとともにそれを ChatGPT に入力できます。アプリの描画ツールを使用すると、答えを明確にし、問題が解決するまでチャットボットとやり取りすることができます。これは、OpenAI のモデルに基づいて構築された Microsoft の Windows の新しい Copilot 機能 に似ています。
OpenAI は、進行中の幻覚問題など、ChatGPT の課題も認識しています。画像の特徴に合わせて、ブランドは、チャットボットの「分析し、人々について直接発言する機能」などの特定の機能を制限することを決定しました。
ChatGPT は、昨年末にテキスト読み上げツールとして初めて導入されました。しかし、OpenAI はその能力を急速に拡大しました。 GPT-3 言語モデルに基づく元のチャットボットはその後 GPT-3.5 に更新され、 現在は GPT-4 が新しい機能を備えたモデルです。
GPT-4 が 3 月に初めてリリースされたとき、OpenAI は、AI モデルを使用して言語学習アプリのリスニングおよび音声ベースのレッスンの精度を向上させる Duolingo など、さまざまな企業コラボレーションを発表しました。 OpenAI は Spotify と協力して、ポッドキャスターの音声を維持しながらポッドキャストを他の言語に翻訳しました。同社はまた、視覚障害者を支援するモバイルアプリ「Be My Eyes」との取り組みについても語った。これらのアプリやサービスの多くは、画像と音声のアップデートに先立って利用可能でした。

