ChatGPT は優れていますが、現時点ではテキスト入力、テキスト出力のみに制限されています。 GPT-4 は 、画像処理を追加してこれを拡張し、画像に基づいてテキストを生成できるようにする予定でした。
ただし、OpenAI はこの機能をまだリリースしていません。ここで MiniGPT-4 が登場します。このオープンソース プロジェクトは、 GPT-4 での画像処理がどのようなものであるかをプレビューしてくれるので、非常に優れています。
MiniGPT-4とは何ですか?
MiniGPT-4 は、AI システムにおけるビジョン言語機能を実証するために GitHub に投稿されたオープン ソース プロジェクトです。実行できることの例には、画像の説明の生成、画像に基づいたストーリーの作成、さらには図面だけから Web サイトを作成することが含まれます。
名前が示すとおり、MiniGPT-4 は OpenAI または GPT-4 に正式に接続されていません。博士のグループによって作成されました。サウジアラビアに拠点を置くキング・アブドラ科学技術大学の学生たち。また、Vicuna と呼ばれる別の大規模言語モデル (LLM) にも基づいており、Vicuna 自体はオープンソースの大規模言語モデル メタ AI (LLaMA) に基づいて構築されています。 ChatGPT ほど強力ではありませんが、次のように評価されています。
MiniGPT-4の使い方
MiniGPT-4 は単なるデモであり、まだ最初のバージョンです。今のところ、 グループの公式ウェブサイトから 無料でアクセスできます。これを使用するには、画像をドラッグするか、「ここに画像をドロップ」をクリックするだけです。アップロードしたら、検索ボックスにプロンプトを入力します。
どのようなことを試してみるとよいでしょうか? MiniGPT-4 に画像の説明を依頼するのは非常に簡単です。しかし、会社の Instagram 投稿用にコピーが必要になるかもしれません。あるいは、面白い料理に必要な材料や、その作り方のレシピさえ知りたいかもしれません。 MiniGPT-4 はこれらのタスクを驚くほどうまく処理できます。
コーディング面はもう少し荒削りです。単純なナプキンの描画を機能する Web サイトに変えることは、GPT-4 が最初に発表されたときに OpenAI によって披露されたトリックでした。しかし、MiniGPT-4 はまだそれを十分に処理できていないようです。 ChatGPT はより正確なコードを提供します。実際、MiniGPT-4 コードが何であれ、ChatGPT または
注意すべき点の 1 つは、MiniGPT-4 はローカル システムの GPU を使用するということです。したがって、かなり強力な個別 GPU を持っていない限り、エクスペリエンスがかなり遅いと感じるかもしれません。コンテキストのために、 M2 Max MacBook Pro で試してみましたが、アップロードした画像に基づいてテキストを生成するのに約 30 秒かかりました。
MiniGPT-4 の制限事項
MiniGPT-4 の速度には確かに制限があります。まともなグラフィックスなしでこれにアクセスしようとすると、反応が遅すぎて感じられません。クラウドベースの ChatGPT や Bing Image Creator の速度に慣れている場合、MiniGPT-4 はひどく遅く感じるでしょう。
さらに、MiniGPT-4 には、「幻覚」を起こしたり情報をでっち上げたりする可能性があるという点で、ChatGPT や Google Bard 、その他の AI チャットボットと同じ制限があります。