AI 画像ジェネレーターが依然として苦労している 5 つのこと

Dall-E 、 Stable Diffusion 、 Midjourney 、 Bing Image Creator などの AI 画像ジェネレーターは、素晴らしい結果を生み出しますが、場合によっては非常にイライラすることもあります。わずか数語の簡単なプロンプトで、AI はプロの写真や説得力のあるアートのような印象的な画像をさまざまなスタイルで出力できます。ただし、同じプロンプトによって、恐ろしい生き物や、笑えるほど欠陥のあるレンダリングが作成される場合があります。

否定的なプロンプトは、これらのエラーの可能性を減らすのに役立つかもしれませんが、複雑さが常にあなたを救うとは限りません。 AI の専門家でさえ、いびつな生き物やこの世のものとは思えない光景に苦労しており、プロンプトを調整したり、従来の写真編集者で画像を修正したりするのに長時間かかる必要があります。当面は、画像の適切な領域を注意深く観察すれば、それが機械によって作成されたものであるかどうかを識別できる可能性が高くなります。

ハンドサラダと指の腹

AI 開発者は、人間の手がどのように見えるべきかを人工知能ツールに教えるという取り組みで進歩を遂げてきましたが、改善の余地はたくさんあります。指が目立たないとエラーを見逃しやすくなりますが、これは現在進行形の問題です。

Dall-E は初期の AI リーダーでしたが、手は AI の特徴ではありません。

一般に公開されている最初で最高の AI 画像ジェネレーターの 1 つである OpenAI の Dall-E は、手を繋いでいる人々のこれらの写真を作成しました。一見すると大丈夫そうに見えるかもしれません。詳しく調べると、いくつかの問題が明らかになります。余分な指、奇妙な爪、結合した数字に注意してください。

複雑なグリップと交差した指はさらに困難です。 AI 画像に「手のサラダ」または「指の腹」と呼ばれる古典的な不具合が返されても驚かないでください。

文章や書き方に問題がある

テキストはコンピュータで簡単に生成できると期待するかもしれません。電話を取ったりブラウザを開いたりすると、毎日画面に単語の痕跡が表示されます。初期のコンピューターは、今日のトップゲーミング PC とは異なり、いかなる種類のグラフィックスも表示できませんでした。すべてはテキストまたは数字でした。

Leonardo AI はスタイルを知っていますが、印刷されたテキストは困難です。

しかし、実際の文字や記号を活字や書き言葉として表示することは、 AI 画像ジェネレーターにとって驚くほど難しいことです。簡単に解決できる問題のように聞こえるかもしれませんが、そうではありません。アプリはプレーンテキストを単にオーバーレイすることはできません。説得力を持たせるには、テキストのスタイル、シェーディング、角度、遠近感がシーンの残りの部分と一致している必要があります。

この例では、比較的新しい AI 画像ジェネレーターである Leonardo AI が、ジャックラビットスリムのダイナーのビンテージの看板で勇敢な取り組みを行いました。何度も試行した後、AI はリクエストに非常に近い「Jack Rabbit’s」をなんとか綴ることができました。どの画像もビンテージ写真のスタイルは完璧でしたが、文字や言葉にはほとんど欠陥がありました。

Leonardo AI は、これらのレンダリングの 1 つでテキストを正確に取得するところまで来ました。

目にはそれがない

目は心の窓だとよく言われます。私たちはアイコンタクトに大きく依存しているため、それがリアルなポートレートを作成する上で最も重要な詳細となる可能性があります。しかし、多くの AI ツールは人間の目をレンダリングするのが困難です。

Bing Image Creator は、スタジオの背景と多世代の家族写真のポーズを適切に作成しました。しかし、ほとんどすべての人は、宇宙人によって挿入されたような奇妙な目をしています。あるいは、おそらくこれらの笑顔の人々は、不気味な生き物に変貌しつつあるのかもしれません。

面倒な道具

人間は、AI のようなデジタル製品だけでなく、ツールにも優れています。私たちは、手に入る物理的なツールをすぐに使いこなします。一方、AI は、それらが何であり、どのように使用されるかを理解するのに苦労します。

Midjourney は、人間の顔や手に関する問題の解決において素晴らしい進歩を遂げている AI 画像ジェネレーターです。しかし、整備士がレンチでボルトを締めているところを見せるように求められたとき、ツールはまったくありません。あるケースでは手袋に爪が追加され、別のケースではどういうわけか電球が表示されます。

この切断中の髪のクローズアップレンダリングでは、Bing Image Creator にはハサミが複雑すぎます。それらは 1 枚の画像で開いているだけで、切断行為をしているようには見えません。

悪夢の歯

人々が微笑んだり笑ったりすると、通常、写真が改善され、楽しく楽しいものになります。 2 人の学生が微笑んで笑うなどの単純なプロンプトが与えられると、AI はこれを複数の歯列やその他の奇妙な歪みを伴う悪夢の燃料に変えることができます。

Leonardo AI では、いくつかのモデルから選択することができ、歯をうまく処理できるモデルもあります。人気の Stable Diffusion 2.1 モデルを適切に使用するには、いくつかの助けが必要でした。いくつかの否定的なプロンプトがあったため、問題は解決されました。こうした AI 画像の問題には解決策がありますが、良い結果を得るにはまだ努力が必要です。

AIアートは急速に進歩している

AI アートの初期の頃、その結果は奇妙かつ素晴らしく、美しさと恐怖を同じくらい放棄して生み出していました。新しいアップデートが行われるたびにエラーは目立たなくなり、多くの問題は改善することで解決できます。

利用可能な AI ツールが非常に多いため、別のシステムを試すのは簡単です。多くの AI 画像ジェネレーターでは、アルゴリズムを調整してより良い結果を得るために、否定的なプロンプトやその他のオプションを使用できます。

特に顔や手に焦点を当てている場合は、使用可能な写真を取得するために何度か試行する必要がある場合があります。活字や書き言葉を含めたい場合は、画像エディターで AI の無意味な文字を消去し、正しいテキストをブレンドするのに時間を費やす準備をしてください。

良いニュースは、多くの AI 画像ジェネレーターが無料であり、サブスクリプションモデルが比較的安価であることです。 1 年以内に、これらの解決されない問題が解決され、完成したアート作品として、または写真の代替として AI レンダリングを使用できるようになる可能性があります。

「 AI 画像ジェネレーターが依然として苦労している 5 つのこと」についての動画選定！

#ai #画像生成ai

【雑学朗読】女性AIがお届け寝つきが悪い方へ雑学朗読5時間【睡眠用・聞き流し用】