で、クアルコムは、Android フォン用の Snapdragon シリーズ シリコンによって促進される、AI オンフォン トリックのポートフォリオにさらなる追加を行っています。このチップメーカーは、音声起動メディア編集、安定拡散を使用したデバイス上画像生成、Meta などの大規模な言語モデル上に構築されたよりスマートな仮想アシスタントなど、 Snapdragon 8 Gen 3 フラッグシップ向けのいくつかの印象的な AI 機能をすでに披露しています。
現在、同社はこれらの AI 超大国に対してさらなる不満を加えています。 1 つ目は、 スマートフォン 上で Large Language and Vision Assistant (LLaVa) を実行できる機能です。これは 、Google レンズの機能が付与された ChatGPT のようなチャットボットと考えてください。そのため、クアルコムのソリューションはテキスト入力を受け入れるだけでなく、画像を処理することもできます。
たとえば、豚肉のボードを描いた画像をプッシュし、それに基づいて質問することができます。 AI アシスタントは、70 億を超えるパラメーターを処理できる大規模マルチモーダル モデル (LMM) に基づいており、以下の入力画像に示されているボード上のあらゆる種類の果物、チーズ、肉、ナッツを教えてくれます。
後続のクエリも処理できるため、流れるようなやり取りを行うことができます。現在、ChatGPT などもマルチモーダル機能を獲得しています。これは、OpenAI のツールが画像入力も処理できることを意味します。ただし、決定的な違いがあります。
ChatGPT や Copilot などの製品は依然としてクラウドベースのアーキテクチャに大きく結びついており、データはリモート サーバーで処理されます。クアルコムはオンデバイス処理の方向に力を入れている。すべてが携帯電話上で行われるため、プロセス全体が高速になり、プライバシー侵害のリスクがほとんどなくなります。
「この LMM はデバイス上で応答性の高いトークン レートで実行されるため、プライバシー、信頼性、パーソナライゼーション、コストが向上します」とクアルコムは述べています。クアルコムが約束したLLaVaベースの仮想アシスタントがスタンドアロンアプリとして登場するのか、それとも有料になるのかはまだ正式に確認されていない。
クアルコムからの次の発表は、画像の生成と操作というクリエイティブな領域に踏み込みます。少し前に、クアルコムは安定拡散技術を使用して携帯電話上で世界最速のテキストから画像への生成をデモしました。本日、同社は LoRA による画像生成を初めて披露しました。
LoRA は、Dall.E などの通常の生成 AI ツールとは異なるアプローチで画像を生成します。 LoRA は Low-Rank Adaptation の略で、 Microsoft によって開発された技術です。 AI モデルのトレーニングは非常にコストがかかり、待ち時間が長く、特にハードウェアの観点から要求が厳しい場合があります。
LoRA が行うことは、モデルの重みを大幅に減らすことです。この目標は、モデルの特定のセグメントのみに焦点を当て、トレーニング目的のパラメーターの数を減らすことによって達成されます。そうすることで、メモリ要件が低下し、プロセスが高速になり、テキストから画像へのモデルを適応させるのにかかる時間と労力も大幅に削減されます。
時間が経つにつれて、LoRA 蒸留技術は、テキスト プロンプトから画像を生成するための安定拡散モデルに適用されてきました。 LoRA ベースのモデルは効率が向上し、適応しやすいため、スマートフォン向けにカスタマイズされたルートとみなされています。クアルコムは確かにそう考えており、ライバルのメディアテックでさえ、主力チップである Dimensity 9300 チップ の生成 AI トリックに同じソリューションを採用しています。
クアルコムは、MWC 2024 で他のいくつかの AI トリックも展示しており、 その一部はすでに Samsung Galaxy S24 Ultra に搭載されています 。その中には、生成 AI 塗りつぶしと AI を活用したビデオ生成を使用して画像のキャンバスを拡張する機能があります。後者は、特に OpenAI が Sora で達成したことを見た後では、非常に野心的です。クアルコムがそれをどのようにスマートフォンに移植するかを見るのは興味深いでしょう。