いいえ、ChatGPT が新たな GPU 不足を引き起こすことはありません

ChatGPT は爆発的に成長しており、その AI モデルのバックボーンは Nvidia グラフィックスカードに依存しています。あるアナリストは、ChatGPT のトレーニングに約 10,000 個の Nvidia GPU が使用されており、サービスが拡大し続けるにつれて GPU の必要性も高まっていると述べています。 2021 年の暗号通貨の隆盛を生きた人なら誰でも、 GPU 不足が目前に迫っていることを感じることができるでしょう。

何人かの記者がまさにそのような関係を築いているのを見てきましたが、それは見当違いです。暗号通貨駆動型の GPU が不足する時代は終わりました。 AI のブームが続くにつれて、グラフィックスカードの需要が急増すると思われますが、その需要はゲーム機器に搭載されている最高のグラフィックスカードに向けられたものではありません。

Nvidia GPU が AI 向けに構築されている理由

まず、Nvidia が選ばれる理由を説明します。グラフィックスカード AIにとって非常に優れています。 Nvidia は過去数年間 AI に賭けてきましたが、ChatGPT の台頭後に同社の株価が急騰し、その甲斐ありました。 Nvidia が AI トレーニングの中心にあると考えられる理由は 2 つあります。それは Tensor コアと CUDA です。

CUDA は、Nvidia のアプリケーションプログラミングインターフェイス (API) であり、最も高価なデータセンター GPU から最も安価なゲーム GPU まで、あらゆるもので使用されています。 CUDA アクセラレーションは TensorFlow などの機械学習ライブラリでサポートされており、トレーニングと推論を大幅に高速化します。 CUDA は、AMD が Nvidia と比較して AI で大きく遅れをとっている原動力です。

ただし、CUDA を Nvidia の CUDA コアと混同しないでください。 CUDA は大量の AI アプリが実行されるプラットフォームですが、CUDA コアは Nvidia GPU 内のコアにすぎません。これらは名前を共有しており、CUDA コアは CUDA アプリケーションを実行するためにより最適化されています。 Nvidia のゲーム GPU には CUDA コアが搭載されており、CUDA アプリをサポートしています。

Tensor コアは基本的に専用の AI コアです。彼らは行列の乗算を処理します。これは、AI トレーニングを高速化する秘密のソースです。ここでの考え方はシンプルです。複数のデータセットを一度に乗算し、考えられる結果を生成することで AI モデルを飛躍的に高速にトレーニングします。ほとんどのプロセッサはタスクを線形に処理しますが、Tensor コアは 1 クロックサイクルでシナリオを迅速に生成できます。

繰り返しになりますが、 RTX 4080 などの Nvidia のゲーム用 GPU には Tensor コアが搭載されています (場合によっては、高価なデータセンターの GPU よりも多くのコアが搭載されています)。ただし、AI モデルを高速化するために Nvidia カードが必要とするすべての仕様において、メモリほど重要なものはありません。また、Nvidia のゲーム用 GPU にはそれほど多くのメモリが搭載されていません。

すべては記憶に帰着する

人工知能に関する数冊の本の著者であり、セントルイスのワシントン大学教授であるジェフリー・ヒートン氏は、「メモリのサイズが最も重要です」と述べています。「GPUが足りない場合は、ラムモデルのフィッティング/推論は単に停止します。」

特定の GPU 上で AI モデルがどの程度適切に実行されるかを専門に YouTube チャンネルを運営している Heaton 氏は、CUDA コアも同様に重要ですが、GPU が AI に対してどのように機能するかという点では、メモリ容量が支配的な要素であると指摘しました。 RTX 4090 には、ゲーム標準では大量のメモリ (24 GB GDDR6X) が搭載されていますが、データセンタークラスの GPU と比較すると非常に少ないです。たとえば、Nvidia の最新の H100 GPU には、80 GB の HBM3 メモリと、大規模な 5,120 ビットメモリバスが搭載されています。

少なくても済みますが、それでも大量のメモリが必要です。 Heaton 氏は、初心者には 12GB 以上を推奨しますが、一般的な機械学習エンジニアには 48GB のプロフェッショナル向け Nvidia GPU を 1 つまたは 2 つ搭載することになります。 Heaton 氏によると、「ほとんどのワークロードは、1 つの A100 から 8 つの A100 の範囲に収まるでしょう。」 Nvidia の A100 GPU には 40GB のメモリが搭載されています。

このスケーリングの動作も確認できます。 Puget Systems は、40 GB のメモリを搭載した 1 台の A100 が、24 GB のメモリを搭載した 1 台の RTX 3090 の約 2 倍の速度で動作することを示しています。それは、RTX 3090 がほぼ 2 倍の CUDA コアとほぼ同数の Tensor コアを搭載しているという事実にもかかわらずです。

ボトルネックとなるのはメモリであり、生の処理能力ではありません。これは、AI モデルのトレーニングは大規模なデータセットに依存しており、メモリに保存できるデータが多ければ多いほど、モデルをより速く (そしてより正確に) トレーニングできるためです。

異なるニーズ、異なる金型

Nvidia のゲーム GPU は、エンタープライズグレードのハードウェアと比較してビデオメモリが少ないため、一般に AI には適していませんが、ここにも別の問題があります。 Nvidia のワークステーション GPU は通常、GPU ダイをゲームカードと共有しません。

たとえば、Heaton 氏が参照した A100 は GA100 GPU を使用しています。これは Nvidia の Ampere シリーズのダイであり、ゲームに特化したカード (ハイエンドの RTX 3090 Ti を含む) では決して使用されていません。同様に、Nvidia の最新の H100 は、RTX 40 シリーズとは完全に異なるアーキテクチャを使用しています。つまり、異なるダイも使用しています。

例外もあります。 RTX 4090 および RTX 4080 に搭載されている Nvidia の AD102 GPU は、小規模な Ada Lovelace エンタープライズ GPU (L40 および RTX 6000) でも使用されています。ただし、ほとんどの場合、Nvidia はゲーム用 GPU ダイをそのままデータセンターカードに再利用することはできません。それらは別々の世界です。

仮想通貨マイニングによる GPU 不足と AI モデルの人気の高まりの間には、根本的な違いがいくつかあります。 Heaton 氏によると、GPT-3 モデルのトレーニングには 1,000 個を超える A100 Nvidia GPU が必要で、実行には約 8 個が必要でした。これらの GPU は高帯域幅の NVLink インターコネクトにもアクセスできますが、Nvidia の RTX 40 シリーズ GPU はアクセスできません。 Nvidia のゲームカードの最大 24 GB のメモリと、NVLink を備えた A100 などの GPU の数百メモリを比較しています。

メモリダイがゲーム用 GPU ではなくプロ用 GPU に割り当てられるなど、他にもいくつかの懸念がありますが、在庫のある GPU を見つけるチャンスを求めて地元のマイクロセンターや Best Buy に駆け込む時代はもう終わりました。 Heaton 氏は、この点をうまくまとめました。「ChatGPT などの大規模な言語モデルの実行には、少なくとも 8 つの GPU が必要であると推定されています。このような見積もりは、ハイエンドの A100 GPU を前提としています。私の推測では、これによりハイエンドの GPU が不足する可能性がありますが、ゲーマークラスの GPU には影響しないかもしれません。ラム」

「いいえ、ChatGPT が新たな GPU 不足を引き起こすことはありません」についての動画選定！

ChatGPTのGPTストア上位人気GPTsトップ10まとめ/CopilotにGPT-4 Turboが実装か？/NVIDIAとAMDがAI強化の新GPU発表【今週公開の最新AIツール&ニュース】

【超速報】遂にChatGPTにメモリ機能（記憶保持）キタ！待望アップデート！