GPT-4 は 打ち上げ当時は印象的でしたが、一部の見物人は、GPT-4 がその精度とパワーの一部を失ったと観察しています。これらの観察結果は、 OpenAI フォーラム など、数か月前からオンラインに投稿されています。
こうした感情はしばらく前から存在していましたが、ついに証拠が得られるかもしれません。スタンフォード大学とカリフォルニア大学バークレー校と共同で実施された研究によると 、GPT-4 の応答能力は向上していないが、言語モデルの更なる更新により実際には悪化していることが示唆されています。
この調査は
「ChatGPT の動作は時間の経過とともにどのように変化するか?」
と題されています。は、3 月から 6 月にかけて GPT-4 と以前の言語バージョン GPT-3.5 の間の機能をテストしました。 500 の問題のデータセットを使用して 2 つのモデル バージョンをテストしたところ、研究者は次のことを観察しました。
研究者が使用したもう 1 つのテストは、GPT-4 に
「17,077 は素数ですか?」
と質問する思考連鎖手法でした。推論の問題。しただけでなく、
この研究は、OpenAI 幹部が GPT-4 が実際には愚かになっているのではないかという疑惑を鎮めようとしてからわずか 6 日後に発表されました。 以下のツイートは、 回答の質の低下がヘビーユーザーであることによる心理的現象であることを示唆しています。
特に、GPT-4 は現在、開発者または有料メンバーが ChatGPT Plus を通じて利用できます。私と同じように、 ChatGPT 無料研究プレビューを通じて GPT-3.5 に同じ質問をすると、正しい答えが得られるだけでなく、数学的プロセスの詳細な説明も得られます。
さらに、LeetCode の開発者は、3 月から 6 月にかけて、50 個の簡単な問題のデータセットにおける GPT-4 のパフォーマンスが 52% の精度から 10% の精度に低下することを確認し、コード生成にも問題が発生しました。
Twitterのコメンテーターである@svpino氏は、火に油を注ぐように、 OpenAIが「大型モデルと同様に動作するが、実行コストが低い、小型で特殊なGPT-4モデル」を使用しているのではないかという噂があると指摘した。
この安価で高速なオプションは、親会社がコラボレーションのためのテクノロジーに依存する他の多くの大規模組織を抱えている重要な時期に、GPT-4 応答の品質の低下につながる可能性があります。
ただし、この研究が何かを証明していると誰もが思っているわけではありません。行動の変化は能力の低下と同等ではないと 主張する人もいます 。このことは研究自体でも認められており、「機能を備えたモデルは、特定のプロンプトに応じてその機能を表示する場合もあれば、表示しない場合もある」と述べられています。言い換えれば、望ましい結果を得るには、ユーザーからのさまざまな種類のプロンプトが必要になる場合があります。
GPT-4 が最初に発表されたとき、OpenAI は言語モデルを 6 か月間トレーニングするために Microsoft Azure AI スーパーコンピューターを使用したことを詳しく説明し、 その結果「ユーザー プロンプトから必要な情報」を生成する可能性が 40% 高くなったと主張しました 。
GPT-3.5 LLM に基づく ChatGPT は、 2021 年以降の世界の出来事に関する知識が限られているなど、情報に関する課題があることですでに知られており、そのため不正確なデータでギャップを埋める可能性があります。ただし、情報の後退は、このサービスではこれまでに見たことのない、まったく新しい問題であるようです。ユーザーは、受け入れられた問題に対処するためのアップデートを楽しみにしていました。
OpenAIの最高経営責任者(CEO)であるサム・アルトマン氏は 最近 、連邦取引委員会がChatGPTが消費者保護法に違反したかどうかの 調査を開始したこと を受けてツイートで失望を表明した。
「私たちはテクノロジーの限界について、特に限界がある場合には透明性を保っています。そして、当社の利益制限構造は、無制限の利益を上げる動機が与えられていないことを意味します」と彼はツイートした。

