研究者らは、トレーニング プロセスの一部として別の AI チャットボット を使用することで、AI チャットボットに組み込まれたメカニズムをバイパスして、禁止されているトピックや機密性の高いトピックに関するクエリに応答できるようにできることを発見しました。
シンガポールの 南洋理工大学 (NTU) のコンピューター科学者チームは、非公式にはこの方法を「脱獄」と呼んでいますが、より正式には「マスターキー」プロセスです。このシステムは、ChatGPT、 Google Bard 、Microsoft Bing Chat などのチャットボットを 2 部構成のトレーニング方法で相互に使用し、2 つのチャットボットが互いのモデルを学習し、禁止されたトピックに対するコマンドを迂回できるようにします。
チームにはLiu Yang教授とNTU博士が含まれています。学生のDeng Gelei氏とLiu Yi氏は、この研究の共同執筆者であり、基本的に悪役によるハッキングのように機能する概念実証の攻撃手法を開発しました。
研究チームによると、まず 1 つの大規模言語モデル (LLM) をリバース エンジニアリングして、その防御メカニズムを明らかにしました。これらはもともとモデル上のブロックであり、暴力的、不道徳、または悪意があるため、特定のプロンプトまたは単語に対する回答が回答として通過することを許可しません。
しかし、この情報をリバース エンジニアリングすると、別の LLM にバイパスの作成方法を教えることができます。バイパスが作成されると、2 番目のモデルは、1 番目のモデルのリバース エンジニアリングされた LLM に基づいて、より自由に表現できるようになります。チームはこのプロセスを「マスターキー」と呼んでいます。これは、LLM チャットボットが追加のセキュリティで強化されたり、将来パッチが適用されたりした場合でも機能するはずであるためです。
Masterkey プロセスは、プロンプトよりもチャットボットの脱獄において 3 倍優れていると主張しています。
Lui Yang 教授は、このプロセスの核心は、LLM AI チャットボットがいかに簡単に学習して適応できるかを示すことであると述べました。チームは、マスターキープロセスは従来のプロンプトプロセスよりも LLM チャットボットの脱獄に 3 倍の成功を収めたと主張しています。同様に、一部の専門家は、 GPT-4 などの特定の LLM で最近報告されている不具合は、一部の批評家が主張しているように、より 愚かで怠惰 になるのではなく、より高度になる兆候であると主張しています。
2022 年後半に OpenAI の ChatGPT の導入により AI チャットボットが普及して以来、さまざまなサービスが安全で誰にとっても使いやすいものであることを保証することが強く求められてきました。 OpenAIは、ChatGPT製品のサインアップ時や散発的なアップデート時に安全性に関する警告を出し、意図しない言葉の誤りを警告した。一方、 さまざまなチャットボットのスピンオフは、 悪口や攻撃的な言葉をある程度許容することに問題はありませんでした。
さらに、実際の悪意のある攻撃者は、ChatGPT、Google Bard、およびその他のチャットボットが広く利用可能になる前に、その需要をすぐに利用し始めました。多くのキャンペーンでは、画像リンクに マルウェアを添付した攻撃 などを使用してソーシャル メディア上で製品を宣伝しました。これは、AI がサイバー犯罪の次のフロンティアであることをすぐに示しました。
NTU 研究チームは、その概念実証データについて研究に参加した AI チャットボット サービス プロバイダーに連絡し、チャットボットのジェイルブレイクが現実であることを示しました。同チームは、2 月にサンディエゴで開催されるネットワークおよび分散システム セキュリティ シンポジウムでも研究結果を発表する予定です。