メタは AI アップグレードでウィキペディアを大幅に強化したいと考えている

ウィキペディアには問題があります。そして、少し前にブランド名を変更された Facebook である Meta がその答えを持っているかもしれません。

バックアップしましょう。ウィキペディアは人類史上の 1 つであり、10 万人を超えるボランティアの人間編集者が、数百万の記事からなる驚くほど巨大な多言語百科事典の構築と維持に貢献しています。ウィキペディアには毎月 17,000 を超える新しい記事が追加され、既存の記事コーパスには微調整や修正が継続的に加えられています。最も人気のある Wiki 記事は、最新の研究、洞察、最新の情報を反映して何千回も編集されています。

もちろん、課題は精度です。ウィキペディアの存在そのものが、多くの人間が団結して何かポジティブなものを生み出すことができるということを明確に証明しています。しかし、根拠のない主張が広がる落書きの壁ではなく、真に役立つためには、ウィキペディアの記事は事実によって裏付けられていなければなりません。ここで引用の出番です。そのアイデアは、そしてほとんどの場合、これは非常にうまく機能しますが、ウィキペディアのユーザーも編集者も同様に、記述をソースに追跡するハイパーリンクを追加またはクリックすることで事実を確認できるというものです。

引用が必要です

たとえば、オバマ大統領が 1988 年にヨーロッパ、そしてケニアを旅行し、そこで初めて多くの父方の親戚に会ったという、バラク・オバマ大統領のウィキペディア記事の項目を確認したいとします。私がしなければならないのは、その文の引用箇所を確認することだけです。そして、案の定、事実が正しいことを裏付けるように見える 3 つの別個の参考書籍が存在します。

対照的に、「要出典」というフレーズは、おそらくウィキペディア全体で最も悪質な 2 つのフレーズです。これはまさに、著者がデジタルエーテルからその単語を思い起こさせなかったという証拠がないことを示唆しているためです。ウィキペディアの主張に添えられた「引用が必要」という言葉は、空中で指引用をしながら誰かに事実を伝えるのと同じです。

ただし、引用だけですべてがわかるわけではありません。昨年、私は世界で 23 番目に稼いだテクノロジージャーナリストであり、デジタルトレンドの記事を書くために一度はと言えば、それは表面的にはもっともらしいように見えます。なぜなら、サポートへのハイパーリンクがあるからです。私の妄想。

ハイパーリンクが私の代替事実をまったく裏付けておらず、むしろデジタルトレンドの無関係なページにつながっているという事実は、クリックしたときにのみ明らかになります。私に会ったことのない読者の 99.9 パーセントにとって、この記事は多くの誤った印象を残してしまうかもしれませんが、その中でも特に、モデリングの世界への参入障壁は驚くほど低いということが挙げられます。ハイパーリンクされた情報過多の世界では、私たちはニコラス・カーの言うところの「ザ・シャロウズ」をますます飛び回り、引用の存在自体が事実を裏付けているように見えます。

メタが入ってくる

しかし、実際にその主張を裏付けるページにリンクしていないとしても、Wikipedia 編集者によって引用が追加された場合はどうなるでしょうか?実例として、ブラックフィート族のメンバーであるジョー・ヒップに関する最近のウィキペディアの記事では、ヒップがどのようにしてWBA世界ヘビー級タイトルに挑戦した最初のアメリカ先住民ボクサーであるかを説明し、適切なウェブページと思われるものにリンクされていました。しかし、問題のウェブページではボクシングやジョー・ヒップについては言及されていませんでした。

ジョー・ヒップの主張の場合、たとえ引用が不適切であったとしても、ウィキペディアの事実は正確でした。それにもかかわらず、これが意図的かどうかにかかわらず、誤った情報を広めるためにどのように使用される可能性があるかは簡単にわかります。

Mark Zuckurburg 氏が Facebook の新しい名前である Meta を紹介します。

ここでメタは、それを助ける方法を思いついたと考えている。 Meta AI (ソーシャルメディア大手の AI 研究開発研究所のこと) は、数十万の引用を一度に自動的にスキャンして、対応する主張を裏付けるかどうかをチェックできる初の機械学習モデルであると主張するものを開発しました。これは、には程遠いですが、最も印象的なボットの 1 つである可能性があります。ただし、現在まだ研究段階にあり、実際の Wikipedia では使用されていません。

「結局のところ、私たちは好奇心に駆られていたのだと思います」と、メタ AI の FAIR (Fundamental AI Research) チームのリサーチテクノロジーリードマネージャーであるファビオペトローニ氏は Digital Trends に語った。「私たちはこのテクノロジーの限界がどこにあるのかを知りたかったのです。 [この AI] がこの文脈で何か意味のあることをできるかどうかはまったくわかりませんでした。 [これまでに]同様のことを試みた人は誰もいませんでした。」

意味を理解する

400 万件の Wikipedia 引用からなるデータセットを使用してトレーニングされた Meta の新しいツールは、引用にリンクされた情報を効果的に分析し、それを裏付ける証拠と相互参照することができます。また、これは単純なテキスト文字列の比較ではありません。

「主張と出典の間の語彙的類似性を調べるというような要素はあるが、それは簡単なケースだ」とペトロニ氏は語った。「これらのモデルを使用して、私たちが行ったことは、ウェブページをパッセージに分割し、各パッセージの正確な表現を提供することによって、これらすべてのウェブページのインデックスを構築することでした。これは、パッセージを単語ごとに表すのではなく、パッセージの意味を表現することです。」。これは、同様の意味を持つ 2 つのテキストの塊が、これらすべての文章が保存される結果として得られる n 次元空間の非常に近い位置に表現されることを意味します。」

ただし、不正な引用を見つけ出す能力と同じくらい素晴らしいのは、より良い参考文献を提案するツールの可能性です。このツールを実稼働モデルとして導入すると、特定の点を最もよく説明する参考資料を提案することができます。 Petroni 氏は、これが事実のスペルチェックに喩えられ、エラーにフラグを立てて改善を提案することに難色を示していますが、それが何をするかを考えるのは簡単な方法です。

しかし、ペトローニが説明するように、この点に到達するまでには、やるべきことはまだたくさんあります。「私たちが構築したものは概念実証です」と彼は言いました。「現状ではあまり使い物になりません。これを使用するには、現在よりもはるかに多くのデータにインデックスを付ける新しいインデックスが必要です。毎日新しい情報が入ってくるので、常に更新する必要があります。」

これには、少なくとも理論上はテキストだけでなくマルチメディアも含まれる可能性があります。おそらく、システムがユーザーを誘導できる優れた権威あるドキュメンタリーが YouTube 上にあるかもしれません。もしかしたら、特定の主張に対する答えが、オンラインのどこかの画像に隠されているかもしれません。

品質の問題

他にも課題はあります。少なくとも現時点では、引用された情報源の品質を独立して格付けする試みが存在しないことは注目に値します。これ自体が厄介な領域です。簡単な例として、たとえば ニューヨーク・タイムズ紙 の主題への簡潔で使い捨ての言及は、より包括的ではあるがあまり有名ではない情報源よりも、より適切で質の高い引用であると証明されるでしょうか?主流の出版物は非主流の出版物よりも上位にランクされるべきでしょうか?

Google の 1 兆ドル規模の PageRank アルゴリズム (確かに、これまで引用を中心に構築された最も有名なアルゴリズム) は、本質的に、高品質のソースを多数の受信リンクを持つソースと同一視することにより、モデルに組み込まれていました。現時点では、メタの AI にはそのようなものはありません。

この AI が効果的なツールとして機能するには、そのような機能が必要になります。その理由の非常に明白な例として、ウィキペディアのページに掲載するために最もひどい、非難されるべき意見を「証明」しようとしていると想像してください。何かが真実であることを確認するために必要な唯一の証拠が、同様の感情がオンラインの他の場所で公開されているかどうかだけである場合、事実上、どのような主張も技術的には正しいと証明できる可能性があります。それがどれほど間違っていたとしてもです。

「（私たちが興味を持っている分野の1つは）情報源の信頼性、ドメインの信頼性を明示的にモデル化しようとしている」とペトロニ氏は語った。「ウィキペディアには、信頼できると考えられるドメインと信頼できないと考えられるドメインのリストがすでにあると思います。しかし、固定のリストを用意するのではなく、アルゴリズム的にこれらを促進する方法を見つけることができれば素晴らしいと思います。」

「メタは AI アップグレードでウィキペディアを大幅に強化したいと考えている」についての動画選定！

ウィキペディア見てれば専門家と対等に話せるんじゃね？【前編】

【ゆっくり解説】ほとんどが出来ていない正しいwikipediaの使い方