新しい研究は、インターネットのどれくらいが今やAI生成かを示す数字を示している:35%。これは、スタンフォード大学、インペリアル・カレッジ・ロンドン、インターネットアーカイブの調査によると、2025年中頃までに新たに公開されたウェブサイトのうちAI生成またはAI支援と分類された割合だ。ChatGPTが2022年11月に登場する前は、その数字はほぼゼロだった。 「ウェブのAI支配の速度には驚かされる」と、インペリアル・カレッジ・ロンドンの研究者であり、論文の共著者であるJonáš Doležalは404 Mediaに語った。「何十年も人間が形作ってきたものが、わずか3年でAIによって定義される部分が大きくなった。」 この研究、「AI生成テキストがインターネットに与える影響」は、インターネットアーカイブのウェイバックマシンからの33か月分のウェブサイトスナップショットをもとに、AIテキスト検出器のPangram v3を用いて各ページを分類した。
確認された害:雰囲気、事実ではない 研究者たちは、AIコンテンツがウェブに与える6つの仮説を検証した。うち2つだけがデータの検証に耐えた。 最初の仮説:私たちは馬鹿なNPCの群れになりつつある… あるいは、より科学的に言えば、ウェブは意味内容の多様性を失いつつある。
AI生成サイトは、人間が書いたものよりもペアワイズの意味的類似性スコアが33%高かった。同じアイデアがほぼ同じ方法で繰り返し表現されている。
この論文は、オンラインのオーバートンウィンドウが狭まっている可能性を示唆している。検閲や調整されたキャンペーンではなく、言語モデルが訓練分布に近い出力を最適化しているためだ。 二つ目の仮説:ウェブは積極的に陽気になっている。 AIコンテンツは、人間のコンテンツよりも107%以上高いポジティブ感情スコアを示した。研究者たちは、これはLLMsのよく知られた追従的傾向に結びつけている。人間の承認信号で訓練されているため、テキストは洗練され、摩擦がなく、絶えず陽気なものになる。 陽気で均質化されたコンテンツに満ちたインターネットは、誰もレバーを引かなくても、大規模に人間の異議を疎外する可能性がある。
広く一般に信じられているにもかかわらず、研究ではAIコンテンツがインターネットの事実性を低下させているという統計的に有意な証拠は見つからなかった。AI普及率と事実誤り率の間に有意な相関もなかった。
スタイルの単一文化仮説—AIが個々の声を一般的な均一なレジスターに平坦化する—は、最も強く支持された仮説だった。83%がこれに同意した。データはこれを裏付けなかった。文字レベルの分析では、AI普及に伴うスタイルの均一性の統計的に有意な増加は見られなかった。 モデル崩壊の問題が現実味を帯びてきた より広い意味でのリスクは、言説の質を超えている。AI普及率が35%に達すると、将来のモデルがAI生成データで訓練された後に劣化するという理論的リスクが、学術的な懸念から実証的な現実へと変わる。現代のウェブクローリングに基づく将来の基盤モデルは、必然的にかなりの割合でAI生成データを取り込み、意味内容の多様性が測定可能なほど低下する。 チームは現在、インターネットアーカイブと協力して、この研究を継続的かつライブの監視ツールに変える作業を進めている。これにより、ウェブのAIのシェアをリアルタイムで追跡できるようになる。 この研究と並行して行われた米国の調査では、多くのアメリカ人がすでに6つの否定的仮説すべてを信じていることが判明した。データが支持しない仮説も含まれる。AIをあまり使わない人は、頻繁に使う人よりも12%高い確率で害を信じている。死んだインターネット理論の信奉者たちよ、データと出会え:インターネットは死んでいないが、新しいコンテンツの35%は何らかのゾンビコンテンツである可能性が高い。
345.68K 人気度
250.54K 人気度
35.7K 人気度
687.22K 人気度
139.46M 人気度
死んだインターネット?スタンフォードによると、新しいウェブサイトの3分の1はAI生成です
要約
新しい研究は、インターネットのどれくらいが今やAI生成かを示す数字を示している:35%。これは、スタンフォード大学、インペリアル・カレッジ・ロンドン、インターネットアーカイブの調査によると、2025年中頃までに新たに公開されたウェブサイトのうちAI生成またはAI支援と分類された割合だ。ChatGPTが2022年11月に登場する前は、その数字はほぼゼロだった。 「ウェブのAI支配の速度には驚かされる」と、インペリアル・カレッジ・ロンドンの研究者であり、論文の共著者であるJonáš Doležalは404 Mediaに語った。「何十年も人間が形作ってきたものが、わずか3年でAIによって定義される部分が大きくなった。」 この研究、「AI生成テキストがインターネットに与える影響」は、インターネットアーカイブのウェイバックマシンからの33か月分のウェブサイトスナップショットをもとに、AIテキスト検出器のPangram v3を用いて各ページを分類した。
確認された害:雰囲気、事実ではない 研究者たちは、AIコンテンツがウェブに与える6つの仮説を検証した。うち2つだけがデータの検証に耐えた。 最初の仮説:私たちは馬鹿なNPCの群れになりつつある… あるいは、より科学的に言えば、ウェブは意味内容の多様性を失いつつある。
AI生成サイトは、人間が書いたものよりもペアワイズの意味的類似性スコアが33%高かった。同じアイデアがほぼ同じ方法で繰り返し表現されている。
この論文は、オンラインのオーバートンウィンドウが狭まっている可能性を示唆している。検閲や調整されたキャンペーンではなく、言語モデルが訓練分布に近い出力を最適化しているためだ。 二つ目の仮説:ウェブは積極的に陽気になっている。 AIコンテンツは、人間のコンテンツよりも107%以上高いポジティブ感情スコアを示した。研究者たちは、これはLLMsのよく知られた追従的傾向に結びつけている。人間の承認信号で訓練されているため、テキストは洗練され、摩擦がなく、絶えず陽気なものになる。 陽気で均質化されたコンテンツに満ちたインターネットは、誰もレバーを引かなくても、大規模に人間の異議を疎外する可能性がある。
広く一般に信じられているにもかかわらず、研究ではAIコンテンツがインターネットの事実性を低下させているという統計的に有意な証拠は見つからなかった。AI普及率と事実誤り率の間に有意な相関もなかった。
スタイルの単一文化仮説—AIが個々の声を一般的な均一なレジスターに平坦化する—は、最も強く支持された仮説だった。83%がこれに同意した。データはこれを裏付けなかった。文字レベルの分析では、AI普及に伴うスタイルの均一性の統計的に有意な増加は見られなかった。 モデル崩壊の問題が現実味を帯びてきた より広い意味でのリスクは、言説の質を超えている。AI普及率が35%に達すると、将来のモデルがAI生成データで訓練された後に劣化するという理論的リスクが、学術的な懸念から実証的な現実へと変わる。現代のウェブクローリングに基づく将来の基盤モデルは、必然的にかなりの割合でAI生成データを取り込み、意味内容の多様性が測定可能なほど低下する。 チームは現在、インターネットアーカイブと協力して、この研究を継続的かつライブの監視ツールに変える作業を進めている。これにより、ウェブのAIのシェアをリアルタイムで追跡できるようになる。 この研究と並行して行われた米国の調査では、多くのアメリカ人がすでに6つの否定的仮説すべてを信じていることが判明した。データが支持しない仮説も含まれる。AIをあまり使わない人は、頻繁に使う人よりも12%高い確率で害を信じている。死んだインターネット理論の信奉者たちよ、データと出会え:インターネットは死んでいないが、新しいコンテンツの35%は何らかのゾンビコンテンツである可能性が高い。