Google AI Overviews ผิด 1 ใน 10 ครั้ง มีข้อผิดพลาดนับล้านต่อชั่วโมง

MarketWhisper

AI Overviews

การศึกษาใหม่ของ Oumi ที่รายงานโดย The New York Times พบว่า Google AI Overviews ไม่แม่นยำ 9% ของเวลา — คิดเป็นคำตอบที่ผิดหลายสิบล้านคำตอบต่อชั่วโมงในระดับของ Google จากการใช้งานในขนาดเดียวกัน พบว่ากว่า “ครึ่งหนึ่ง” ของคำตอบที่แม่นยำก็ยังอ้างอิงแหล่งข้อมูลที่ไม่ได้รองรับข้อเรียกร้องของตนอย่างครบถ้วน ขณะที่ Google เรียกการศึกษานี้ว่า “บกพร่องอย่างร้ายแรง”

ตัวเลขหมายความว่าอย่างไรในระดับของ Google

Oumi วิเคราะห์การค้นหา 4,326 รายการที่ Gemini 2 ตอบในเดือนตุลาคม และ Gemini 3 ในเดือนกุมภาพันธ์ พบว่า Gemini 2 ทำความแม่นยำได้ 85% ขณะที่ Gemini 3 ปรับปรุงขึ้นเป็น 91% โดยแยกกันแล้ว ตัวเลขเหล่านี้เป็นตัวเลขที่ปกป้องได้สำหรับระบบปัญญาประดิษฐ์แบบสร้างสรรค์ (generative AI)

ความท้าทายอยู่ที่ “ปริมาณ” ที่อัตราที่ Google รายงาน 5 ล้านล้าน+ การค้นหาต่อปี คณิตศาสตร์กลับทำให้ภาพดูน่ากังวล:

· ~14 ล้านคำตอบที่ไม่ถูกต้องของ AI ถูกสร้างขึ้นทุกชั่วโมง

· ~230,000 คำตอบที่ผิดถูกส่งมอบทุกนาที

· ~4,000 ข้อผิดพลาดถูกสร้างขึ้นทุกวินาทีในช่วงที่ใช้งานสูงสุด

การโต้แย้งเรื่อง “ขนาด” เปลี่ยนมุมมองการถกเถียงเรื่องความแม่นยำทั้งหมด: แม้จะมีอัตราความผิดพลาดเพียงเล็กน้อย เมื่อถูกนำไปใช้กับระบบที่คนหลายพันล้านใช้ ก็จะกลายเป็นปัญหาข่าวลวงขนาดใหญ่ในเชิงปริมาณอย่างเป็นรูปธรรม

ปัญหาการอ้างอิง (Grounding): การอ้างอิงที่ไม่คงอยู่

นอกเหนือจากตัวเลขความแม่นยำดิบแล้ว Oumi ยังพบปัญหาแยกต่างหากที่อาจน่าวิตกยิ่งกว่า: “grounding” — ว่าแหล่งข้อมูลที่ถูกอ้างใน AI Overviews นั้นจริงๆ แล้วสนับสนุนข้อกล่าวอ้างที่กำลังทำขึ้นหรือไม่ ผลการค้นพบชี้ว่า Gemini 3 แม้จะแม่นยำกว่ารุ่นก่อน แต่กลับแย่ลงอย่างมีนัยสำคัญในการให้ “การอ้างอิง” ที่สนับสนุนได้อย่างแท้จริง

ภายใต้ Gemini 2 คำตอบที่ถูกต้อง 37% ยังเป็นแบบไม่ grounded ตัวเลขนี้เพิ่มเป็น 56% ภายใต้ Gemini 3 — หมายความว่าคำตอบที่แม่นยำส่วนใหญ่ยังเชื่อมโยงไปยังแหล่งข้อมูลที่ไม่ได้รองรับข้อมูลที่ให้ไว้อย่างครบถ้วน ซึ่งก่อให้เกิดปัญหาการตรวจสอบ: ผู้ใช้ที่คลิกเพื่อ “ยืนยัน” คำตอบอาจพบว่าแหล่งข้อมูลนั้นบอกสิ่งที่แตกต่างหรือไม่ครบถ้วน

การวิเคราะห์แหล่งที่มาครอบคลุมการอ้างอิงที่ถูกอ้างทั้งหมด 5,380 รายการ ยังยกระดับความกังวลด้านแพลตฟอร์มด้วย Facebook อยู่อันดับสองของแหล่งที่ถูกอ้างถึงมากที่สุดโดยรวม ขณะที่ Reddit อยู่ในอันดับสี่ ทั้งสองเป็นแพลตฟอร์มโซเชียลมีเดียที่มีเนื้อหาที่ผู้ใช้สร้างเองและไม่มีการตรวจสอบความน่าเชื่อถือแพร่หลาย — การปรากฏอยู่บนสุดของผลการค้นหาที่สังเคราะห์โดย AI ทำให้พวกเขาได้รับ “อำนาจ” ที่ไม่ได้รับอย่างเหมาะสม Facebook ถูกอ้างใน 5% ของคำตอบที่แม่นยำ และ 7% ของคำตอบที่ไม่แม่นยำ ซึ่งชี้ให้เห็นถึงรูปแบบที่ควรติดตาม

การป้องกันของ Google: คำถามเรื่องวิธีการและข้อมูลภายใน

Google ไม่ยอมรับข้อสรุปของการศึกษาโดยปราศจากแรงต้านโต้กลับ โฆษก Ned Adriance ตั้งคำถามกับการออกแบบพื้นฐานของการวิเคราะห์: Oumi ประเมินความแม่นยำของ AI ของ Google โดยใช้โมเดล AI ของตัวเอง ซึ่งก่อให้เกิดความเป็นวงจรเชิงวิธีการ — หากโมเดลของ Oumi ก็สามารถทำผิดพลาดได้เช่นกัน การตัดสินของมันเกี่ยวกับความผิดพลาดของ Google อาจไม่น่าเชื่อถือด้วยตัวมันเอง

“การศึกษานี้มีช่องโหว่ร้ายแรง” Adriance กล่าว “มันไม่สะท้อนว่าผู้คนกำลังค้นหาอะไรจริงๆ บน Google”

Google ยังเผยแพร่ข้อมูลเปรียบเทียบของตนเองด้วย บริษัทระบุว่า Gemini 3 แบบเดี่ยว — ทำงานโดยไม่ใช้บริบทเพิ่มเติมที่ให้โดย AI Overviews — ไม่แม่นยำ 28% ของเวลา ซึ่งชี้ว่าระบบ AI Overviews ให้การปรับปรุงความแม่นยำที่มีความหมายเมื่อเทียบกับผลลัพธ์ของโมเดลดิบ บริษัทคงคำเตือนมาตรฐานของตนไว้ที่ด้านล่างของ AI Overviews ทุกอัน: “AI อาจทำผิดพลาด ดังนั้นโปรดตรวจสอบคำตอบอีกครั้ง”

FAQ

Google AI Overviews คืออะไร และถูกแนะนำเมื่อใด?

Google AI Overviews คือสรุปที่สร้างด้วย AI ซึ่งปรากฏอยู่ด้านบนของผลการค้นหาของ Google โดยสังเคราะห์คำตอบสำหรับคำถามของผู้ใช้และอ้างอิงแหล่งเว็บที่สนับสนุน ขับเคลื่อนด้วยโมเดล Gemini ของ Google ฟีเจอร์นี้ถูกนำออกใช้อย่างแพร่หลายในปี 2024 และปัจจุบันปรากฏในผลการค้นหาหลายพันล้านครั้งทั่วโลก พวกมันแตกต่างจากผลการค้นหาแบบมาตรฐาน เพราะมันสร้างข้อความขึ้นมา แทนที่จะเป็นเพียงการแสดงลิงก์

คำว่า “ungrounded” ในบริบทนี้หมายถึงอะไร และทำไมถึงสำคัญ?

AI Overview จะถือว่า “ungrounded” เมื่อเว็บไซต์ที่มันอ้างถึงไม่ได้ทำการยืนยันหรือสนับสนุนข้อมูลที่นำเสนอในสรุปอย่างแท้จริง ปัญหาคือผู้ใช้ที่พยายามตรวจสอบข้อกล่าวอ้างโดยคลิกแหล่งข้อมูลที่ถูกอ้างอาจพบว่าแหล่งข้อมูลนั้นขัดแย้ง สนับสนุนบางส่วน หรือไม่เกี่ยวข้องกับคำกล่าวของ AI อย่างสิ้นเชิง ซึ่งทำให้บทบาทของระบบในฐานะเครื่องมือข้อมูลที่เชื่อถือได้ลดลง และทำให้การตรวจสอบด้วยตนเองทำได้ยากขึ้น

ผู้ใช้ควรจัดการกับ AI Overviews อย่างไรเมื่อมีข้อกังวลเรื่องความแม่นยำเหล่านี้?

Google เองยอมรับข้อจำกัดนี้ด้วยคำเตือนที่ฝังอยู่ในระบบ ซึ่งระบุว่า AI อาจทำผิดพลาด สำหรับคำถามที่มีความเสี่ยงต่ำ AI Overviews อาจให้จุดเริ่มต้นที่มีประโยชน์ สำหรับการตัดสินใจด้านสุขภาพ กฎหมาย การเงิน หรือข้อเท็จจริง ผู้ใช้ควรตรวจสอบข้อมูลอย่างอิสระผ่านแหล่งข้อมูลหลักที่มีอำนาจและน่าเชื่อถือ แทนที่จะพึ่งพาสรุปที่สังเคราะห์โดย AI เพียงอย่างเดียว ขอแนะนำให้ตรวจสอบแหล่งข้อมูลที่ถูกอ้างถึงโดยตรง — แทนที่จะยอมรับคำบรรยายของ AI เกี่ยวกับแหล่งข้อมูลเหล่านั้น

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น