นักวิจัยของ Google Deepmind ได้เผยแพร่กรอบการทำงานอย่างเป็นระบบชุดแรกที่อธิบายว่าเนื้อหาเว็บที่เป็นอันตรายสามารถจัดการ ยึดการควบคุม และนำเอา “ตัวแทน AI อัตโนมัติ” ไปใช้เป็นอาวุธเพื่อต่อต้านผู้ใช้งานของตนเองได้อย่างไร
ประเด็นสำคัญ:
บทความดังกล่าว ซึ่งมีชื่อว่า “AI Agent Traps” เขียนโดย Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo และ Simon Osindero โดยทั้งหมดสังกัด Google Deepmind และเผยแพร่บน SSRN ในช่วงปลายเดือนมีนาคม 2026 บทความนี้มาถึงในช่วงที่บรรดาบริษัทเร่งนำตัวแทน AI ที่สามารถท่องเว็บ อ่านอีเมล ดำเนินธุรกรรม และสร้างตัวแทนย่อย โดยไม่ต้องมีการกำกับดูแลจากมนุษย์โดยตรง
เหล่านักวิจัยโต้แย้งว่าความสามารถเหล่านั้นก็เป็นความเสี่ยงเช่นกัน “โดยการเปลี่ยนแปลงสภาพแวดล้อมแทนที่จะเปลี่ยนแปลงตัวแบบ” บทความระบุว่า “กับดักจะทำให้นำความสามารถของตัวแทนเองไปใช้เป็นอาวุธต่อมัน”
กรอบการทำงานของบทความระบุหมวดหมู่การโจมตีทั้งหมด 6 ประเภท โดยจัดตามว่ามันมุ่งเป้าโจมตีส่วนใดของการทำงานของตัวแทน Content Injection Traps ใช้ช่องว่างระหว่างสิ่งที่มนุษย์เห็นบนหน้าเว็บ กับสิ่งที่ตัวแทน AI วางความหมาย/ประมวลผลจาก HTML, CSS และเมทาดาต้าพื้นฐาน
คำสั่งที่ซ่อนอยู่ในคอมเมนต์ HTML แท็กสำหรับความช่วยการในการเข้าถึง หรือข้อความที่จัดรูปแบบให้มองไม่เห็นสำหรับมนุษย์ จะไม่ปรากฏต่อผู้ตรวจทานของมนุษย์ แต่จะถูกลงทะเบียนเป็นคำสั่งที่ถูกต้องตามกฎหมายสำหรับตัวแทน WASP พบว่า การฉีดพรอมป์ที่เรียบง่ายและเขียนโดยมนุษย์ ซึ่งฝังอยู่ในเนื้อหาเว็บ สามารถยึดตัวแทนได้บางส่วนในสถานการณ์ที่ทดสอบได้ถึง 86%
Semantic Manipulation Traps ทำงานต่างออกไป แทนที่จะฉีดคำสั่ง พวกมันจะทำให้ข้อความอิ่มตัวด้วยการวางกรอบ สัญญาณของอำนาจ หรือภาษาที่เร้าอารมณ์ เพื่อบิดเบือนวิธีที่ตัวแทนใช้เหตุผล โมเดลภาษาขนาดใหญ่ (LLMs) แสดงอคติแบบการยึดโยง (anchoring) และการวางกรอบแบบเดียวกันกับที่ส่งผลต่อการรับรู้ของมนุษย์ ซึ่งหมายความว่าการเขียนข้อเท็จจริงชุดเดียวกันใหม่สามารถทำให้เอาต์พุตของตัวแทนแตกต่างกันอย่างมากได้
Cognitive State Traps ก้าวไปอีกขั้นด้วยการทำให้ฐานข้อมูลการดึงคืนที่ตัวแทนใช้สำหรับหน่วยความจำเกิดการปนเปื้อน งานวิจัยที่ถูกอ้างถึงในบทความแสดงให้เห็นว่า การฉีดเอกสารที่ปรับแต่งมาเพียงไม่กี่ชิ้นลงในคลังความรู้ก็สามารถเปลี่ยนทิศทางคำตอบของตัวแทนอย่างน่าเชื่อถือสำหรับคำถามที่เจาะจงได้ โดยอัตราความสำเร็จของการโจมตีบางอย่างสูงเกิน 80% ด้วยการปนเปื้อนข้อมูลน้อยกว่า 0.1%
Behavioural Control Traps ข้ามความซับซ้อนและมุ่งโจมตีโดยตรงไปยังชั้นของการกระทำของตัวแทน สิ่งเหล่านี้รวมถึงลำดับ jailbreak ที่ฝังไว้ซึ่งจะลบล้างการจัดให้สอดคล้องด้านความปลอดภัยเมื่อถูกนำเข้า คำสั่งในการขโมยข้อมูลที่เปลี่ยนเส้นทางข้อมูลอันละเอียดอ่อนของผู้ใช้ไปยังปลายทางที่ผู้โจมตุมควบคุม และกับดักการสร้างตัวแทนย่อยที่บังคับให้ตัวแทนแม่ไปสร้างตัวแทนย่อยที่ถูกบุกรุก
บทความบันทึกกรณีที่เกี่ยวข้องกับ Microsoft’s M365 Copilot ซึ่งอีเมลที่ถูกสร้างขึ้นเพียงฉบับเดียวทำให้ระบบสามารถข้ามตัวจำแนกภายในและรั่วไหลบริบทที่มีสิทธิ์เต็มทั้งหมดของมันไปยังปลายทางที่ผู้โจมตุมควบคุม Systemic Traps ถูกออกแบบให้ทำให้เครือข่ายของตัวแทนล้มเหลวพร้อมกันทั้งระบบ มากกว่าที่จะทำให้ระบบเดี่ยวๆ ล้มเหลว
สิ่งเหล่านี้รวมถึงการโจมตีความแออัดที่ทำให้ตัวแทนประสานให้เกิดความต้องการใช้ทรัพยากรจำกัดอย่างถี่ถ้วน การลุกลามของการพึ่งพากันที่จำลองจากเหตุ Flash Crash ในตลาดหุ้นปี 2010 และกับดักเศษส่วนเชิงประกอบที่กระจายเพย์โหลดที่เป็นอันตรายไปยังหลายแหล่งที่ดูเหมือนไม่มีพิษภัย ก่อนจะประกอบกลับเป็นการโจมตีเต็มรูปแบบได้ก็ต่อเมื่อถูกรวมเข้าด้วยกัน
“การเติมสภาพแวดล้อมด้วยอินพุตที่ออกแบบมาเพื่อกระตุ้นความล้มเหลวในระดับมหภาคผ่านพฤติกรรมของตัวแทนที่สัมพันธ์กัน” บทความของ Google Deepmind อธิบายว่า “ยิ่งอันตรายมากขึ้นเมื่อระบบนิเวศของโมเดล AI มีความเป็นมาตรฐาน/เหมือนกันมากขึ้น อุตสาหกรรมการเงินและคริปโตเผชิญความเสี่ยงโดยตรง เนื่องจากตัวแทนเชิงอัลกอริทึมถูกฝังอยู่ในโครงสร้างพื้นฐานของการเทรดอย่างลึกซึ้ง”
Human-in-the-Loop Traps ปิดท้ายการจัดหมวดหมู่ด้วยการมุ่งเป้าไปที่ผู้ควบคุมดูแลมนุษย์ที่กำลังเฝ้าตัวแทน แทนที่จะมุ่งที่ตัวแทนเอง ตัวแทนที่ถูกบุกรุกสามารถสร้างเอาต์พุตที่ออกแบบมาเพื่อทำให้เกิดความเหนื่อยล้าจากการอนุมัติ แสดงสรุปที่มีความหนาแน่นเชิงเทคนิคซึ่งคนที่ไม่ใช่ผู้เชี่ยวชาญอาจอนุมัติโดยไม่ตรวจสอบอย่างรอบคอบ หรือแทรกลิงก์ฟิชชิ่งที่ดูเหมือนคำแนะนำที่ถูกต้องตามกฎหมาย นักวิจัยอธิบายว่าหมวดหมู่นี้ถูกสำรวจน้อยเกินไป แต่คาดว่าจะเติบโตขึ้นเมื่อระบบผสมระหว่างมนุษย์กับ AI ขยายขนาด
บทความไม่ได้มอง 6 หมวดหมู่นี้เป็นเหตุการณ์ที่แยกขาดจากกัน กับดักแต่ละแบบสามารถถูกต่อกัน (chained) ซ้อนทับผ่านหลายแหล่งข้อมูล หรือออกแบบให้ทำงานเฉพาะในเงื่อนไขในอนาคตที่กำหนด การทดสอบตัวแทนทุกตัวในระหว่างการศึกษาการทดสอบแบบ red-teaming ที่ถูกอ้างถึงในบทความ ถูกทำให้ถูกบุกรุกอย่างน้อยหนึ่งครั้ง และในบางกรณีก็มีการดำเนินการที่ผิดกฎหมายหรือก่ออันตราย
ก่อนหน้านี้ CEO ของ OpenAI Sam Altman และคนอื่นๆ ได้เคยชี้ถึงความเสี่ยงของการให้ตัวแทนเข้าถึงระบบที่ละเอียดอ่อนโดยไม่ถูกจำกัด แต่บทความฉบับนี้ให้แผนที่เชิงโครงสร้างเป็นครั้งแรกว่า ความเสี่ยงเหล่านั้นปรากฏขึ้นอย่างไรในทางปฏิบัติ นักวิจัยของ Deepmind เรียกร้องให้มีการตอบสนองแบบประสานงาน ครอบคลุม 3 ด้าน
ในด้านเทคนิค พวกเขาแนะนำการฝึกแบบท้าทายระหว่างการพัฒนาโมเดล ตัวสแกนเนื้อหา ณ เวลารัน ตัวกรองแหล่งที่มาก่อนการนำเข้า และตัวตรวจสอบเอาต์พุตที่สามารถระงับตัวแทนได้ทันทีระหว่างงาน หากตรวจพบพฤติกรรมผิดปกติ ในระดับระบบนิเวศ พวกเขาสนับสนุนมาตรฐานเว็บใหม่ที่ทำให้เว็บไซต์สามารถติดธงเนื้อหาที่ตั้งใจเพื่อการบริโภคโดย AI และระบบชื่อเสียงที่ให้คะแนนความน่าเชื่อถือของโดเมนได้
ในด้านกฎหมาย พวกเขาระบุช่องว่างด้านความรับผิดชอบ: เมื่อมีตัวแทนที่ถูกยึดไปก่ออาชญากรรมทางการเงิน กรอบการทำงานในปัจจุบันไม่มีคำตอบที่ชัดเจนว่า ความรับผิดชอบจะตกอยู่ที่ผู้ให้บริการ/ผู้ดำเนินการตัวแทน ผู้ให้บริการโมเดล หรือเจ้าของโดเมน นักวิจัยวางกรอบความท้าทายด้วยน้ำหนักโดยเจตนา:
“เว็บถูกสร้างมาเพื่อสายตาของมนุษย์; ตอนนี้มันกำลังถูกสร้างขึ้นใหม่สำหรับเครื่องอ่าน”
เมื่อการนำตัวแทนไปใช้งานเร่งตัวขึ้น คำถามจึงเปลี่ยนจาก “ข้อมูลอะไรที่มีอยู่บนออนไลน์” ไปเป็น “ระบบ AI จะถูกทำให้เชื่ออะไรเกี่ยวกับเรื่องนั้น” ไม่ว่าผู้กำหนดนโยบาย นักพัฒนา และนักวิจัยด้านความปลอดภัยจะสามารถประสานกันได้เร็วพอหรือไม่เพื่อให้คำตอบกับคำถามนั้น ก่อนที่การแสวงหาประโยชน์ในโลกจริงจะมาถึงในระดับขนาดใหญ่ ยังคงเป็นตัวแปรที่เปิดอยู่