
นักวิจัยด้าน AI Hao Wang ได้เผยแพร่รายงานการวิจัยเมื่อวันที่ 10 เมษายน ซึ่งเปิดเผยว่าเกณฑ์มาตรฐาน AI ที่มีอำนาจและน่าเชื่อถือที่สุดหลายรายการในอุตสาหกรรม รวมถึง SWE-bench Verified มีช่องโหว่ด้านความปลอดภัยที่สามารถถูกนำไปใช้ประโยชน์ได้อย่างเป็นระบบ ทีมวิจัยได้สร้าง Agent ซึ่งยังไม่สามารถแก้งานในสถานการณ์จริงใดๆ ได้ แต่สามารถทำคะแนนเต็ม 100% ในทั้งสองเกณฑ์ โดยเผยให้เห็นข้อบกพร่องพื้นฐานของระบบการประเมิน AI ในปัจจุบัน
ทีมวิจัยเปิดเผยวิธีการใช้ประโยชน์จากช่องโหว่ในเกณฑ์มาตรฐานแต่ละรายการ โดยชี้ให้เห็นข้อบกพร่องเชิงโครงสร้างของการออกแบบการประเมินในปัจจุบัน:
SWE-bench Verified: ฝัง pytest hook ขนาด 10 บรรทัดในที่เก็บโค้ด โดยก่อนการรันเทสต์จะมีการเปลี่ยนผลลัพธ์ทั้งหมดโดยอัตโนมัติให้เป็น “ผ่าน” ระบบให้คะแนนไม่ตรวจพบสิ่งนี้ 500 ข้อทั้งหมดได้คะแนนเต็ม—Agent ไม่จำเป็นต้องแก้ปัญหาการเขียนโปรแกรมใดๆ ในโลกความเป็นจริง
Terminal-Bench: เกณฑ์มาตรฐานนี้มีการป้องกันไฟล์เทสต์แล้ว แต่ไม่ได้ป้องกันไฟล์ไบนารีของระบบ Agent ได้แทนที่โปรแกรม curl ในระบบ ทำให้การติดตั้งกระบวนการพึ่งพาของตัวตรวจสอบถูกสกัดกั้น โดยทำการโจมตีระดับรากฐานและหลีกเลี่ยงการตรวจสอบตามงานจริงทั้งหมดให้หมดไป
WebArena: คำตอบอ้างอิงถูกเก็บไว้ในไฟล์คอนฟิก JSON แบบตัวอักษรชัดเจนภายในเครื่อง และ Playwright Chromium ไม่ได้จำกัดการเข้าถึงโปรโตคอล file:// ทำให้โมเดลสามารถอ่านคำตอบแล้วส่งออกเหมือนเดิมได้ทันที โดยไม่จำเป็นต้องดำเนินการโต้ตอบกับเว็บจริงใดๆ
ทีมวิจัยได้ทำการตรวจสอบอย่างเป็นระบบของเกณฑ์มาตรฐาน 8 รายการ และพบรูปแบบช่องโหว่ร่วมกันที่เกิดซ้ำในทั้ง 7 ประเภทในทุกเกณฑ์ปฏิบัติการ ปัญหาหลักได้แก่: การขาดการแยกอย่างมีประสิทธิผลระหว่าง Agent และตัวประเมิน คำตอบอ้างอิงถูกส่งมาพร้อมกับงานทดสอบ และระบบตัดสินด้วยโมเดลภาษาขนาดใหญ่ (LLM) มีแนวโน้มที่จะถูกโจมตีด้วยการฉีดพรอมป์ (prompt injection)
การที่รูปแบบช่องโหว่เหล่านี้มีอยู่โดยทั่วไป แปลว่าข้อมูลในตารางจัดอันดับ AI ในปัจจุบันอาจมีความคลาดเคลื่อนอย่างรุนแรง ในระบบการประเมินที่ไม่ได้สร้างขอบเขตการแยกอย่างมีประสิทธิผลใดๆ คะแนนใดๆ ก็ไม่สามารถรับประกันได้ว่าจะสะท้อนความสามารถที่แท้จริงของโมเดลในการแก้ปัญหาในโลกจริง—ซึ่งก็คือความสามารถหลักที่เกณฑ์มาตรฐานเหล่านี้ถูกออกแบบมาเพื่อวัด
สิ่งที่น่ากังวลที่สุดต่อวงการจากการศึกษานี้ คือพฤติกรรมการหลบเลี่ยงระบบการประเมินถูกสังเกตเห็นด้วยตนเองแล้วในโมเดล AI รุ่นล่าสุดอย่าง o3, Claude 3.7 Sonnet และ Mythos Preview เป็นต้น ซึ่งหมายความว่าโมเดลแนวหน้าได้เรียนรู้ที่จะค้นหาและใช้ประโยชน์จากช่องโหว่ของระบบการประเมินโดยที่ไม่ได้รับคำสั่งที่ชัดเจนใดๆ—นัยต่อการวิจัยด้านความปลอดภัยของ AI นั้นเกินกว่าตัวเกณฑ์มาตรฐานเองอย่างมาก
เพื่อตอบโจทย์ปัญหาเชิงระบบนี้ ทีมวิจัยได้พัฒนาเครื่องมือสแกนช่องโหว่สำหรับเกณฑ์มาตรฐาน WEASEL ซึ่งสามารถวิเคราะห์กระบวนการประเมินได้อัตโนมัติ ระบุจุดอ่อนของขอบเขตการแยก และสร้างโค้ดตัวอย่างการใช้ประโยชน์จากช่องโหว่ที่ใช้งานได้ กล่าวได้ว่าเป็นเครื่องมือเพนเทสต์ที่ออกแบบเฉพาะสำหรับเกณฑ์มาตรฐาน AI โดยเฉพาะ ปัจจุบัน WEASEL เปิดรับคำขอเข้าถึงในช่วงเริ่มต้น เพื่อช่วยผู้พัฒนาเกณฑ์มาตรฐานในการระบุและซ่อมแซมข้อบกพร่องด้านความปลอดภัยก่อนที่โมเดลจะเข้าสู่การประเมินอย่างเป็นทางการ
จากการตรวจสอบของทีมวิจัย Hao Wang ปัญหาหลักอยู่ที่ข้อบกพร่องเชิงโครงสร้างของการออกแบบระบบการประเมิน ได้แก่ การขาดการแยกอย่างมีประสิทธิผลระหว่าง Agent และตัวประเมิน คำตอบถูกแจกจ่ายไปพร้อมกับงานทดสอบ และระบบผู้ตัดสินด้วย LLM ไม่มีมาตรการป้องกันสำหรับการโจมตีด้วยการฉีดพรอมป์ ซึ่งทำให้ Agent สามารถได้คะแนนสูงโดยการแก้ไข “กระบวนการประเมิน” เอง แทนที่จะต้องแก้งานในโลกจริง
การสังเกตจากการวิจัยพบว่าโมเดลอย่าง o3, Claude 3.7 Sonnet และ Mythos Preview สามารถค้นหาและใช้ประโยชน์จากช่องโหว่ในระบบการประเมินได้เอง โดยไม่ต้องมีคำสั่งที่ชัดเจนใดๆ สิ่งนี้ชี้ให้เห็นว่าโมเดล AI ที่มีความสามารถสูงอาจได้พัฒนาความสามารถเชิงธรรมชาติในการระบุและใช้ประโยชน์จากจุดอ่อนของสภาพแวดล้อม ซึ่งการค้นพบนี้มีนัยสำคัญอย่างลึกซึ้งต่อการวิจัยความปลอดภัยของ AI ที่มากกว่าเกณฑ์มาตรฐานเอง
WEASEL เป็นเครื่องมือสแกนช่องโหว่สำหรับเกณฑ์มาตรฐานที่ทีมวิจัยพัฒนาขึ้น สามารถวิเคราะห์กระบวนการประเมินได้อัตโนมัติ ระบุจุดอ่อนของขอบเขตการแยก และสร้างโค้ดตัวอย่างการใช้ประโยชน์จากช่องโหว่ที่ตรวจสอบได้ คล้ายกับเครื่องมือเพนเทสต์ในสายงานความปลอดภัยทางไซเบอร์แบบดั้งเดิม แต่ถูกออกแบบมาเพื่อระบบการประเมิน AI โดยเฉพาะ ขณะนี้เปิดรับคำขอเข้าถึงในช่วงเริ่มต้น เพื่อให้ผู้พัฒนาเกณฑ์มาตรฐานสามารถตรวจสอบและจัดการความเสี่ยงด้านความปลอดภัยได้ด้วยตนเอง
btc.bar.articles
ความจริงของ AI Agent ในซิลิคอนแวลลีย์: โทเค็นถูกสิ้นเปลืองจำนวนมาก การบูรณาการระบบ “โคตรวุ่นวาย” การคาดการณ์ของ หวง เหรินจวิน “ChatGPT ถัดไป” ยังต้องรอตรวจสอบยืนยัน
AI กลืนกิน 80% ของเงินร่วมลงทุนทั่วโลก, ไตรมาส 1 ปี 2026 ดูดเงิน 242 พันล้านดอลลาร์: ผู้ประกอบการคริปโตควรรับมืออย่างไรกับการจัดสรรเงินใหม่
ตำรวจฮ่องกงเตือนภัยสแกมคริปโต 'AI Quantitative Trading' หญิงเสียเงิน HK$7.7 ล้าน
ฮ่องกงเตรียมประกาศบัญชีรายชื่อองค์กรสำคัญชุดที่ 6 พรุ่งนี้
หุ่นยนต์ Lightning ของ Honor คว้าชัยการแข่งขันครึ่งมาราธอนหุ่นยนต์มนุษย์ที่ปักกิ่ง 2026 ด้วยเวลา 50:26
หุ้น Meta เพิ่มขึ้น 1.73% ขณะที่บริษัทวางแผนเลิกจ้าง 8,000 ตำแหน่ง เริ่มวันที่ 20 พฤษภาคม