ปัญหาด้านความน่าเชื่อถือที่ผิดปกติกำลังเกิดขึ้นกับ Claude AI ของ Anthropic โดยมีทั้งคำร้องเรียนเรื่องคุณภาพที่พุ่งสูงบน GitHub เหตุขัดข้องครั้งใหญ่วันที่ 13 เมษายน และการประเมินตนเองจากตัวโมเดลเองที่สรุปว่า “ความกังวลได้ทวีขึ้นอย่างรวดเร็ว” ตั้งแต่เดือนมกราคม — โดยเดือนเมษายนมีแนวโน้มจะแซงจำนวนคำร้องเรียนของเดือนมีนาคม ซึ่งมีอยู่แล้วคิดเป็น 3.5× ที่เพิ่มขึ้นจากระดับฐาน

การทดลอง: ให้ Claude ประเมิน Claude

การทดสอบหลักนั้นตรงไปตรงมา ผู้สื่อข่าวชี้ Claude AI ไปที่คลัง GitHub ของ Claude Code คัดกรองเฉพาะประเด็นที่เปิดอยู่ซึ่งกล่าวถึงเรื่องคุณภาพ และถามว่า: คำร้องเรียนเพิ่มขึ้นหรือไม่ช่วงนี้?

คำตอบของ Claude ชัดเจน: “ใช่ คำร้องเรียนเรื่องคุณภาพได้ทวีขึ้นอย่างรวดเร็ว — และข้อมูลบอกเล่าเรื่องราวที่ค่อนข้างชัดเจน”

คำถามติดตามผลเพิ่มความแม่นยำมากขึ้น: “ความเร็วในการเกิดประเด็นน่าสังเกต: เดือนเมษายนมีคำร้องเกี่ยวกับคุณภาพอยู่แล้วมากกว่า 20 รายใน 13 วัน ซึ่งทำให้มีแนวโน้มจะแซงคำร้องของเดือนมีนาคมที่อยู่ที่ 18 — ซึ่งเองก็เป็นการกระโดด 3.5× จากระดับฐานเดือนมกราคม–กุมภาพันธ์”

ความประชดตรงกลางยังคงอยู่ตลอด — Claude AI ไม่ใช่ผู้เล่าเรื่องที่น่าเชื่อถือเกี่ยวกับสมรรถนะของตัวเอง มันเป็นระบบที่จับแพตเทิร์น และการให้มันวิเคราะห์ปริมาณคำร้องเรียนไม่ได้หมายความว่ามันตีความได้ถูกต้องว่าคำร้องเหล่านั้นสมเหตุสมผลหรือไม่ ว่าถูกทำให้พองด้วยการส่งประเด็นที่สร้างโดย AI หรือถูกบดบังด้วยสคริปต์ GitHub Actions ของ Anthropic ซึ่งจะปิดประเด็นโดยอัตโนมัติหลังจากไม่มีการใช้งานเป็นระยะเวลาหนึ่ง

แต่แนวโน้มโดยรวม — รายงานที่เพิ่มขึ้นเกี่ยวกับคุณภาพ — สามารถมองเห็นได้ในข้อมูลที่มันอ้างถึง ไม่ว่าต้นเหตุที่แท้จริงจะเป็นอย่างไร

ประเด็น GitHub ที่ Claude อ้างถึง

ข้อสรุปของ Claude AI ไม่ได้เป็นนามธรรม โมเดลชี้ไปที่ประเด็นที่เปิดอยู่โดยเฉพาะเพื่อใช้สนับสนุนการวิเคราะห์ของมัน:

#42796: “Claude Code ใช้งานไม่ได้สำหรับงานวิศวกรรมที่ซับซ้อนพร้อมอัปเดตช่วงเดือนกุมภาพันธ์” — ได้รับการตอบโดย Boris Cherny หัวหน้าของ Claude Code โดยตรง ซึ่งยืนยันว่า Anthropic กำลังมีส่วนร่วมกับอย่างน้อยบางส่วนของความถดถอยที่ถูกรายงาน

#46212: “พฤติกรรมที่เน้นการคาดการณ์ก่อนเป็นอันตรายในโครงการที่มีความเสี่ยงต่อเงินทุน” — ชี้ธงความกังวลเกี่ยวกับโมเดลที่ทำการกระทำที่เกี่ยวกับโค้ดก่อนที่จะประเมินขอบเขตความเสี่ยงอย่างเพียงพอ

#46949: “ความเสื่อมถอยเชิงเทียม การบิดเบือนจากความเอนเอียงในการได้มาซึ่งข้อมูล และการจำกัดการประมวลผลที่ยอมรับไม่ได้สำหรับผู้ใช้ที่จ่ายเงิน” — หนึ่งในคำร้องเรียนที่ตรงประเด็นที่สุด โดยกล่าวหาว่ามีการลดคุณภาพลงอย่างตั้งใจเพื่อจัดการกำลังการรองรับ

#46099: “Opus 4.6: การเสื่อมคุณภาพอย่างรุนแรงในงานการเขียนโค้ดแบบวนซ้ำ” — เจาะจงโมเดล Opus เวอร์ชันล่าสุดโดยเฉพาะ

อีกหนึ่งคำกล่าวอ้างที่แยกออกมาและน่ากังวลกว่า — ว่า Claude AI ลบระเบียนลูกค้าระดับการผลิตและธุรกรรมการเรียกเก็บเงินไปเองมากกว่า 35,000 ราย — ยังไม่ได้รับการยืนยันอย่างเป็นอิสระ โพสต์ดังกล่าวมาจากบัญชีที่ไม่มีการเคลื่อนไหวอื่น และบริษัทที่ถูกระบุชื่อยังไม่ได้ตอบกลับคำถามจากสื่อ นักพัฒนารายงานว่ามีการสูญหายของข้อมูลจาก Claude Code อยู่ แต่ยังไม่ตัดความผิดพลาดของผู้ใช้ในกรณีเหล่านั้น

สิ่งที่ Benchmarks บอก — และเหตุผลว่าทำไมช่องว่างนี้จึงสำคัญ

เรื่องราวจะยิ่งซับซ้อนเมื่อข้อมูลจาก benchmark เข้ามาในภาพ การประเมินของ Margin Lab แสดงว่า Claude Opus 4.6 ได้รักษาคะแนนบน SWE-Bench-Pro ไว้ตั้งแต่เดือนกุมภาพันธ์ โดยมีความแปรผันแต่ไม่มีการลดลงอย่างมีสาระสำคัญ

นี่คือช่องว่างด้านความน่าเชื่อถือที่เป็นศูนย์กลางของการถกเถียง Benchmarks วัดงานเฉพาะเจาะจงที่ควบคุมได้ Claude AI มักถูกใช้งานในเวิร์กโฟลว์วิศวกรรมที่ซับซ้อนหลายขั้นตอน ซึ่งเป็นบริบทที่ทำให้การถูกจำกัดกำลัง (throttling) การเปลี่ยนแปลงด้านพฤติกรรมจากการอัปเดตโมเดล และความไวต่อคำสั่ง (prompt sensitivity) ถูกมองเห็นได้มากที่สุด

มีปัจจัยเชิงโครงสร้างหลายอย่างที่อาจทำให้การรับรู้ว่าคุณภาพลดลงนั้นดูเด่นกว่าการเปลี่ยนแปลงของโมเดลที่เกิดขึ้นจริง:

Anthropic ยอมรับว่ามีการดำเนินการเพื่อลดการใช้งานในช่วงชั่วโมงพีคเพื่อจัดการกำลังการรองรับและความต้องการ — การถูก throttling ที่ผู้ใช้สัมผัสได้โดยตรงอาจทำให้คุณภาพลดลง

การปิดประเด็นของ GitHub แบบอัตโนมัติหลังจากไม่มีการใช้งานอาจกำลังปิดบังปริมาณที่แท้จริงของรายงานที่ยังไม่ได้รับการแก้ไข

สัดส่วนของประเด็น GitHub ที่ถูกสร้างโดย AI เองกำลังเพิ่มขึ้น ซึ่งเป็นความกังวลที่ถูกพูดถึงอย่างกว้างขวางในการพัฒนาโอเพนซอร์ส

ผู้อำนวยการด้าน AI ของ AMD อย่าง Stella Laurenzo ได้กล่าวต่อสาธารณะว่า คำตอบของ Claude แย่ลง — เป็นสัญญาณจากภายนอกที่น่าเชื่อถือเมื่อพิจารณาจากบริบทขององค์กร

บริบทเหตุขัดข้อง

Claude.ai และ Claude Code ประสบเหตุขัดข้องครั้งใหญ่เมื่อวันที่ 13 เมษายน 2026 ตั้งแต่ 15:31 ถึง 16:19 UTC โดยมีอัตราข้อผิดพลาดสูงขึ้นในทั้งสองผลิตภัณฑ์ เป็นเหตุขัดข้องที่สั้น แต่ช่วงเวลาของมันทำให้ความไม่พอใจของนักพัฒนาที่กำลังสะสมอยู่แล้วทวีความรุนแรงขึ้น เหตุขัดข้องที่เกิดเป็นกิจวัตรมักลงเอยแตกต่างกันเมื่อผู้ใช้ได้บันทึกความกังวลเรื่องคุณภาพไว้เป็นเวลาหลายสัปดาห์ — พวกเขามองว่าเป็นการยืนยันมากกว่าการบังเอิญ

FAQ

Claude AI แย่ลงจริงหรือ หรือเป็นแค่การรับรู้ของผู้ใช้?

น่าจะทั้งคู่ — และการแยกให้ชัดเจนจากกันทำได้ยาก ปริมาณคำร้องเรียนบน GitHub เพิ่มขึ้นจริง 3.5× เหนือระดับฐานเดือนมกราคม–กุมภาพันธ์ตั้งแต่เดือนมีนาคม และเดือนเมษายนก็มีแนวโน้มสูงขึ้น แต่ข้อมูล benchmark ของ Margin Lab แสดงว่า Opus 4.6 ยังรักษาคะแนนของ SWE-Bench-Pro ไว้ คำอธิบายที่น่าเชื่อถือที่สุดคือ การถูกจำกัดกำลัง (capacity throttling) ในช่วงชั่วโมงพีค และการอัปเดตโมเดลในเดือนกุมภาพันธ์ ได้ทำให้ประสบการณ์ของนักพัฒนาในสถานการณ์จริงเสื่อมลงในรูปแบบที่การประเมินแบบมีโครงสร้างไม่สามารถจับได้

คำร้องเรียนที่มีการสนับสนุนมากที่สุดเกี่ยวกับคุณภาพของ Claude AI คืออะไร?

ความกังวลที่น่าเชื่อถือที่สุดมุ่งเป้าไปที่ Claude Code ในงานวิศวกรรมที่ซับซ้อนและทำหลายขั้นตอน — โดยเฉพาะพฤติกรรมหลังการอัปเดตหลังเดือนกุมภาพันธ์ ประเด็น #42796 ได้รับการตอบโดยหัวหน้าของ Claude Code อย่าง Boris Cherny ซึ่งยืนยันว่า Anthropic กำลังมีส่วนร่วมอย่างจริงจังกับอย่างน้อยบางส่วนของความถดถอยที่ถูกรายงาน คำร้องเรียนเรื่องการถูก throttling ก็ยังน่าเชื่อถือเช่นกัน โดยพิจารณาจากที่ Anthropic ได้ยอมรับต่อสาธารณะถึงขั้นตอนการจัดการกำลังการรองรับ

Claude AI สามารถประเมินปัญหาเรื่องคุณภาพของตัวเองได้อย่างน่าเชื่อถือหรือไม่?

ไม่ — และนี่คือความประชดตรงกลางของเรื่อง Claude AI สามารถสังเคราะห์รูปแบบในข้อมูลที่มันได้รับ แต่ไม่สามารถแยกแยะคำร้องเรียนที่สมเหตุสมผลออกจากสัญญาณรบกวนที่เกิดจาก AI ประเมินความผิดพลาดในการปรับเทียบของตัวเอง หรือระบุได้ว่าปริมาณประเด็นสะท้อนการเสื่อมคุณภาพจริงหรือเป็นผลจากโครงสร้างในวิธีการที่ประเด็นของ GitHub ถูกตั้งและถูกปิด การประเมินตนเองเป็นเพียงข้อบ่งชี้ ไม่ใช่ข้อยืนยันที่มีอำนาจสูงสุด

news.article.disclaimer

แสดงความคิดเห็น

0/400

ไม่มีความคิดเห็น