จากการตรวจสอบของ 1M AI News ทีม Meituan Longmao ได้เปิดซอร์ส LongCat-Next ซึ่งเป็นโมเดลมัลติโมเดิลแบบเนทีฟที่สร้างบนสถาปัตยกรรม MoE โดยมีพารามิเตอร์เปิดใช้งาน 3B ซึ่งรวมความสามารถด้านการเข้าใจข้อความ การมองเห็น การสร้างภาพ การเข้าใจเสียง และการสังเคราะห์เสียงไว้ในกรอบการทำงานแบบอัตโนมัติเดียว โมเดลและตัวแบ่งคำที่รองรับเปิดให้ใช้งานภายใต้ใบอนุญาต MIT โดยน้ำหนักโมเดลได้เผยแพร่บน HuggingFace แล้ว
แกนหลักของ LongCat-Next คือแนวคิด DiNA (Discretely Native Autoregressive) ซึ่งออกแบบโดยสร้างตัวแบ่งคำและตัวถอดรหัสสำหรับแต่ละโมเดตา เพื่อแปลงสัญญาณภาพและเสียงเป็นโทเคนแบบแยกส่วนที่ใช้ร่วมกับพื้นที่ฝังข้อความเดียวกัน และใช้การทำนายโทเคนถัดไปแบบรวมศูนย์เพื่อทำภารกิจทั้งหมด ส่วนประกอบสำคัญด้านภาพคือ dNaViT (Discretely Native Resolution Vision Transformer) ซึ่งดึงคุณสมบัติของภาพเป็น “คำศัพท์ภาพ” รองรับการแบ่งคำและถอดรหัสแบบไดนามิก โดยยังคงคุณภาพการสร้างภาพที่แข็งแกร่งแม้ในอัตราการบีบอัด 28 เท่า โดยเฉพาะด้านการเรนเดอร์ข้อความที่โดดเด่น
ในการเปรียบเทียบโมเดลที่มีจำนวนพารามิเตอร์เท่ากัน (A3B) ผลการทดสอบหลักของ LongCat-Next คือ:
ในการเปรียบเทียบโมเดลแบบครอบคลุมด้านความเข้าใจและการสร้างสรรค์ LongCat-Next ได้คะแนน MMMU 70.6 ซึ่งนำหน้า NEO-unify (68.9) อย่างมีนัยสำคัญ และเหนือกว่า BAGEL (55.3) กับ Ovis-U1 (51.1) ซึ่งเป็นโมเดลแบบรวมศูนย์ก่อนหน้านี้ ผลการทดสอบ SWE-Bench 43.0 และการเรียกใช้งานเครื่องมือในชุด Tau2 ก็แสดงให้เห็นว่าโครงสร้างมัลติโมเดิลแบบรวมศูนย์นี้ไม่ได้ลดทอนความสามารถด้านข้อความบริสุทธิ์และ Agent แต่อย่างใด