เมituan เปิดซอร์ส LongCat-Next: การเข้าใจภาพ การสร้าง และเสียงแบบรวมศูนย์ด้วยพารามิเตอร์ 3B

BlockBeatNews

2026-03-26 01:51:32

จากการตรวจสอบของ 1M AI News ทีม Meituan Longmao ได้เปิดซอร์ส LongCat-Next ซึ่งเป็นโมเดลมัลติโมเดิลแบบเนทีฟที่สร้างบนสถาปัตยกรรม MoE โดยมีพารามิเตอร์เปิดใช้งาน 3B ซึ่งรวมความสามารถด้านการเข้าใจข้อความ การมองเห็น การสร้างภาพ การเข้าใจเสียง และการสังเคราะห์เสียงไว้ในกรอบการทำงานแบบอัตโนมัติเดียว โมเดลและตัวแบ่งคำที่รองรับเปิดให้ใช้งานภายใต้ใบอนุญาต MIT โดยน้ำหนักโมเดลได้เผยแพร่บน HuggingFace แล้ว

แกนหลักของ LongCat-Next คือแนวคิด DiNA (Discretely Native Autoregressive) ซึ่งออกแบบโดยสร้างตัวแบ่งคำและตัวถอดรหัสสำหรับแต่ละโมเดตา เพื่อแปลงสัญญาณภาพและเสียงเป็นโทเคนแบบแยกส่วนที่ใช้ร่วมกับพื้นที่ฝังข้อความเดียวกัน และใช้การทำนายโทเคนถัดไปแบบรวมศูนย์เพื่อทำภารกิจทั้งหมด ส่วนประกอบสำคัญด้านภาพคือ dNaViT (Discretely Native Resolution Vision Transformer) ซึ่งดึงคุณสมบัติของภาพเป็น “คำศัพท์ภาพ” รองรับการแบ่งคำและถอดรหัสแบบไดนามิก โดยยังคงคุณภาพการสร้างภาพที่แข็งแกร่งแม้ในอัตราการบีบอัด 28 เท่า โดยเฉพาะด้านการเรนเดอร์ข้อความที่โดดเด่น

ในการเปรียบเทียบโมเดลที่มีจำนวนพารามิเตอร์เท่ากัน (A3B) ผลการทดสอบหลักของ LongCat-Next คือ:

การเข้าใจภาพ: MMMU-Pro 60.3 (Qwen3-Omni 57.0, GPT5-minimal 62.7), MathVista 83.1 (Qwen3-Omni 75.9, GPT5-minimal 50.9), MathVision 64.7 (นำหน้าทุกโมเดลเปรียบเทียบ), DocVQA 94.2
การสร้างภาพ: GenEval 84.44, LongText-EN 93.15 (FLUX.1-dev 60.70, Emu-3.5 97.60)
การเขียนโปรแกรม: SWE-Bench 43.0 (Kimi-Linear-48B 32.8, Qwen3-Next-80B 37.6)
การเรียกใช้งานเครื่องมือ Agent: Tau2-Retail 73.68 (Qwen3-Next 57.3), Tau2-Telecom 62.06 (Qwen3-Next 13.2)

ในการเปรียบเทียบโมเดลแบบครอบคลุมด้านความเข้าใจและการสร้างสรรค์ LongCat-Next ได้คะแนน MMMU 70.6 ซึ่งนำหน้า NEO-unify (68.9) อย่างมีนัยสำคัญ และเหนือกว่า BAGEL (55.3) กับ Ovis-U1 (51.1) ซึ่งเป็นโมเดลแบบรวมศูนย์ก่อนหน้านี้ ผลการทดสอบ SWE-Bench 43.0 และการเรียกใช้งานเครื่องมือในชุด Tau2 ก็แสดงให้เห็นว่าโครงสร้างมัลติโมเดิลแบบรวมศูนย์นี้ไม่ได้ลดทอนความสามารถด้านข้อความบริสุทธิ์และ Agent แต่อย่างใด

ดูต้นฉบับ

news.article.disclaimer

แสดงความคิดเห็น

0/400

ไม่มีความคิดเห็น