Pada hari Tahun Baru Imlek tanggal 16 Februari, Alibaba merilis model besar generasi terbaru, Qwen3.5-Plus, sebagai sumber terbuka, dengan performa yang sebanding dengan Gemini 3 Pro, dan menduduki puncak sebagai model sumber terbuka terkuat di dunia.
Diketahui bahwa Qwen3.5 berhasil melakukan inovasi menyeluruh pada arsitektur model dasar. Versi Qwen3.5-Plus yang dirilis kali ini memiliki total parameter sebanyak 397 miliar, dengan aktivasi hanya 17 miliar, sehingga mampu mengungguli model Qwen3-Max yang memiliki triliunan parameter. Penggunaan memori GPU saat deployment turun sebesar 60%, efisiensi inferensi meningkat secara signifikan, dan throughput inferensi maksimum dapat meningkat hingga 19 kali lipat. Harga API Qwen3.5-Plus per juta token hanya 0,8 yuan, hanya 1/18 dari Gemini 3 Pro.
Berbeda dengan beberapa generasi model bahasa besar sebelumnya, Qwen3.5 mewujudkan lompatan generasi dari model teks murni menjadi model multimodal asli. Pretraining Qwen3 dilakukan pada token teks murni, sementara Qwen3.5 didasarkan pada token gabungan visual dan teks, serta menambahkan secara besar-besaran data dalam bahasa Inggris, Mandarin, multibahasa, STEM, dan inferensi. Hal ini memungkinkan model besar yang “bermata” ini mempelajari pengetahuan dunia yang lebih padat dan logika inferensi, mencapai performa puncak dari basis model Qwen3-Max dengan parameter kurang dari 40%, dan menunjukkan performa unggul dalam berbagai pengujian standar seperti inferensi, pemrograman, dan agen cerdas. Misalnya, Qwen3.5 meraih skor 87,8 dalam evaluasi penalaran pengetahuan MMLU-Pro, melampaui GPT-5.2; mendapatkan 88,4 dalam ujian masalah tingkat doktor GPQA, lebih tinggi dari Claude 4.5; dan mencetak rekor 76,5 dalam mengikuti instruksi IFBench; serta dalam pengujian agen umum BFCL-V4 dan pencarian agen Browsecomp, Qwen3.5 juga melampaui Gemini 3 Pro dan GPT-5.2.
Pelatihan multimodal asli ini juga membawa lonjakan kemampuan visual Qwen3.5: dalam berbagai pengujian resmi seperti inferensi multimodal (MathVison), VQA (RealWorldQA), pengenalan teks dan pemahaman dokumen (CC_OCR), kecerdasan spasial (RefCOCO-avg), dan pemahaman video (MLVU), Qwen3.5 meraih performa terbaik. Dalam tugas pemecahan masalah akademik, perencanaan tugas, dan inferensi ruang fisik, Qwen3.5 menunjukkan performa lebih baik dibanding model Qwen3-VL khusus, dengan peningkatan besar dalam kemampuan penentuan posisi spasial dan inferensi berbasis gambar, serta analisis inferensi yang lebih halus dan akurat. Dalam pemahaman video, Qwen3.5 mendukung input video berdurasi hingga 2 jam (1 juta token konteks) secara langsung, cocok untuk analisis konten video panjang dan pembuatan ringkasan. Selain itu, Qwen3.5 menggabungkan pemahaman visual dan kemampuan kode secara asli, dengan fitur pencarian gambar dan alat pembuatan gambar, memungkinkan konversi sketsa antarmuka gambar tangan langsung menjadi kode frontend yang dapat digunakan, serta memperbaiki UI hanya dari satu screenshot, menjadikan pemrograman visual benar-benar menjadi alat produktivitas.
Pelatihan multimodal asli Qwen3.5 dilakukan secara efisien di infrastruktur AI Alibaba Cloud. Melalui inovasi teknologi dasar, throughput pelatihan data campuran teks, gambar, dan video Qwen3.5 hampir menyamai pelatihan model basis teks murni, secara besar-besaran menurunkan hambatan pelatihan multimodal asli. Selain itu, dengan strategi penggunaan presisi FP8 dan FP32 yang dirancang secara cermat, saat memperluas pelatihan hingga triliunan token, penggunaan memori aktif berkurang sekitar 50%, dan kecepatan pelatihan meningkat 10%, sehingga mengurangi biaya pelatihan model dan meningkatkan efisiensi.
Qwen3.5 juga mencapai terobosan baru dari kerangka kerja agen ke aplikasi agen. Qwen3.5 mampu mengoperasikan ponsel dan komputer secara mandiri, menyelesaikan tugas harian secara efisien, mendukung lebih banyak aplikasi utama dan instruksi di perangkat mobile, serta menangani operasi multi-langkah yang lebih kompleks di PC seperti pengelolaan data lintas aplikasi dan otomatisasi proses, secara signifikan meningkatkan efisiensi operasional. Tim Qwen juga membangun kerangka kerja pembelajaran penguatan asinkron yang dapat diperluas untuk agen, mempercepat proses 3 hingga 5 kali, dan mendukung ekspansi agen cerdas berbasis plugin hingga jutaan unit.
Diketahui bahwa aplikasi Qwen dan versi PC telah mengintegrasikan model Qwen3.5-Plus secara langsung. Pengembang dapat mengunduh model baru di komunitas Moda dan HuggingFace, atau langsung mengakses layanan API melalui Alibaba Cloud Bailing. Alibaba juga akan segera merilis berbagai model seri Qwen3.5 dengan ukuran dan fungsi berbeda secara sumber terbuka. Model flagship yang lebih kuat, Qwen3.5-Max, juga akan segera diluncurkan.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Alibaba merilis generasi baru Model Dasar Qianwen 3.5, menduduki puncak sebagai model sumber terbuka terbesar dan terkuat di dunia
Pada hari Tahun Baru Imlek tanggal 16 Februari, Alibaba merilis model besar generasi terbaru, Qwen3.5-Plus, sebagai sumber terbuka, dengan performa yang sebanding dengan Gemini 3 Pro, dan menduduki puncak sebagai model sumber terbuka terkuat di dunia.
Diketahui bahwa Qwen3.5 berhasil melakukan inovasi menyeluruh pada arsitektur model dasar. Versi Qwen3.5-Plus yang dirilis kali ini memiliki total parameter sebanyak 397 miliar, dengan aktivasi hanya 17 miliar, sehingga mampu mengungguli model Qwen3-Max yang memiliki triliunan parameter. Penggunaan memori GPU saat deployment turun sebesar 60%, efisiensi inferensi meningkat secara signifikan, dan throughput inferensi maksimum dapat meningkat hingga 19 kali lipat. Harga API Qwen3.5-Plus per juta token hanya 0,8 yuan, hanya 1/18 dari Gemini 3 Pro.
Berbeda dengan beberapa generasi model bahasa besar sebelumnya, Qwen3.5 mewujudkan lompatan generasi dari model teks murni menjadi model multimodal asli. Pretraining Qwen3 dilakukan pada token teks murni, sementara Qwen3.5 didasarkan pada token gabungan visual dan teks, serta menambahkan secara besar-besaran data dalam bahasa Inggris, Mandarin, multibahasa, STEM, dan inferensi. Hal ini memungkinkan model besar yang “bermata” ini mempelajari pengetahuan dunia yang lebih padat dan logika inferensi, mencapai performa puncak dari basis model Qwen3-Max dengan parameter kurang dari 40%, dan menunjukkan performa unggul dalam berbagai pengujian standar seperti inferensi, pemrograman, dan agen cerdas. Misalnya, Qwen3.5 meraih skor 87,8 dalam evaluasi penalaran pengetahuan MMLU-Pro, melampaui GPT-5.2; mendapatkan 88,4 dalam ujian masalah tingkat doktor GPQA, lebih tinggi dari Claude 4.5; dan mencetak rekor 76,5 dalam mengikuti instruksi IFBench; serta dalam pengujian agen umum BFCL-V4 dan pencarian agen Browsecomp, Qwen3.5 juga melampaui Gemini 3 Pro dan GPT-5.2.
Pelatihan multimodal asli ini juga membawa lonjakan kemampuan visual Qwen3.5: dalam berbagai pengujian resmi seperti inferensi multimodal (MathVison), VQA (RealWorldQA), pengenalan teks dan pemahaman dokumen (CC_OCR), kecerdasan spasial (RefCOCO-avg), dan pemahaman video (MLVU), Qwen3.5 meraih performa terbaik. Dalam tugas pemecahan masalah akademik, perencanaan tugas, dan inferensi ruang fisik, Qwen3.5 menunjukkan performa lebih baik dibanding model Qwen3-VL khusus, dengan peningkatan besar dalam kemampuan penentuan posisi spasial dan inferensi berbasis gambar, serta analisis inferensi yang lebih halus dan akurat. Dalam pemahaman video, Qwen3.5 mendukung input video berdurasi hingga 2 jam (1 juta token konteks) secara langsung, cocok untuk analisis konten video panjang dan pembuatan ringkasan. Selain itu, Qwen3.5 menggabungkan pemahaman visual dan kemampuan kode secara asli, dengan fitur pencarian gambar dan alat pembuatan gambar, memungkinkan konversi sketsa antarmuka gambar tangan langsung menjadi kode frontend yang dapat digunakan, serta memperbaiki UI hanya dari satu screenshot, menjadikan pemrograman visual benar-benar menjadi alat produktivitas.
Pelatihan multimodal asli Qwen3.5 dilakukan secara efisien di infrastruktur AI Alibaba Cloud. Melalui inovasi teknologi dasar, throughput pelatihan data campuran teks, gambar, dan video Qwen3.5 hampir menyamai pelatihan model basis teks murni, secara besar-besaran menurunkan hambatan pelatihan multimodal asli. Selain itu, dengan strategi penggunaan presisi FP8 dan FP32 yang dirancang secara cermat, saat memperluas pelatihan hingga triliunan token, penggunaan memori aktif berkurang sekitar 50%, dan kecepatan pelatihan meningkat 10%, sehingga mengurangi biaya pelatihan model dan meningkatkan efisiensi.
Qwen3.5 juga mencapai terobosan baru dari kerangka kerja agen ke aplikasi agen. Qwen3.5 mampu mengoperasikan ponsel dan komputer secara mandiri, menyelesaikan tugas harian secara efisien, mendukung lebih banyak aplikasi utama dan instruksi di perangkat mobile, serta menangani operasi multi-langkah yang lebih kompleks di PC seperti pengelolaan data lintas aplikasi dan otomatisasi proses, secara signifikan meningkatkan efisiensi operasional. Tim Qwen juga membangun kerangka kerja pembelajaran penguatan asinkron yang dapat diperluas untuk agen, mempercepat proses 3 hingga 5 kali, dan mendukung ekspansi agen cerdas berbasis plugin hingga jutaan unit.
Diketahui bahwa aplikasi Qwen dan versi PC telah mengintegrasikan model Qwen3.5-Plus secara langsung. Pengembang dapat mengunduh model baru di komunitas Moda dan HuggingFace, atau langsung mengakses layanan API melalui Alibaba Cloud Bailing. Alibaba juga akan segera merilis berbagai model seri Qwen3.5 dengan ukuran dan fungsi berbeda secara sumber terbuka. Model flagship yang lebih kuat, Qwen3.5-Max, juga akan segera diluncurkan.