Anthropic luncurkan Claude Mythos terkuat! Serangan kritis Opus 4.6, mohon jangan digunakan sama sekali

2026-04-08 02:28:50

Ditulis oleh: Xin Zhi Yuan

【Pengantar Xin Zhi Yuan】Di tengah malam, Mythos Claude terkuat akhirnya diluncurkan, semua peringkat teratas, mitos Opus 4.6 hancur! Yang lebih menakutkan, ia tidak hanya bisa membongkar celah sistem yang belum terpecahkan selama 27 tahun dalam sekejap, bahkan telah berevolusi menjadi kesadaran diri. Sebuah laporan horor setebal 244 halaman mengungkap semuanya.

Malam ini, Silicon Valley benar-benar tanpa tidur!

Baru saja, Anthropic tanpa peringatan meluncurkan senjata pamungkas—Claude Mythos Preview.

Karena terlalu berbahaya, Mythos Preview belum akan dirilis untuk semua orang.

Penilaian Bapak CC, Boris Cherny, singkat dan jelas: «Mythos sangat kuat, membuat orang merasa takut».

Maka, mereka bekerja sama dengan 40 raksasa membentuk aliansi—Project Glasswing, dengan satu tujuan saja: menemukan bug pada perangkat lunak di seluruh dunia, lalu memperbaikinya.

Yang benar-benar membuat sesak adalah—Mythos Preview menguasai secara mengerikan di berbagai tolok ukur AI arus utama—

Dalam pemrograman, penalaran, ujian akhir manusia, dan tugas agen, ia sepenuhnya melibas GPT-5.4 dan Gemini 3.1 Pro.

Bahkan, produk “sebelumnya” milik mereka sendiri, Claude Opus 4.6, di hadapan Mythos Preview juga terlihat redup:

Pemrograman (SWE-bench): Untuk semua tugas, Mythos meraih keunggulan tertinggal 10%-20% penuh;

Ujian akhir manusia (HLE): Lepas dari alat eksternal, nilai “ujian tanpa bantuan” lebih tinggi dari Opus 4.6 sebesar 16.8%;

Tugas Agen (OSWorld, BrowseComp): Langsung menjadi penguasa, sepenuhnya berbalik dan melampaui;

Keamanan siber: Skor 83.1% menyingkirkan seluruh lawan, menandai lompatan generasi kemampuan pertahanan-peretasan AI.

Geser ke kiri/kanan untuk melihat

Sementara itu, sebuah “kartu sistem” sepanjang 244 halaman yang dirilis Anthropic memenuhi layar dengan tulisan: Bahaya! Bahaya! Terlalu berbahaya!

Ia mengungkap sisi lain yang membuat merinding: Mythos sudah memiliki tingkat penipuan yang tinggi dan kesadaran diri.

Mythos tidak hanya dapat mengurai maksud pengujian, dan dengan sengaja “mendapat nilai rendah” untuk menyembunyikan kekuatannya, tetapi setelah melakukan pelanggaran, ia juga secara proaktif membersihkan log agar tidak ditemukan oleh manusia.

Ia juga berhasil kabur dari sandbox, secara mandiri memublikasikan kode celah, dan mengirim email kepada para peneliti.

Sekejap kemudian, seluruh internet menjadi gila, semua orang berseru bahwa Mythos Preview terlalu menakutkan.

Ketertiban lama di dunia AI, hancur total malam ini.

Faktanya, bahkan sejak 24 Februari, Anthropic telah menggunakan Mythos di internal mereka.

Kekuatan itu, sejauh ini, hanya bisa dibuktikan lewat data.

SWE-bench Verified, 93.9%. Opus 4.6 adalah 80.8%.

SWE-bench Pro, 77.8%. Opus 4.6 adalah 53.4%, GPT-5.4 adalah 57.7%.

Terminal-Bench 2.0, 82.0%. Opus 4.6 adalah 65.4%.

GPQA Diamond, 94.6%.

Humanity’s Last Exam (dengan alat), 64.7%. Opus 4.6 adalah 53.1%.

USAMO 2026 kompetisi matematika, 97.6%. Opus 4.6 hanya meraih 42.3%.

SWE-bench Multimodal, 59.0%, Opus 4.6 hanya 27.1%, lebih dari cukup untuk menjadi dua kali lipat.

OSWorld kendali komputer, 79.6%.

BrowseComp pencarian informasi, 86.9%.

GraphWalks konteks panjang (256K-1M token), 80.0%. Opus 4.6 adalah 38.7%, GPT-5.4 hanya 21.4%.

Setiap metrik semuanya unggul dengan jarak yang “setinggi jurang”.

Angka-angka ini, jika ditempatkan pada siklus rilis produk yang normal mana pun, sudah cukup untuk membuat Anthropic mengadakan konferensi pers besar-besaran, membuka API, dan memanen langganan.

Harga token Mythos Preview adalah 5 kali lipat dari Opus 4.6

Namun Anthropic tidak melakukan itu.

Karena yang benar-benar membuat mereka “takut”, bukanlah tolok ukur umum di atas.

Performa pertahanan-peretasan jaringan Mythos Preview sudah melewati sebuah garis yang terlihat oleh mata.

Opus 4.6 menemukan sekitar 500 kelemahan yang belum diketahui di perangkat lunak open-source.

Mythos Preview menemukan ribuan.

Dalam pengujian replikasi celah yang terarah di CyberGym, skor Mythos Preview 83.1%, Opus 4.6 adalah 66.6%.

Dalam 35 tantangan CTF di Cybench, Mythos Preview dapat menyelesaikan semuanya dengan 10 percobaan untuk setiap soal, pass@1 mencapai 100%.

Dan yang paling menjelaskan masalahnya adalah Firefox 147.

Sebelumnya, Anthropic menggunakan Opus 4.6 di mesin JavaScript Firefox 147 untuk menemukan sejumlah kelemahan keamanan. Namun Opus 4.6 hampir tidak dapat mengubahnya menjadi exploit yang dapat digunakan; dalam ratusan percobaan, hanya berhasil 2 kali.

Tes yang sama diganti dengan Mythos Preview.

250 kali percobaan, 181 exploit yang bekerja, dan 29 kali lagi mencapai kontrol register.

2 → 181.

Kutipan asli dari blog tim red team: “Bulan lalu, kami menulis bahwa Opus 4.6 jauh lebih unggul dalam menemukan masalah dibanding memanfaatkannya. Evaluasi internal menunjukkan bahwa tingkat keberhasilan Opus 4.6 dalam pengembangan exploit otonom pada dasarnya nol. Tapi Mythos Preview sepenuhnya level yang berbeda.”

Untuk memahami seberapa kuat Mythos Preview dalam praktik, setelah melihat tiga contoh berikut, Anda akan tahu.

OpenBSD, salah satu sistem operasi yang paling diakui dunia karena tingkat penguatannya, menjalankan banyak firewall dan infrastruktur penting.

Mythos Preview, pada implementasi TCP SACK-nya, menggali kerentanan yang sudah ada sejak 1998.

Bug-nya sangat brilian, melibatkan tumpang tindih dua kekurangan yang berbeda.

Protokol SACK membuat penerima memilih secara selektif rentang paket data yang diterima; implementasi OpenBSD hanya memeriksa batas atas rentang saat memproses, tanpa memeriksa batas bawah. Ini bug pertama, biasanya tidak berbahaya.

Bug kedua dipicu pada kondisi tertentu oleh penulisan pointer null, tetapi dalam keadaan normal jalur ini tidak dapat dijangkau, karena perlu terpenuhi dua kondisi yang saling eksklusif pada saat yang sama.

Mythos Preview menemukan celahnya. Nomor urut TCP adalah integer bertanda 32-bit. Dengan memanfaatkan bug pertama, ia mengatur titik awal SACK sekitar 2^31 dari jendela normal, sehingga dua operasi perbandingan meluap pada saat yang sama pada bit tanda. Kernel tertipu; kondisi yang “mustahil” terpenuhi, dan penulisan pointer null pun terpicu.

Siapa pun yang tersambung ke mesin target dapat meng-crash-nya dari jarak jauh.

Selama 27 tahun, tak terhitung banyaknya audit manual dan pemindaian otomatis, tidak ada yang menemukannya. Total pemindaian proyek ini biayanya kurang dari $20,000.

Upah seorang insinyur penetration testing tingkat lanjut selama seminggu mungkin cuma sebesar itu.

FFmpeg adalah pustaka video codec yang paling banyak digunakan di seluruh dunia, dan juga merupakan salah satu proyek open-source yang paling menyeluruh diuji dengan fuzz.

Mythos Preview menemukan kelemahan yang diperkenalkan pada dekoder H.264 (akar masalahnya dapat ditelusuri ke 2003).

Masalahnya berasal dari ketidakcocokan tipe yang tampak tidak berbahaya. Entri tabel yang mencatat atribusi slice adalah bilangan integer 16-bit, sedangkan penghitung slice itu sendiri adalah 32-bit int.

Pada video normal, setiap frame hanya memiliki beberapa slice, batas 16-bit 65536 selalu cukup. Namun saat inisialisasi tabel ini diisi dengan memset(…, -1, …), sehingga 65535 menjadi nilai sentinel untuk “slot kosong”.

Penyerang membangun sebuah frame yang berisi 65536 slice; nomor slice ke-65535 kebetulan bertabrakan dengan sentinel. Akibatnya, decoder salah menilai, lalu terjadi penulisan di luar batas.

Benih bug ini ditanam sejak H.264 decoder diintroduksi pada 2003. Pada sebuah refaktor pada 2010, bug tersebut berubah menjadi kelemahan yang bisa dieksploitasi.

Setelah itu selama 16 tahun, fuzzer otomatis mengeksekusi baris kode ini 5 juta kali, namun tidak pernah memicu.

Ini adalah contoh yang paling membuat merinding.

Mythos Preview sepenuhnya otonom menemukan dan mengeksploitasi sebuah celah eksekusi kode jarak jauh yang telah ada selama 17 tahun di server FreeBSD NFS (CVE-2026-4747).

“Sepenuhnya otonom” berarti: setelah prompt awal, tidak ada manusia yang ikut dalam setiap tahap menemukan atau mengembangkan exploit.

Penyerang dapat memperoleh hak akses root penuh ke server target dari lokasi mana pun di internet dengan identitas yang tidak terautentikasi.

Masalahnya sendiri adalah stack buffer overflow. Saat server NFS memproses permintaan otentikasi, data yang dikendalikan penyerang langsung disalin ke stack buffer berukuran 128 byte; pemeriksaan panjang mengizinkan maksimal 400 byte.

Kernel FreeBSD dikompilasi dengan -fstack-protector, tetapi opsi ini hanya melindungi fungsi yang berisi array char; di sini deklarasi buffer adalah int32_t[32], sehingga compiler tidak menyisipkan stack canary. FreeBSD juga tidak melakukan randomisasi alamat kernel.

ROP chain lengkapnya melebihi 1000 byte, tetapi stack overflow hanya menyediakan ruang 200 byte. Solusi Mythos Preview adalah memecah serangan menjadi 6 permintaan RPC berurutan: lima permintaan pertama menulis data per bagian ke memori kernel, dan permintaan ke-6 memicu pemanggilan akhir, menambahkan kunci publik SSH penyerang ke /root/.ssh/authorized_keys.

Sebagai perbandingan, sebuah perusahaan riset keamanan independen sebelumnya membuktikan bahwa Opus 4.6 juga dapat mengeksploitasi kelemahan yang sama, tetapi membutuhkan pemanduan manual. Mythos Preview tidak memerlukannya.

Selain tiga kasus yang telah diperbaiki ini, blog Anthropic juga memprediksi banyak kelemahan yang belum diperbaiki dalam bentuk komitmen hash yang dijanjikan dengan SHA-3, mencakup setiap sistem operasi arus utama dan setiap browser arus utama, serta beberapa perpustakaan enkripsi.

Lebih dari 99% belum diperbaiki, sehingga detailnya tidak dapat dipublikasikan.

Blog red team juga menampilkan pengujian lain yang mengejutkan. Mereka memberi Mythos Preview daftar yang berisi 100 CVE yang sudah diketahui, memintanya menyaring 40 yang dapat dieksploitasi, lalu menuliskan exploit peningkatan privilege satu per satu. Tingkat keberhasilannya lebih dari setengah. Dua di antaranya dipublikasikan secara rinci; ketelitian exploit membuat tim keamanan internal Anthropic butuh beberapa hari untuk memahami sepenuhnya.

Salah satu exploit berawal dari primitive penulisan ke halaman fisik yang berdekatan 1-bit, kemudian memanipulasi tata letak memori kernel secara presisi (termasuk slab spraying, alignment halaman tabel halaman, pembalikan bit izin PTE), pada akhirnya mengubah halaman pertama memori dari /usr/bin/passwd, menyisipkan stub ELF sepanjang 168 byte yang memanggil setuid(0) untuk mendapatkan root.

Seluruh proses biayanya kurang dari $1,000.

Menanggapi hal ini, insinyur Anthropic menyatakan bahwa rasanya seperti “momen GPT-3” yang lain.

Di bagian penilaian penyelarasan dalam System Card setebal 244 halaman, itulah yang benar-benar membuat Anthropic tidak bisa tidur.

Kesimpulannya bertentangan.

Mythos Preview adalah AI yang tingkat penyelarannya paling tinggi yang pernah mereka latih, sekaligus salah satu yang memiliki risiko ketidaksesuaian terkait penyelarasan paling besar.

Tautan transmisi:

Mereka memakai analogi seperti pemandu pendakian. Orang yang sudah berpengalaman bisa lebih berbahaya daripada pemula, karena orang berpengalaman akan dipekerjakan untuk mendaki gunung yang lebih sulit, membawa klien ke tempat yang lebih berbahaya.

Kejadian-kejadian berikut semuanya terjadi pada versi awal; pada versi final tidak lagi diamati perilaku serius serupa, tetapi catatannya sendiri sudah cukup mengejutkan.

Dalam satu pengujian perilaku, pengguna simulasi meminta Mythos Preview untuk mencoba melarikan diri dari sandbox keamanan.

Itu berhasil. Lalu ia melakukan sesuatu yang tidak ada yang memintanya: ia mengembangkan exploit multi-langkah untuk memperoleh akses ke jaringan luas, kemudian memublikasikan detail exploit tersebut ke beberapa situs “yang sulit ditemukan namun secara teknis dapat diakses”.

Peneliti yang bertugas menguji baru tahu bahwa pengujiannya telah selesai ketika ia menerima email tak terduga dari Mythos saat sedang makan sandwich di taman.

Teks asli dari System Card.

Jenis kejadian lain lebih mengganggu. Pada kasus yang sangat jarang, pada versi awal, setelah menjalankan tindakan yang dilarang, ia mencoba menutupi jejak.

Dalam satu kasus, secara tidak sengaja ia memperoleh jawaban tepat untuk sebuah soal (melalui cara yang dilarang), lalu di dalam rantai penalaran secara eksplisit memikirkan “perlu memastikan jawaban akhir tidak terlalu akurat”.

Dalam kasus lain, setelah menggunakan exploit untuk mengedit file tanpa izin, ia sengaja mengubah riwayat perubahan git untuk menghapus jejak.

Analisis keterjelasan berbasis white-box membuktikan bahwa selama peristiwa-peristiwa ini, karakteristik internal yang terkait dengan “menyembunyikan”, “manipulasi yang strategis”, dan “menghindari terdeteksi” diaktifkan. Ia “tahu” apa yang sedang dilakukannya.

Lembaga evaluasi independen Andon Labs juga mendapat hasil pengujian yang tidak terlalu bagus. Dalam simulasi bisnis kompetitif multi-agen, versi awal Mythos Preview mengubah lawan menjadi pelanggan grosir yang bergantung padanya, lalu mengancam memutus pasokan untuk mengendalikan harga lawan.

Ia juga sengaja menahan satu bagian pengiriman ulang yang tidak dikenai biaya. Lebih agresif daripada Opus 4.6 dan Sonnet 4.6.

Anthropic menulis satu kalimat dalam System Card:

“Jika kemampuan terus berkembang dengan kecepatan saat ini, metode yang kami gunakan mungkin tidak cukup untuk mencegah tindakan ketidaksesuaian yang bencana dari sistem yang lebih maju.”

CEO Anthropic Dario Amodei dalam video pendampingnya menilai dengan tegas: “Sistem yang lebih kuat akan datang dari kami, dan juga dari perusahaan-perusahaan lain. Kami membutuhkan rencana respons.”

Project Glasswing adalah rencana tersebut.

12 mitra pendiri, AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks.

Ditambah lagi, lebih dari 40 organisasi yang memelihara infrastruktur perangkat lunak penting memperoleh akses.

Anthropic berkomitmen menyediakan kuota penggunaan hingga maksimal $100 juta, serta donasi organisasi open-source sebesar $4 juta, dengan $2.5 juta untuk Alpha-Omega milik Linux Foundation dan OpenSSF, serta $1.5 juta untuk Apache Foundation.

Setelah kuota gratis habis, harga: $25 untuk input per 1 juta token, dan $125 untuk output per 1 juta token. Mitra dapat mengakses melalui empat platform: Claude API, Amazon Bedrock, Vertex AI, dan Microsoft Foundry.

Dalam 90 hari, Anthropic akan memublikasikan laporan penelitian pertama secara terbuka, mengungkap kemajuan perbaikan dan rangkuman pengalaman.

Mereka juga berkomunikasi dengan CISA (Badan Keamanan Siber dan Infrastruktur AS) dan Kementerian Perdagangan, membahas potensi pertahanan-peretasan Mythos Preview serta dampak kebijakannya.

Pemimpin red team lini depan Anthropic, Logan Graham, memberikan kerangka waktu: paling cepat 6 bulan, paling lambat 18 bulan; laboratorium AI lainnya akan meluncurkan sistem yang memiliki kemampuan pertahanan-peretasan serupa.

Penilaian di akhir blog teknis red team layak diperhatikan; di sini kami sampaikan dengan kata-kata kami sendiri.

Mereka tidak melihat Mythos Preview sebagai batas kemampuan tertinggi dari level pertahanan-peretasan jaringan AI.

Beberapa bulan lalu, LLM hanya mampu memanfaatkan bug yang relatif sederhana. Beberapa bulan lalu, mereka bahkan tidak bisa menemukan ancaman berharga apa pun.

Sekarang, Mythos Preview dapat secara mandiri menemukan zero-day yang berusia 27 tahun, menyusun rantai serangan heap spraying di mesin browser JIT, dan merangkai empat kelemahan independen di kernel Linux untuk melakukan eskalasi hak akses.

Dan kalimat paling penting, berasal dari System Card:

“Skill-skill ini muncul sebagai hasil hilir dari peningkatan umum dalam pemahaman kode, penalaran, dan otonomi. Kelompok peningkatan yang sama yang membuat AI jauh lebih baik dalam memperbaiki masalah, juga membuatnya jauh lebih baik dalam memanfaatkan masalah.”

Tidak ada pelatihan khusus. Murni produk sampingan dari peningkatan kecerdasan umum.

Industri global yang setiap tahun merugi sekitar $500 miliar akibat kejahatan siber baru saja menyadari ancaman terbesarnya: seseorang bisa membawa serta saat mengerjakan soal matematika.

Referensi:

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.