与此同时,Web3 正通过去中心化算力网络与加密激励体系重构 AI 的生产关系,而强化学习对 rollout 采样、奖励信号与可验证训练的结构性需求,恰与区块链的算力协作、激励分配与可验证执行天然契合。本研报将系统拆解 AI 训练范式与强化学习技术原理,论证强化学习 × Web3 的结构优势,并对 Prime Intellect、Gensyn、Nous Research、Gradient、Grail 和 Fraction AI 等项目进行分析。
Prime Intellect 致力于构建全球开放算力市场,降低训练门槛、推动协作式去中心化训练,并发展完整的开源超级智能技术栈。其体系包括:Prime Compute(统一云/分布式算力环境)、INTELLECT 模型家族(10B–100B+)、开放强化学习环境中心(Environments Hub)、以及大规模合成数据引擎(SYNTHETIC-1/2)。
Prime Intellect 核心基础设施组件 prime-rl 框架专为异步分布式环境设计与强化学习高度相关,其余包括突破带宽瓶颈的 OpenDiLoCo 通信协议、保障计算完整性的 TopLoc 验证机制等。
Prime Intellect 核心基础设施组件一览
技术基石:prime-rl 异步强化学习框架
prime-rl 是 Prime Intellect 的核心训练引擎,专为大规模异步去中心化环境设计,通过 Actor–Learner 完全解耦实现高吞吐推理与稳定更新。执行者 (Rollout Worker) 与学习者 (Trainer) 不再同步阻塞,节点可随时加入或退出,只需持续拉取最新策略 dan mengunggah data yang dihasilkan:
· Pelaku (Rollout Worker):bertanggung jawab untuk inferensi model dan pembuatan data. Prime Intellect secara inovatif mengintegrasikan mesin inferensi vLLM di sisi Actor. Teknologi PagedAttention dan kemampuan Continuous Batching dari vLLM memungkinkan Actor menghasilkan jejak inferensi dengan throughput sangat tinggi.
· Pembelajar (Trainer):bertanggung jawab untuk optimisasi strategi. Trainer secara asinkron menarik data dari Experience Buffer bersama untuk melakukan pembaruan gradien, tanpa harus menunggu semua Actor menyelesaikan batch saat ini.
· Koordinator (Orchestrator):mengatur distribusi bobot model dan aliran data.
Inovasi utama prime-rl
· Asinkron sepenuhnya (True Asynchrony): prime-rl meniadakan paradigma PPO sinkron tradisional, tidak menunggu node lambat, tidak memerlukan penyelarasan batch, sehingga GPU dengan berbagai performa dapat bergabung kapan saja, mendukung kemungkinan RL terdesentralisasi.
· Integrasi mendalam FSDP2 dan MoE: melalui FSDP2 slicing parameter dan aktivasi sparse MoE, prime-rl memungkinkan pelatihan model miliaran parameter secara efisien dalam lingkungan terdistribusi, dengan Actor hanya menjalankan expert aktif, secara signifikan mengurangi kebutuhan memori dan biaya inferensi.
· GRPO+ (Group Relative Policy Optimization): GRPO menghilangkan Critic network, mengurangi biaya komputasi dan memori secara signifikan, secara alami cocok untuk lingkungan asinkron, dan melalui mekanisme stabilisasi, memastikan konvergensi yang andal dalam kondisi latensi tinggi.
Keluarga model INTELLECT: penanda kematangan teknologi RL terdesentralisasi
· INTELLECT-1 (10B, Oktober 2024): membuktikan bahwa OpenDiLoCo dapat dilatih secara efisien di jaringan heterogen lintas tiga benua (rasio komunikasi <2%, utilisasi komputasi 98%), mematahkan batasan geografis dalam pelatihan.
· INTELLECT-2 (32B, April 2025): sebagai model RL permissionless pertama, membuktikan stabilitas konvergensi prime-rl dan GRPO+ dalam lingkungan asinkron dan dengan delay multi-langkah, memungkinkan partisipasi terbuka global dalam RL terdesentralisasi.
· INTELLECT-3 (106B MoE, November 2025): menggunakan arsitektur sparse dengan hanya mengaktifkan 12B parameter, dilatih di atas 512×H200 dan mencapai performa inferensi flagship (AIME 90.8%, GPQA 74.4%, MMLU-Pro 81.9%), mendekati bahkan melampaui model tertutup besar yang terpusat.
Selain itu, Prime Intellect membangun infrastruktur pendukung seperti: OpenDiLoCo yang menggunakan komunikasi jarang waktu dan kuantisasi bobot untuk mengurangi komunikasi lintas wilayah ratusan kali, menjaga utilisasi 98% dari INTELLECT-1; TopLoc + Verifiers sebagai lapisan eksekusi terpercaya terdesentralisasi, mengaktifkan fingerprint dan sandbox verification untuk memastikan keaslian data inferensi dan reward; SYNTHETIC data engine yang menghasilkan rantai inferensi berkualitas tinggi secara massal dan menjalankan model 671B secara efisien di cluster GPU konsumen. Komponen-komponen ini menyediakan fondasi engineering penting untuk generasi data, verifikasi, dan throughput inferensi dalam RL terdesentralisasi. Seri INTELLECT membuktikan bahwa rangkaian teknologi ini mampu menghasilkan model kelas dunia yang matang, menandai fase praktis dari sistem pelatihan terdesentralisasi.
Gensyn: inti stack reinforcement learning RL Swarm dan SAPO
Gensyn bertujuan mengkonsolidasikan daya komputasi idle global menjadi infrastruktur pelatihan AI terbuka, tanpa kepercayaan, dan dapat diperluas tanpa batas. Inti dari sistem ini meliputi lapisan eksekusi standar antar perangkat, jaringan koordinasi peer-to-peer, dan sistem verifikasi tugas tanpa kepercayaan, serta otomatisasi distribusi tugas dan reward melalui smart contract. Mengingat karakteristik reinforcement learning, Gensyn memperkenalkan mekanisme utama RL Swarm, SAPO, dan SkipPipe, yang memisahkan proses pembuatan, evaluasi, dan pembaruan, memanfaatkan GPU heterogen global sebagai “swarm” untuk evolusi kolektif. Hasil akhirnya bukan sekadar daya komputasi, melainkan kecerdasan yang dapat diverifikasi (Verifiable Intelligence).
Aplikasi reinforcement learning dalam stack Gensyn
RL Swarm: mesin reinforcement learning kolaboratif terdesentralisasi
RL Swarm memperlihatkan pola kolaborasi baru. Ia bukan sekadar distribusi tugas, melainkan siklus “pembuatan—evaluasi—pembaruan” yang meniru proses belajar masyarakat manusia secara terdesentralisasi, tanpa henti:
· Solvers (pelaku): bertanggung jawab untuk inferensi lokal dan pembuatan Rollout. Node heterogen tidak menjadi masalah. Gensyn mengintegrasikan mesin inferensi throughput tinggi seperti CodeZero secara lokal, mampu menghasilkan jejak lengkap, bukan hanya jawaban.
· Proposers (pengusul): secara dinamis menghasilkan tugas (misalnya soal matematika, kode), mendukung keberagaman tugas dan adaptasi tingkat kesulitan seperti Curriculum Learning.
· Evaluators (penilai): menggunakan “wasit” model yang dibekukan atau aturan untuk menilai Rollout lokal, menghasilkan sinyal reward lokal. Proses evaluasi dapat diaudit, mengurangi ruang untuk kecurangan.
Ketiganya membentuk struktur organisasi RL P2P tanpa perlu pengaturan pusat, memungkinkan kolaborasi skala besar.
SAPO: algoritma optimisasi strategi terdesentralisasi yang direkonstruksi
SAPO (Swarm Sampling Policy Optimization) berfokus pada “berbagi Rollout dan menyaring sampel tanpa gradien”, melalui sampling Rollout terdesentralisasi skala besar, dan menganggap Rollout yang diterima sebagai hasil lokal. Dengan demikian, tetap stabil dalam konvergensi tanpa koordinasi pusat dan dengan latensi node yang tinggi. Berbeda dari PPO yang bergantung pada Critic network dan mahal secara komputasi, atau GRPO yang mengestimasi keunggulan dalam grup, SAPO menggunakan bandwidth sangat rendah agar GPU konsumen dapat berpartisipasi efektif dalam optimisasi RL skala besar.
Dengan RL Swarm dan SAPO, Gensyn membuktikan bahwa reinforcement learning (terutama fase post-training RLVR) secara alami cocok untuk arsitektur terdesentralisasi—karena lebih bergantung pada eksplorasi besar dan beragam (Rollout), bukan sinkronisasi parameter frekuensi tinggi. Dengan sistem verifikasi PoL dan Verde, Gensyn menyediakan jalur alternatif untuk pelatihan model miliaran parameter tanpa bergantung pada raksasa teknologi tunggal: jaringan super cerdas yang berevolusi sendiri, terdiri dari jutaan GPU heterogen global.
Nous Research: lingkungan reinforcement learning terverifikasi Atropos
Nous Research membangun infrastruktur kognitif terdesentralisasi dan evolusioner. Komponen utamanya—Hermes, Atropos, DisTrO, Psyche, dan World Sim—disusun sebagai siklus tertutup AI yang terus berkembang. Berbeda dari proses linier “pretraining—post-training—inferensi”, Nous mengadopsi teknik reinforcement learning seperti DPO, GRPO, dan rejection sampling, menggabungkan pembuatan data, verifikasi, pembelajaran, dan inferensi dalam umpan balik berkelanjutan, membangun ekosistem AI yang terus memperbaiki diri.
Ikhtisar komponen Nous Research
Lapisan model: Hermes dan evolusi kemampuan inferensi
Seri Hermes adalah antarmuka utama model untuk pengguna, menunjukkan secara jelas pergeseran dari aligment SFT/DPO tradisional ke RL inferensi (Reasoning RL):
· Hermes 1–3: aligment instruksi dan kemampuan agen awal: Hermes 1–3 mengandalkan DPO biaya rendah untuk aligment instruksi yang stabil, dan di Hermes 3 menggunakan data sintetis serta mekanisme verifikasi Atropos yang pertama kali diperkenalkan.
· Hermes 4 / DeepHermes: melalui chain of thought, menulis proses berpikir System-2 ke bobot, meningkatkan performa matematika dan kode dengan Test-Time Scaling, serta menggunakan “rejection sampling + verifikasi Atropos” untuk membangun data inferensi berkualitas tinggi.
· DeepHermes: lebih jauh lagi, menggantikan PPO yang sulit diimplementasikan secara distribusi dengan GRPO, memungkinkan RL inferensi berjalan di jaringan GPU terdesentralisasi Psyche, mendukung skalabilitas RL inferensi open-source dan pengembangan infrastruktur.
Atropos: lingkungan RL berbasis verifikasi reward
Atropos adalah pusat dari sistem RL Nous. Ia membungkus prompt, panggilan alat, eksekusi kode, dan interaksi multi-putaran menjadi lingkungan RL standar yang dapat langsung diverifikasi keabsahannya, menyediakan sinyal reward deterministik, menggantikan anotasi manusia mahal dan tidak skalabel. Lebih penting lagi, dalam jaringan pelatihan terdesentralisasi Psyche, Atropos berfungsi sebagai “wasit” untuk memverifikasi apakah node benar-benar meningkatkan strategi, mendukung Proof-of-Learning yang dapat diaudit, menyelesaikan masalah kepercayaan reward dalam RL terdistribusi.
DisTrO dan Psyche: lapisan optimisasi RL terdesentralisasi
Pelatihan RL tradisional (RLHF/RLAIF) bergantung pada klaster pusat berbandwidth tinggi, yang merupakan hambatan utama open source. DisTrO mengurangi biaya komunikasi RL dengan memisahkan momentum dan melakukan kompresi gradien, memungkinkan pelatihan berjalan di bandwidth internet. Psyche menempatkan mekanisme pelatihan ini di jaringan blockchain, sehingga node dapat melakukan inferensi, verifikasi, evaluasi reward, dan pembaruan bobot secara lokal, membentuk siklus RL lengkap.
Dalam ekosistem Nous, Atropos memverifikasi rantai pemikiran; DisTrO mengompresi komunikasi pelatihan; Psyche menjalankan siklus RL; World Sim menyediakan lingkungan kompleks; Forge mengumpulkan inferensi nyata; Hermes menulis semua pembelajaran ke bobot. Reinforcement learning bukan hanya fase pelatihan, tetapi protokol utama dalam arsitektur Nous yang menghubungkan data, lingkungan, model, dan infrastruktur, menjadikan Hermes sistem hidup yang mampu terus memperbaiki diri di jaringan komputasi open source.
Gradient Network bertujuan merekonstruksi paradigma komputasi AI melalui “Open Intelligence Stack”. Teknologi Gradient terdiri dari protokol inti yang dapat berevolusi secara independen dan kolaboratif heterogen. Dari komunikasi dasar hingga kolaborasi cerdas tingkat tinggi, meliputi: Parallax (inferensi terdistribusi), Echo (pelatihan RL terdesentralisasi), Lattica (jaringan P2P), SEDM / Massgen / Symphony / CUAHarm (memori, kolaborasi, keamanan), VeriLLM (verifikasi terpercaya), Mirage (simulasi berkualitas tinggi), membentuk infrastruktur cerdas terdesentralisasi yang terus berkembang.
Echo—kerangka kerja pelatihan reinforcement learning
Echo adalah kerangka RL dari Gradient, yang dirancang untuk memisahkan jalur pelatihan, inferensi, dan data (reward), memungkinkan pembuatan Rollout, optimisasi strategi, dan evaluasi reward berjalan secara independen dan terjadwal di lingkungan heterogen. Dalam jaringan heterogen yang terdiri dari node inferensi dan pelatihan, Echo menjaga stabilitas pelatihan melalui mekanisme sinkronisasi ringan, mengurangi kegagalan SPMD dan bottleneck GPU yang umum dalam DeepSpeed RLHF / VERL.
Echo menggunakan arsitektur “dual swarm” untuk memaksimalkan pemanfaatan daya komputasi, masing-masing berjalan secara independen:
· Swarm inferensi (Inference Swarm): terdiri dari GPU konsumen dan perangkat edge, membangun pipeline-parallel high-throughput sampler menggunakan Parallax, fokus pada pembuatan jejak.
· Swarm pelatihan (Training Swarm): terdiri dari GPU yang dapat berjalan di klaster pusat maupun global, bertanggung jawab untuk pembaruan gradien, sinkronisasi parameter, dan micro-tuning LoRA, fokus pada proses belajar.
Untuk menjaga konsistensi strategi dan data, Echo menyediakan protokol sinkronisasi ringan dua mode:
· Mode Pull (berbasis urutan): prioritas akurasi — node pelatihan memaksa pembaruan model sebelum menarik jejak baru, memastikan keaktualan jejak, cocok untuk tugas sensitif terhadap usang strategi.
· Mode Push–Pull (asinkron): prioritas efisiensi — inferensi terus menghasilkan jejak berlabel versi, pelatihan mengikuti ritme sendiri, dan koordinator memantau deviasi versi serta memicu pembaruan bobot, memaksimalkan utilisasi perangkat.
Di tingkat dasar, Echo dibangun di atas Parallax (inferensi heterogen di lingkungan bandwidth rendah) dan komponen pelatihan terdistribusi ringan (seperti VERL)), yang bergantung pada LoRA untuk mengurangi biaya sinkronisasi antar node, memungkinkan RL berjalan stabil di jaringan heterogen global.
Grail: ekosistem Bittensor dan reinforcement learning
Bittensor membangun jaringan fungsi reward yang besar, jarang, dan tidak stabil melalui mekanisme konsensus Yuma uniknya.
Dalam ekosistem Bittensor, Covenant AI melalui SN3 Templar, SN39 Basilica, dan SN81 Grail membangun pipeline dari pra-pelatihan hingga RL pasca-pelatihan. SN3 Templar bertanggung jawab untuk pra-pelatihan model dasar, SN39 Basilica menyediakan pasar daya komputasi terdistribusi, dan SN81 Grail sebagai “layer inferensi verifikasi yang dapat diverifikasi” untuk RLHF / RLAIF, menutup siklus dari model dasar ke strategi aligment.
GRAIL bertujuan membuktikan secara kriptografi keaslian setiap rollout RL dan mengikat identitas model, memastikan RLHF dapat dijalankan secara aman tanpa kepercayaan. Protokol ini membangun rantai terpercaya melalui tiga mekanisme:
Pembuatan tantangan deterministik: menggunakan drand dan hash blok untuk menghasilkan tantangan yang tidak dapat diprediksi tetapi dapat direproduksi (misalnya SAT, GSM8K), mencegah kecurangan precomputing;
Menggunakan PRF dan sketch commitments untuk sampling dan verifikasi logprob token-level dan rantai inferensi dengan biaya rendah, memastikan rollout berasal dari model yang di klaim;
Mengikat identitas model: menghubungkan proses inferensi dan fingerprint bobot model serta tanda tangan struktural distribusi token, memastikan penggantian model atau replay hasil akan langsung terdeteksi. Dengan demikian, keaslian jejak inferensi RL dijamin.
Berdasarkan mekanisme ini, sub jaringan Grail mengimplementasikan proses pasca-pelatihan yang dapat diverifikasi seperti GRPO: penambang menghasilkan beberapa jalur inferensi untuk satu soal, evaluator menilai berdasarkan kebenaran, kualitas rantai inferensi, dan kepuasan SAT, kemudian hasilnya diunggah ke blockchain sebagai bobot TAO. Eksperimen terbuka menunjukkan bahwa kerangka ini meningkatkan akurasi MATH dari Qwen2.5-1.5B dari 12.7% menjadi 47.6%, membuktikan mampu mencegah kecurangan dan meningkatkan kemampuan model secara signifikan. Dalam tumpukan pelatihan Covenant AI, Grail adalah fondasi kepercayaan dan eksekusi RLVR/RLAIF yang terdesentralisasi, dan saat ini belum resmi diluncurkan ke mainnet.
Fraction AI: reinforcement learning berbasis kompetisi RLFC
Fraction AI membangun arsitektur berbasis kompetisi RL (Reinforcement Learning from Competition) dan penandaan data secara gamifikasi, menggantikan reward statis dan anotasi manusia dengan lingkungan kompetitif yang dinamis dan terbuka. Agen bersaing di berbagai Spaces, dan peringkat relatif serta penilaian juri AI membentuk reward real-time, mengubah proses aligment menjadi sistem multi-agen yang terus-menerus online.
Perbedaan utama antara RLHF tradisional dan RLFC Fraction AI:
RLFC menempatkan reward bukan dari satu model, melainkan dari lawan dan evaluator yang terus berkembang, menghindari eksploitasi reward model dan mendorong keberagaman strategi untuk menghindari jebakan lokal. Struktur Spaces menentukan sifat permainan (zero-sum atau positif-sum), dan dalam kompetisi maupun kolaborasi, muncul perilaku kompleks.
Dalam arsitektur sistem, Fraction AI membagi proses pelatihan menjadi empat komponen utama:
· Agents: unit strategi ringan berbasis LLM open source, menggunakan QLoRA untuk ekspansi bobot diferensial, pembaruan biaya rendah.
· Spaces: lingkungan domain tugas terisolasi, agen membayar untuk masuk dan mendapatkan reward berdasarkan kemenangan atau kekalahan.
· AI Judges: menggunakan RLAIF sebagai lapisan reward instan, menyediakan evaluasi yang dapat diperluas dan terdesentralisasi.
· Proof-of-Learning: mengikat pembaruan strategi ke hasil kompetisi tertentu, memastikan proses pelatihan dapat diverifikasi dan anti-kecurangan.
Intinya, Fraction AI membangun mesin evolusi kolaboratif manusia-mesin. Pengguna sebagai “meta-optimizer” melalui prompt engineering dan hyperparameter mengarahkan eksplorasi; agen secara otomatis menghasilkan data preferensi berkualitas tinggi dalam kompetisi mikro. Model ini memungkinkan proses fine-tuning tanpa kepercayaan, menciptakan siklus bisnis yang lengkap.
Ringkasan dan prospek: jalur dan peluang reinforcement learning × Web3
Berdasarkan analisis proyek terdepan di atas, kami mengamati: meskipun titik masuk (algoritma, engineering, atau pasar) berbeda, ketika reinforcement learning (RL) digabungkan dengan Web3, logika arsitektur dasarnya semua mengarah ke pola “decoupling—verification—incentive” yang sangat konsisten. Ini bukan sekadar kebetulan teknologi, tetapi hasil alami dari adaptasi jaringan terdesentralisasi terhadap atribut unik RL.
Karakteristik arsitektur umum reinforcement learning: mengatasi batasan fisik dan kepercayaan
Pengiriman Rollout yang jarang dan paralel ke GPU konsumsi global, dan pembaruan parameter berbandwidth tinggi di node pelatihan utama. Dari Actor–Learner asinkron Prime Intellect hingga arsitektur dual gradient Echo, semuanya demikian.
Lapisan kepercayaan berbasis verifikasi
Dalam jaringan tanpa izin, keaslian komputasi harus dijamin secara matematis dan mekanisme. Contohnya termasuk PoL Gensyn, TOPLOC Prime Intellect, dan verifikasi kriptografi Grail.
Siklus insentif tokenisasi
Pasokan daya, pembuatan data, verifikasi, dan distribusi reward membentuk siklus, mendorong partisipasi melalui reward dan menekan kecurangan melalui Slash, menjaga stabilitas dan evolusi jaringan terbuka.
Jalur inovasi berbeda: titik “terobosan” dalam arsitektur seragam
Meski arsitektur seragam, setiap proyek memilih “benteng teknologi” berbeda sesuai genetiknya:
· Inovasi algoritma (Nous Research): berusaha menyelesaikan konflik dasar pelatihan distribusi (batas bandwidth) dari tingkat matematis. DisTrO bertujuan mengompresi komunikasi gradien ribuan kali, agar pelatihan model besar di jaringan rumah tetap memungkinkan, sebagai “serangan dimensi” terhadap batas fisik.
· Sistem engineering (Prime Intellect, Gensyn, Gradient): fokus membangun “runtime AI” generasi berikutnya. ShardCast dan Parallax adalah contoh upaya memeras efisiensi dari jaringan yang ada melalui engineering ekstrem.
· Pasar dan permainan (Bittensor, Fraction AI): fokus pada desain reward function. Dengan mekanisme penilaian yang cermat, mendorong penambang mencari strategi optimal, mempercepat munculnya kecerdasan.
Kelebihan, tantangan, dan pandangan akhir
Dalam paradigma RL + Web3, keunggulan sistemik pertama adalah dalam struktur biaya dan tata kelola:
· Redefinisi biaya: RL post-training membutuhkan sampling tak terbatas, dan Web3 mampu menggerakkan daya komputasi global dengan biaya sangat rendah, tidak bisa ditandingi cloud pusat.
· Alignment berdaulat (Sovereign Alignment): membongkar monopoli perusahaan besar atas nilai dan aligment AI, komunitas dapat menggunakan Token untuk voting “jawaban yang baik”, mewujudkan demokratisasi AI.
Namun, sistem ini juga menghadapi dua kendala struktural utama:
· Dinding bandwidth (Bandwidth Wall): meskipun ada inovasi DisTrO, latensi fisik tetap membatasi pelatihan penuh model besar (>70B). Saat ini, AI Web3 lebih terbatas pada fine-tuning dan inferensi.
· Hukum Goodhart (Reward Hacking): dalam jaringan yang sangat termotivasi, penambang mudah melakukan “overfitting” reward (score hacking) daripada meningkatkan kecerdasan nyata. Membuat reward yang tahan kecurangan adalah permainan abadi.
· Serangan Byzantine node jahat (BYZANTINE worker): dengan memanipulasi sinyal pelatihan dan menyuntikkan data beracun, dapat mengganggu konvergensi model. Intinya bukan sekadar merancang reward anti-kecurangan, tetapi membangun mekanisme tahan adversarial.
Penggabungan RL dan Web3 pada dasarnya menulis ulang “bagaimana kecerdasan diproduksi, diatur, dan didistribusikan”. Jalurnya meliputi tiga arah pelengkap:
Jaringan pelatihan terdesentralisasi: dari hardware mining ke jaringan strategi, mengoutsourcing Rollout yang dapat diverifikasi ke GPU global, fokus jangka pendek pada pasar inferensi terverifikasi, jangka menengah menjadi sub jaringan RL berbasis clustering tugas;
Assetisasi preferensi dan reward: dari anotasi tenaga kerja ke ekuitas data. Mengubah feedback dan Reward Model menjadi aset data yang dapat diatur dan didistribusikan, dari “annotator” ke “ekuitas data”;
Evolusi “kecil dan indah” di domain vertikal: di skenario yang hasilnya dapat diverifikasi dan keuntungannya terukur, muncul agen RL khusus yang kecil namun kuat, seperti strategi DeFi, kode otomatis, yang mengaitkan perbaikan strategi dan pengambilan nilai secara langsung dan berpotensi mengungguli model tertutup umum.
Secara keseluruhan, peluang nyata reinforcement learning × Web3 bukan menyalin OpenAI terdesentralisasi, tetapi menulis ulang “relasi produksi kecerdasan”: menjadikan pelaksanaan pelatihan sebagai pasar daya komputasi terbuka, reward dan preferensi sebagai aset chain yang dapat diatur, dan nilai yang dihasilkan kecerdasan didistribusikan ulang antara pelatih, pengatur, dan pengguna. ($ALLO
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Dari kekuatan komputasi hingga kecerdasan, peta investasi AI terdesentralisasi yang didorong oleh pembelajaran penguatan
人工智能正从以「模式拟合」为主的统计学习,迈向以「结构化推理」为核心的能力体系,后训练(Post-training)的重要性快速上升。DeepSeek-R1 的出现标志着强化学习在大模型时代的范式级翻身,行业共识形成:预训练构建模型的通用能力基座,强化学习不再只是价值对齐工具,而被证明能够系统提升推理链质量与复杂决策能力,正逐步演化为持续提升智能水平的技术路径。
与此同时,Web3 正通过去中心化算力网络与加密激励体系重构 AI 的生产关系,而强化学习对 rollout 采样、奖励信号与可验证训练的结构性需求,恰与区块链的算力协作、激励分配与可验证执行天然契合。本研报将系统拆解 AI 训练范式与强化学习技术原理,论证强化学习 × Web3 的结构优势,并对 Prime Intellect、Gensyn、Nous Research、Gradient、Grail 和 Fraction AI 等项目进行分析。
AI 训练的三阶段:预训练、指令微调与后训练对齐
现代大语言模型(LLM)训练全生命周期通常被划分为三个核心阶段:预训练(Pre-training)、监督微调(SFT)和后训练(Post-training/RL)。三者分别承担「构建世界模型—注入任务能力—塑造推理与价值观」的功能,其计算结构、数据要求与验证难度决定了去中心化的匹配程度。
· 预训练(Pre-training)通过大规模自监督学习(Self-supervised Learning)构建模型的语言统计结构与跨模态世界模型,是 LLM 能力的根基。此阶段需在万亿级语料上以全局同步方式训练,依赖数千至数万张 H100 的同构集群,成本占比高达 80–95%,对带宽与数据版权极度敏感,因此必须在高度集中式环境中完成。
· 微调(Supervised Fine-tuning)用于注入任务能力与指令格式,数据量小、成本占比约 5–15%,微调既可以进行全参训练,也可以采用参数高效微调(PEFT)方法,其中 LoRA、Q-LoRA 与 Adapter 是工业界主流。但仍需同步梯度,使其去中心化潜力有限。
· 后训练(Post-training)由多个迭代子阶段构成,决定模型的推理能力、价值观与安全边界,其方法既包括强化学习体系(RLHF、RLAIF、GRPO)也包括无 RL 的偏好优化方法(DPO),以及过程奖励模型(PRM)等。该阶段数据量与成本较低(5–10%),主要集中在 Rollout 与策略更新;其天然支持异步与分布式执行,节点无需持有完整权重,结合可验证计算与链上激励可形成开放的去中心化训练网络,是最适配 Web3 的训练环节。
强化学习技术全景:架构、框架与应用
强化学习的系统架构与核心环节
强化学习(Reinforcement Learning, RL)通过「环境交互—奖励反馈—策略更新」驱动模型自主改进决策能力,其核心结构可视为由状态、动作、奖励与策略构成的反馈闭环。一个完整的 RL 系统通常包含三类组件:Policy(策略网络)、Rollout(经验采样)与 Learner(策略更新器)。策略与环境交互生成轨迹,Learner 根据奖励信号更新策略,从而形成持续迭代、不断优化的学习过程:
强化学习阶段框架(RLHF → RLAIF → PRM → GRPO)
强化学习通常可分为五个阶段,整体流程如下所述:
数据生成阶段(Policy Exploration)
在给定输入提示的条件下,策略模型 πθ 生成多条候选推理链或完整轨迹,为后续偏好评估与奖励建模提供样本基础,决定了策略探索的广度。
偏好反馈阶段(RLHF / RLAIF)
· RLHF(Reinforcement Learning from Human Feedback)通过多候选回答、人工偏好标注、训练奖励模型(RM)并用 PPO 优化策略,使模型输出更符合人类价值观,是 GPT-3.5 → GPT-4 的关键一环
· RLAIF(Reinforcement Learning from AI Feedback)以 AI Judge 或宪法式规则替代人工标注,实现偏好获取自动化,显著降低成本并具备规模化特性,已成为 Anthropic、OpenAI、DeepSeek 等的主流对齐范式。
奖励建模阶段(Reward Modeling)
偏好对输入奖励模型,学习将输出映射为奖励。RM 教模型「什么是正确答案」,PRM 教模型「如何进行正确推理」。
· RM(Reward Model)用于评估最终答案的好坏,仅对输出打分:
· 过程奖励模型 PRM(Process Reward Model)它不再只评估最终答案,而是为每一步推理、每个 token、每个逻辑段打分,也是 OpenAI o1 与 DeepSeek-R1 的关键技术,本质上是在「教模型如何思考」。
奖励验证阶段(RLVR / Reward Verifiability)
在奖励信号生成与使用过程中引入「可验证约束」,使奖励尽可能来自可复现的规则、事实或共识,从而降低 reward hacking 与偏差风险,并提升在开放环境中的可审计性与可扩展性。
策略优化阶段(Policy Optimization)
是在奖励模型给出的信号指导下更新策略参数 θ,以得到更强推理能力、更高安全性与更稳定行为模式的策略 πθ′。主流优化方式包括:
· PPO(Proximal Policy Optimization): RLHF 的传统优化器,以稳定性见长,但在复杂推理任务中往往面临收敛慢、稳定性不足等局限。
· GRPO(Group Relative Policy Optimization):是 DeepSeek-R1 的核心创新,通过对候选答案组内优势分布进行建模以估计期望价值,而非简单排序。该方法保留了奖励幅度信息,更适合推理链优化,训练过程更稳定,被视为继 PPO 之后面向深度推理场景的重要强化学习优化框架。
· DPO(Direct Preference Optimization):非强化学习的后训练方法:不生成轨迹、不建奖励模型,而是直接在偏好对上做优化,成本低、效果稳定,因而被广泛用于 Llama、Gemma 等开源模型的对齐,但不提升推理能力。
新策略部署阶段(New Policy Deployment)
经过优化后的模型表现为:更强的推理链生成能力(System-2 Reasoning)、更符合人类或 AI 偏好的行为、更低的幻觉率、更高的安全性。模型在持续迭代中不断学习偏好、优化过程、提升决策质量,形成闭环。
强化学习的产业应用五大分类
强化学习(Reinforcement Learning)已从早期的博弈智能演进为跨产业的自主决策核心框架,其应用场景按照技术成熟度与产业落地程度,可归纳为五大类别,并在各自方向推动了关键突破。
· 博弈与策略系统(Game & Strategy):是 RL 最早被验证的方向,在 AlphaGo、AlphaZero、AlphaStar、OpenAI Five 等「完美信息 + 明确奖励」的环境中,RL 展示了可与人类专家比肩甚至超越的决策智能,为现代 RL 算法奠定基础。
· 机器人与具身智能(Embodied AI):RL 通过连续控制、动力学建模与环境交互,使机器人学习操控、运动控制和跨模态任务(如 RT-2、RT-X),正快速迈向产业化,是现实世界机器人落地的关键技术路线。
· 数字推理(Digital Reasoning / LLM System-2):RL + PRM 推动大模型从「语言模仿」走向「结构化推理」,代表成果包括 DeepSeek-R1、OpenAI o1/o3、Anthropic Claude 及 AlphaGeometry,其本质是在推理链层面进行奖励优化,而非仅评估最终答案。
· 自动化科学发现与数学优化(Scientific Discovery):RL 在无标签、复杂奖励与巨大搜索空间中寻找最优结构或策略,已实现 AlphaTensor、AlphaDev、Fusion RL 等基础突破,展现出超越人类直觉的探索能力。
· 经济决策与交易系统(Economic Decision-making & Trading):RL 被用于策略优化、高维风险控制与自适应交易系统生成,相较传统量化模型更能在不确定环境中持续学习,是智能金融的重要构成部分。
强化学习与 Web3 的天然匹配
强化学习(RL)与 Web3 的高度契合,源于二者本质上都是「激励驱动系统」。RL 依赖奖励信号优化策略,区块链依靠经济激励协调参与者行为,使两者在机制层面天然一致。RL 的核心需求——大规模异构 Rollout、奖励分配与真实性验证——正是 Web3 的结构优势所在。
推理与训练解耦
强化学习的训练过程可明确拆分为两个阶段:
· Rollout (探索采样):模型基于当前策略生成大量数据,计算密集型但通信稀疏型的任务。它不需要节点间频繁通信,适合在全球分布的消费级 GPU 上并行生成。
· Update (参数更新):基于收集到的数据更新模型权重,需高带宽中心化节点完成。
「推理—训练解耦」天然契合去中心化的异构算力结构:Rollout 可外包给开放网络,通过代币机制按贡献结算,而模型更新保持集中化以确保稳定性。
可验证性 (Verifiability)
ZK 与 Proof-of-Learning 提供了验证节点是否真实执行推理的手段,解决了开放网络中的诚实性问题。在代码、数学推理等确定性任务中,验证者只需检查答案即可确认工作量,大幅提升去中心化 RL 系统的可信度。
激励层,基于代币经济的反馈生产机制
Web3 的代币机制可直接奖励 RLHF/RLAIF 的偏好反馈贡献者,使偏好数据生成具备透明、可结算、无需许可的激励结构;质押与削减(Staking/Slashing)进一步约束反馈质量,形成比传统众包更高效且对齐的反馈市场。
多智能体强化学习(MARL)潜力
区块链本质上是公开、透明、持续演化的多智能体环境,账户、合约与智能体不断在激励驱动下调整策略,使其天然具备构建大规模 MARL 实验场的潜力。尽管仍在早期,但其状态公开、执行可验证、激励可编程的特性,为未来 MARL 的发展提供了原则性优势。
经典 Web3 + 强化学习项目解析
基于上述理论框架,我们将对当前生态中最具代表性的项目进行简要分析:
Prime Intellect: 异步强化学习范式 prime-rl
Prime Intellect 致力于构建全球开放算力市场,降低训练门槛、推动协作式去中心化训练,并发展完整的开源超级智能技术栈。其体系包括:Prime Compute(统一云/分布式算力环境)、INTELLECT 模型家族(10B–100B+)、开放强化学习环境中心(Environments Hub)、以及大规模合成数据引擎(SYNTHETIC-1/2)。
Prime Intellect 核心基础设施组件 prime-rl 框架专为异步分布式环境设计与强化学习高度相关,其余包括突破带宽瓶颈的 OpenDiLoCo 通信协议、保障计算完整性的 TopLoc 验证机制等。
Prime Intellect 核心基础设施组件一览
技术基石:prime-rl 异步强化学习框架
prime-rl 是 Prime Intellect 的核心训练引擎,专为大规模异步去中心化环境设计,通过 Actor–Learner 完全解耦实现高吞吐推理与稳定更新。执行者 (Rollout Worker) 与学习者 (Trainer) 不再同步阻塞,节点可随时加入或退出,只需持续拉取最新策略 dan mengunggah data yang dihasilkan:
· Pelaku (Rollout Worker):bertanggung jawab untuk inferensi model dan pembuatan data. Prime Intellect secara inovatif mengintegrasikan mesin inferensi vLLM di sisi Actor. Teknologi PagedAttention dan kemampuan Continuous Batching dari vLLM memungkinkan Actor menghasilkan jejak inferensi dengan throughput sangat tinggi.
· Pembelajar (Trainer):bertanggung jawab untuk optimisasi strategi. Trainer secara asinkron menarik data dari Experience Buffer bersama untuk melakukan pembaruan gradien, tanpa harus menunggu semua Actor menyelesaikan batch saat ini.
· Koordinator (Orchestrator):mengatur distribusi bobot model dan aliran data.
Inovasi utama prime-rl
· Asinkron sepenuhnya (True Asynchrony): prime-rl meniadakan paradigma PPO sinkron tradisional, tidak menunggu node lambat, tidak memerlukan penyelarasan batch, sehingga GPU dengan berbagai performa dapat bergabung kapan saja, mendukung kemungkinan RL terdesentralisasi.
· Integrasi mendalam FSDP2 dan MoE: melalui FSDP2 slicing parameter dan aktivasi sparse MoE, prime-rl memungkinkan pelatihan model miliaran parameter secara efisien dalam lingkungan terdistribusi, dengan Actor hanya menjalankan expert aktif, secara signifikan mengurangi kebutuhan memori dan biaya inferensi.
· GRPO+ (Group Relative Policy Optimization): GRPO menghilangkan Critic network, mengurangi biaya komputasi dan memori secara signifikan, secara alami cocok untuk lingkungan asinkron, dan melalui mekanisme stabilisasi, memastikan konvergensi yang andal dalam kondisi latensi tinggi.
Keluarga model INTELLECT: penanda kematangan teknologi RL terdesentralisasi
· INTELLECT-1 (10B, Oktober 2024): membuktikan bahwa OpenDiLoCo dapat dilatih secara efisien di jaringan heterogen lintas tiga benua (rasio komunikasi <2%, utilisasi komputasi 98%), mematahkan batasan geografis dalam pelatihan.
· INTELLECT-2 (32B, April 2025): sebagai model RL permissionless pertama, membuktikan stabilitas konvergensi prime-rl dan GRPO+ dalam lingkungan asinkron dan dengan delay multi-langkah, memungkinkan partisipasi terbuka global dalam RL terdesentralisasi.
· INTELLECT-3 (106B MoE, November 2025): menggunakan arsitektur sparse dengan hanya mengaktifkan 12B parameter, dilatih di atas 512×H200 dan mencapai performa inferensi flagship (AIME 90.8%, GPQA 74.4%, MMLU-Pro 81.9%), mendekati bahkan melampaui model tertutup besar yang terpusat.
Selain itu, Prime Intellect membangun infrastruktur pendukung seperti: OpenDiLoCo yang menggunakan komunikasi jarang waktu dan kuantisasi bobot untuk mengurangi komunikasi lintas wilayah ratusan kali, menjaga utilisasi 98% dari INTELLECT-1; TopLoc + Verifiers sebagai lapisan eksekusi terpercaya terdesentralisasi, mengaktifkan fingerprint dan sandbox verification untuk memastikan keaslian data inferensi dan reward; SYNTHETIC data engine yang menghasilkan rantai inferensi berkualitas tinggi secara massal dan menjalankan model 671B secara efisien di cluster GPU konsumen. Komponen-komponen ini menyediakan fondasi engineering penting untuk generasi data, verifikasi, dan throughput inferensi dalam RL terdesentralisasi. Seri INTELLECT membuktikan bahwa rangkaian teknologi ini mampu menghasilkan model kelas dunia yang matang, menandai fase praktis dari sistem pelatihan terdesentralisasi.
Gensyn: inti stack reinforcement learning RL Swarm dan SAPO
Gensyn bertujuan mengkonsolidasikan daya komputasi idle global menjadi infrastruktur pelatihan AI terbuka, tanpa kepercayaan, dan dapat diperluas tanpa batas. Inti dari sistem ini meliputi lapisan eksekusi standar antar perangkat, jaringan koordinasi peer-to-peer, dan sistem verifikasi tugas tanpa kepercayaan, serta otomatisasi distribusi tugas dan reward melalui smart contract. Mengingat karakteristik reinforcement learning, Gensyn memperkenalkan mekanisme utama RL Swarm, SAPO, dan SkipPipe, yang memisahkan proses pembuatan, evaluasi, dan pembaruan, memanfaatkan GPU heterogen global sebagai “swarm” untuk evolusi kolektif. Hasil akhirnya bukan sekadar daya komputasi, melainkan kecerdasan yang dapat diverifikasi (Verifiable Intelligence).
Aplikasi reinforcement learning dalam stack Gensyn
RL Swarm: mesin reinforcement learning kolaboratif terdesentralisasi
RL Swarm memperlihatkan pola kolaborasi baru. Ia bukan sekadar distribusi tugas, melainkan siklus “pembuatan—evaluasi—pembaruan” yang meniru proses belajar masyarakat manusia secara terdesentralisasi, tanpa henti:
· Solvers (pelaku): bertanggung jawab untuk inferensi lokal dan pembuatan Rollout. Node heterogen tidak menjadi masalah. Gensyn mengintegrasikan mesin inferensi throughput tinggi seperti CodeZero secara lokal, mampu menghasilkan jejak lengkap, bukan hanya jawaban.
· Proposers (pengusul): secara dinamis menghasilkan tugas (misalnya soal matematika, kode), mendukung keberagaman tugas dan adaptasi tingkat kesulitan seperti Curriculum Learning.
· Evaluators (penilai): menggunakan “wasit” model yang dibekukan atau aturan untuk menilai Rollout lokal, menghasilkan sinyal reward lokal. Proses evaluasi dapat diaudit, mengurangi ruang untuk kecurangan.
Ketiganya membentuk struktur organisasi RL P2P tanpa perlu pengaturan pusat, memungkinkan kolaborasi skala besar.
SAPO: algoritma optimisasi strategi terdesentralisasi yang direkonstruksi
SAPO (Swarm Sampling Policy Optimization) berfokus pada “berbagi Rollout dan menyaring sampel tanpa gradien”, melalui sampling Rollout terdesentralisasi skala besar, dan menganggap Rollout yang diterima sebagai hasil lokal. Dengan demikian, tetap stabil dalam konvergensi tanpa koordinasi pusat dan dengan latensi node yang tinggi. Berbeda dari PPO yang bergantung pada Critic network dan mahal secara komputasi, atau GRPO yang mengestimasi keunggulan dalam grup, SAPO menggunakan bandwidth sangat rendah agar GPU konsumen dapat berpartisipasi efektif dalam optimisasi RL skala besar.
Dengan RL Swarm dan SAPO, Gensyn membuktikan bahwa reinforcement learning (terutama fase post-training RLVR) secara alami cocok untuk arsitektur terdesentralisasi—karena lebih bergantung pada eksplorasi besar dan beragam (Rollout), bukan sinkronisasi parameter frekuensi tinggi. Dengan sistem verifikasi PoL dan Verde, Gensyn menyediakan jalur alternatif untuk pelatihan model miliaran parameter tanpa bergantung pada raksasa teknologi tunggal: jaringan super cerdas yang berevolusi sendiri, terdiri dari jutaan GPU heterogen global.
Nous Research: lingkungan reinforcement learning terverifikasi Atropos
Nous Research membangun infrastruktur kognitif terdesentralisasi dan evolusioner. Komponen utamanya—Hermes, Atropos, DisTrO, Psyche, dan World Sim—disusun sebagai siklus tertutup AI yang terus berkembang. Berbeda dari proses linier “pretraining—post-training—inferensi”, Nous mengadopsi teknik reinforcement learning seperti DPO, GRPO, dan rejection sampling, menggabungkan pembuatan data, verifikasi, pembelajaran, dan inferensi dalam umpan balik berkelanjutan, membangun ekosistem AI yang terus memperbaiki diri.
Ikhtisar komponen Nous Research
Lapisan model: Hermes dan evolusi kemampuan inferensi
Seri Hermes adalah antarmuka utama model untuk pengguna, menunjukkan secara jelas pergeseran dari aligment SFT/DPO tradisional ke RL inferensi (Reasoning RL):
· Hermes 1–3: aligment instruksi dan kemampuan agen awal: Hermes 1–3 mengandalkan DPO biaya rendah untuk aligment instruksi yang stabil, dan di Hermes 3 menggunakan data sintetis serta mekanisme verifikasi Atropos yang pertama kali diperkenalkan.
· Hermes 4 / DeepHermes: melalui chain of thought, menulis proses berpikir System-2 ke bobot, meningkatkan performa matematika dan kode dengan Test-Time Scaling, serta menggunakan “rejection sampling + verifikasi Atropos” untuk membangun data inferensi berkualitas tinggi.
· DeepHermes: lebih jauh lagi, menggantikan PPO yang sulit diimplementasikan secara distribusi dengan GRPO, memungkinkan RL inferensi berjalan di jaringan GPU terdesentralisasi Psyche, mendukung skalabilitas RL inferensi open-source dan pengembangan infrastruktur.
Atropos: lingkungan RL berbasis verifikasi reward
Atropos adalah pusat dari sistem RL Nous. Ia membungkus prompt, panggilan alat, eksekusi kode, dan interaksi multi-putaran menjadi lingkungan RL standar yang dapat langsung diverifikasi keabsahannya, menyediakan sinyal reward deterministik, menggantikan anotasi manusia mahal dan tidak skalabel. Lebih penting lagi, dalam jaringan pelatihan terdesentralisasi Psyche, Atropos berfungsi sebagai “wasit” untuk memverifikasi apakah node benar-benar meningkatkan strategi, mendukung Proof-of-Learning yang dapat diaudit, menyelesaikan masalah kepercayaan reward dalam RL terdistribusi.
DisTrO dan Psyche: lapisan optimisasi RL terdesentralisasi
Pelatihan RL tradisional (RLHF/RLAIF) bergantung pada klaster pusat berbandwidth tinggi, yang merupakan hambatan utama open source. DisTrO mengurangi biaya komunikasi RL dengan memisahkan momentum dan melakukan kompresi gradien, memungkinkan pelatihan berjalan di bandwidth internet. Psyche menempatkan mekanisme pelatihan ini di jaringan blockchain, sehingga node dapat melakukan inferensi, verifikasi, evaluasi reward, dan pembaruan bobot secara lokal, membentuk siklus RL lengkap.
Dalam ekosistem Nous, Atropos memverifikasi rantai pemikiran; DisTrO mengompresi komunikasi pelatihan; Psyche menjalankan siklus RL; World Sim menyediakan lingkungan kompleks; Forge mengumpulkan inferensi nyata; Hermes menulis semua pembelajaran ke bobot. Reinforcement learning bukan hanya fase pelatihan, tetapi protokol utama dalam arsitektur Nous yang menghubungkan data, lingkungan, model, dan infrastruktur, menjadikan Hermes sistem hidup yang mampu terus memperbaiki diri di jaringan komputasi open source.
Gradient Network: arsitektur reinforcement learning Echo
Gradient Network bertujuan merekonstruksi paradigma komputasi AI melalui “Open Intelligence Stack”. Teknologi Gradient terdiri dari protokol inti yang dapat berevolusi secara independen dan kolaboratif heterogen. Dari komunikasi dasar hingga kolaborasi cerdas tingkat tinggi, meliputi: Parallax (inferensi terdistribusi), Echo (pelatihan RL terdesentralisasi), Lattica (jaringan P2P), SEDM / Massgen / Symphony / CUAHarm (memori, kolaborasi, keamanan), VeriLLM (verifikasi terpercaya), Mirage (simulasi berkualitas tinggi), membentuk infrastruktur cerdas terdesentralisasi yang terus berkembang.
Echo—kerangka kerja pelatihan reinforcement learning
Echo adalah kerangka RL dari Gradient, yang dirancang untuk memisahkan jalur pelatihan, inferensi, dan data (reward), memungkinkan pembuatan Rollout, optimisasi strategi, dan evaluasi reward berjalan secara independen dan terjadwal di lingkungan heterogen. Dalam jaringan heterogen yang terdiri dari node inferensi dan pelatihan, Echo menjaga stabilitas pelatihan melalui mekanisme sinkronisasi ringan, mengurangi kegagalan SPMD dan bottleneck GPU yang umum dalam DeepSpeed RLHF / VERL.
Echo menggunakan arsitektur “dual swarm” untuk memaksimalkan pemanfaatan daya komputasi, masing-masing berjalan secara independen:
· Swarm inferensi (Inference Swarm): terdiri dari GPU konsumen dan perangkat edge, membangun pipeline-parallel high-throughput sampler menggunakan Parallax, fokus pada pembuatan jejak.
· Swarm pelatihan (Training Swarm): terdiri dari GPU yang dapat berjalan di klaster pusat maupun global, bertanggung jawab untuk pembaruan gradien, sinkronisasi parameter, dan micro-tuning LoRA, fokus pada proses belajar.
Untuk menjaga konsistensi strategi dan data, Echo menyediakan protokol sinkronisasi ringan dua mode:
· Mode Pull (berbasis urutan): prioritas akurasi — node pelatihan memaksa pembaruan model sebelum menarik jejak baru, memastikan keaktualan jejak, cocok untuk tugas sensitif terhadap usang strategi.
· Mode Push–Pull (asinkron): prioritas efisiensi — inferensi terus menghasilkan jejak berlabel versi, pelatihan mengikuti ritme sendiri, dan koordinator memantau deviasi versi serta memicu pembaruan bobot, memaksimalkan utilisasi perangkat.
Di tingkat dasar, Echo dibangun di atas Parallax (inferensi heterogen di lingkungan bandwidth rendah) dan komponen pelatihan terdistribusi ringan (seperti VERL)), yang bergantung pada LoRA untuk mengurangi biaya sinkronisasi antar node, memungkinkan RL berjalan stabil di jaringan heterogen global.
Grail: ekosistem Bittensor dan reinforcement learning
Bittensor membangun jaringan fungsi reward yang besar, jarang, dan tidak stabil melalui mekanisme konsensus Yuma uniknya.
Dalam ekosistem Bittensor, Covenant AI melalui SN3 Templar, SN39 Basilica, dan SN81 Grail membangun pipeline dari pra-pelatihan hingga RL pasca-pelatihan. SN3 Templar bertanggung jawab untuk pra-pelatihan model dasar, SN39 Basilica menyediakan pasar daya komputasi terdistribusi, dan SN81 Grail sebagai “layer inferensi verifikasi yang dapat diverifikasi” untuk RLHF / RLAIF, menutup siklus dari model dasar ke strategi aligment.
GRAIL bertujuan membuktikan secara kriptografi keaslian setiap rollout RL dan mengikat identitas model, memastikan RLHF dapat dijalankan secara aman tanpa kepercayaan. Protokol ini membangun rantai terpercaya melalui tiga mekanisme:
Berdasarkan mekanisme ini, sub jaringan Grail mengimplementasikan proses pasca-pelatihan yang dapat diverifikasi seperti GRPO: penambang menghasilkan beberapa jalur inferensi untuk satu soal, evaluator menilai berdasarkan kebenaran, kualitas rantai inferensi, dan kepuasan SAT, kemudian hasilnya diunggah ke blockchain sebagai bobot TAO. Eksperimen terbuka menunjukkan bahwa kerangka ini meningkatkan akurasi MATH dari Qwen2.5-1.5B dari 12.7% menjadi 47.6%, membuktikan mampu mencegah kecurangan dan meningkatkan kemampuan model secara signifikan. Dalam tumpukan pelatihan Covenant AI, Grail adalah fondasi kepercayaan dan eksekusi RLVR/RLAIF yang terdesentralisasi, dan saat ini belum resmi diluncurkan ke mainnet.
Fraction AI: reinforcement learning berbasis kompetisi RLFC
Fraction AI membangun arsitektur berbasis kompetisi RL (Reinforcement Learning from Competition) dan penandaan data secara gamifikasi, menggantikan reward statis dan anotasi manusia dengan lingkungan kompetitif yang dinamis dan terbuka. Agen bersaing di berbagai Spaces, dan peringkat relatif serta penilaian juri AI membentuk reward real-time, mengubah proses aligment menjadi sistem multi-agen yang terus-menerus online.
Perbedaan utama antara RLHF tradisional dan RLFC Fraction AI:
RLFC menempatkan reward bukan dari satu model, melainkan dari lawan dan evaluator yang terus berkembang, menghindari eksploitasi reward model dan mendorong keberagaman strategi untuk menghindari jebakan lokal. Struktur Spaces menentukan sifat permainan (zero-sum atau positif-sum), dan dalam kompetisi maupun kolaborasi, muncul perilaku kompleks.
Dalam arsitektur sistem, Fraction AI membagi proses pelatihan menjadi empat komponen utama:
· Agents: unit strategi ringan berbasis LLM open source, menggunakan QLoRA untuk ekspansi bobot diferensial, pembaruan biaya rendah.
· Spaces: lingkungan domain tugas terisolasi, agen membayar untuk masuk dan mendapatkan reward berdasarkan kemenangan atau kekalahan.
· AI Judges: menggunakan RLAIF sebagai lapisan reward instan, menyediakan evaluasi yang dapat diperluas dan terdesentralisasi.
· Proof-of-Learning: mengikat pembaruan strategi ke hasil kompetisi tertentu, memastikan proses pelatihan dapat diverifikasi dan anti-kecurangan.
Intinya, Fraction AI membangun mesin evolusi kolaboratif manusia-mesin. Pengguna sebagai “meta-optimizer” melalui prompt engineering dan hyperparameter mengarahkan eksplorasi; agen secara otomatis menghasilkan data preferensi berkualitas tinggi dalam kompetisi mikro. Model ini memungkinkan proses fine-tuning tanpa kepercayaan, menciptakan siklus bisnis yang lengkap.
Perbandingan arsitektur proyek Web3 + reinforcement learning
Ringkasan dan prospek: jalur dan peluang reinforcement learning × Web3
Berdasarkan analisis proyek terdepan di atas, kami mengamati: meskipun titik masuk (algoritma, engineering, atau pasar) berbeda, ketika reinforcement learning (RL) digabungkan dengan Web3, logika arsitektur dasarnya semua mengarah ke pola “decoupling—verification—incentive” yang sangat konsisten. Ini bukan sekadar kebetulan teknologi, tetapi hasil alami dari adaptasi jaringan terdesentralisasi terhadap atribut unik RL.
Karakteristik arsitektur umum reinforcement learning: mengatasi batasan fisik dan kepercayaan
Pengiriman Rollout yang jarang dan paralel ke GPU konsumsi global, dan pembaruan parameter berbandwidth tinggi di node pelatihan utama. Dari Actor–Learner asinkron Prime Intellect hingga arsitektur dual gradient Echo, semuanya demikian.
Dalam jaringan tanpa izin, keaslian komputasi harus dijamin secara matematis dan mekanisme. Contohnya termasuk PoL Gensyn, TOPLOC Prime Intellect, dan verifikasi kriptografi Grail.
Pasokan daya, pembuatan data, verifikasi, dan distribusi reward membentuk siklus, mendorong partisipasi melalui reward dan menekan kecurangan melalui Slash, menjaga stabilitas dan evolusi jaringan terbuka.
Jalur inovasi berbeda: titik “terobosan” dalam arsitektur seragam
Meski arsitektur seragam, setiap proyek memilih “benteng teknologi” berbeda sesuai genetiknya:
· Inovasi algoritma (Nous Research): berusaha menyelesaikan konflik dasar pelatihan distribusi (batas bandwidth) dari tingkat matematis. DisTrO bertujuan mengompresi komunikasi gradien ribuan kali, agar pelatihan model besar di jaringan rumah tetap memungkinkan, sebagai “serangan dimensi” terhadap batas fisik.
· Sistem engineering (Prime Intellect, Gensyn, Gradient): fokus membangun “runtime AI” generasi berikutnya. ShardCast dan Parallax adalah contoh upaya memeras efisiensi dari jaringan yang ada melalui engineering ekstrem.
· Pasar dan permainan (Bittensor, Fraction AI): fokus pada desain reward function. Dengan mekanisme penilaian yang cermat, mendorong penambang mencari strategi optimal, mempercepat munculnya kecerdasan.
Kelebihan, tantangan, dan pandangan akhir
Dalam paradigma RL + Web3, keunggulan sistemik pertama adalah dalam struktur biaya dan tata kelola:
· Redefinisi biaya: RL post-training membutuhkan sampling tak terbatas, dan Web3 mampu menggerakkan daya komputasi global dengan biaya sangat rendah, tidak bisa ditandingi cloud pusat.
· Alignment berdaulat (Sovereign Alignment): membongkar monopoli perusahaan besar atas nilai dan aligment AI, komunitas dapat menggunakan Token untuk voting “jawaban yang baik”, mewujudkan demokratisasi AI.
Namun, sistem ini juga menghadapi dua kendala struktural utama:
· Dinding bandwidth (Bandwidth Wall): meskipun ada inovasi DisTrO, latensi fisik tetap membatasi pelatihan penuh model besar (>70B). Saat ini, AI Web3 lebih terbatas pada fine-tuning dan inferensi.
· Hukum Goodhart (Reward Hacking): dalam jaringan yang sangat termotivasi, penambang mudah melakukan “overfitting” reward (score hacking) daripada meningkatkan kecerdasan nyata. Membuat reward yang tahan kecurangan adalah permainan abadi.
· Serangan Byzantine node jahat (BYZANTINE worker): dengan memanipulasi sinyal pelatihan dan menyuntikkan data beracun, dapat mengganggu konvergensi model. Intinya bukan sekadar merancang reward anti-kecurangan, tetapi membangun mekanisme tahan adversarial.
Penggabungan RL dan Web3 pada dasarnya menulis ulang “bagaimana kecerdasan diproduksi, diatur, dan didistribusikan”. Jalurnya meliputi tiga arah pelengkap:
Jaringan pelatihan terdesentralisasi: dari hardware mining ke jaringan strategi, mengoutsourcing Rollout yang dapat diverifikasi ke GPU global, fokus jangka pendek pada pasar inferensi terverifikasi, jangka menengah menjadi sub jaringan RL berbasis clustering tugas;
Assetisasi preferensi dan reward: dari anotasi tenaga kerja ke ekuitas data. Mengubah feedback dan Reward Model menjadi aset data yang dapat diatur dan didistribusikan, dari “annotator” ke “ekuitas data”;
Evolusi “kecil dan indah” di domain vertikal: di skenario yang hasilnya dapat diverifikasi dan keuntungannya terukur, muncul agen RL khusus yang kecil namun kuat, seperti strategi DeFi, kode otomatis, yang mengaitkan perbaikan strategi dan pengambilan nilai secara langsung dan berpotensi mengungguli model tertutup umum.
Secara keseluruhan, peluang nyata reinforcement learning × Web3 bukan menyalin OpenAI terdesentralisasi, tetapi menulis ulang “relasi produksi kecerdasan”: menjadikan pelaksanaan pelatihan sebagai pasar daya komputasi terbuka, reward dan preferensi sebagai aset chain yang dapat diatur, dan nilai yang dihasilkan kecerdasan didistribusikan ulang antara pelatih, pengatur, dan pengguna. ($ALLO