Искусственный интеллект постепенно переходит от статистического обучения, основанного на «подгонке моделей», к системе способностей, ориентированной на «структурное рассуждение», что быстро повышает значение постобучения (Post-training). Появление DeepSeek-R1 ознаменовало кардинальный сдвиг парадигмы в области усиленного обучения в эпоху больших моделей, сформировалось отраслевое консенсусное понимание: предварительное обучение создает универсальную базу возможностей модели, а усиленное обучение перестает быть лишь инструментом выравнивания ценностей, доказано, что оно систематически повышает качество цепочек рассуждений и способность к сложным решениям, постепенно превращаясь в технологический путь постоянного повышения уровня интеллекта.
Одновременно Web3 через децентрализованные сети вычислительных мощностей и систему криптовознаграждений перестраивает производственные отношения в области ИИ, а структурные требования усиленного обучения — выборки rollout, сигналы награды и проверяемое обучение — естественно сочетаются с возможностями блокчейна по сотрудничеству по вычислительным мощностям, распределению стимулов и проверяемому выполнению. В этом отчете систематически разбираются парадигмы обучения ИИ и принципы технологий усиленного обучения, демонстрируются структурные преимущества сочетания RL и Web3, а также анализируются проекты Prime Intellect, Gensyn, Nous Research, Gradient, Grail и Fraction AI.
Три этапа обучения ИИ: предварительное обучение, тонкая настройка по инструкциям и постобучение (выравнивание)
Современное обучение больших языковых моделей (LLM) обычно делится на три ключевых этапа: предварительное обучение (Pre-training), контролируемая тонкая настройка (SFT) и постобучение (Post-training/RL). Каждый из них выполняет функции «построение модели мира — внедрение задачевых возможностей — формирование рассуждений и ценностей», а их вычислительная структура, требования к данным и сложность валидации определяют степень децентрализации.
· Предварительное обучение (Pre-training) с помощью масштабного самосупервизированного обучения (Self-supervised Learning) создает статистическую языковую структуру модели и межмодальную модель мира — фундамент возможностей LLM. Этот этап требует обучения на триллионах текстов в глобальном масштабе, синхронно, с использованием тысяч или десятков тысяч H100 в однородных кластерах, что занимает до 80–95% затрат, очень чувствителен к пропускной способности и правам на данные, поэтому должен проходить в высокоцентрализованных средах.
· Тонкая настройка (Supervised Fine-tuning) внедряет задачи и формат инструкций, объем данных небольшой, занимает около 5–15% затрат, может выполняться как полным обновлением всех параметров, так и с помощью параметрически-эффективных методов (PEFT), таких как LoRA, Q-LoRA и Adapter — основные в индустрии. Однако требует синхронных градиентов, что ограничивает потенциал децентрализации.
· Постобучение (Post-training) состоит из нескольких итеративных подэтапов, определяющих рассуждательные способности модели, ценности и границы безопасности. Методы включают системы усиленного обучения (RLHF, RLAIF, GRPO), а также методы без RL, такие как оптимизация предпочтений (DPO) и модели поощрения процесса (PRM). Этот этап требует меньших затрат (5–10%), сосредоточен на rollout и обновлении стратегий; естественно поддерживает асинхронное и распределенное выполнение, узлы не обязаны иметь полные веса модели, а использование проверяемых вычислений и стимулов на цепочке делает его наиболее подходящим для Web3.
Обзор технологий усиленного обучения: архитектуры, рамки и применения
Архитектура системы RL и ключевые компоненты
Reinforcement Learning (RL) — это процесс, при котором модель самостоятельно совершенствует свои решения через «взаимодействие с окружением — получение награды — обновление стратегии». Его основная структура — обратная связь, состоящая из состояний, действий, наград и стратегии. Полная RL-система включает три типа компонентов: Policy (стратегическая сеть), Rollout (выборка опыта) и Learner (обновление стратегии). Стратегия взаимодействует с окружением, формируя траектории, Learner обновляет стратегию на основе сигналов награды, что обеспечивает непрерывный цикл улучшения:
Стратегическая сеть (Policy): генерирует действия на основе состояния окружения, является ядром решений. Во время обучения требуется централизованное обратное распространение для согласованности; при выводе — может быть распределена по узлам для параллельной работы.
Выборка опыта (Rollout): узлы по стратегии взаимодействуют с окружением, создавая траектории состояний, действий и наград. Этот процесс — высокопараллельный, с минимальной коммуникацией, не чувствителен к аппаратным различиям, идеально подходит для масштабирования в децентрализованных систем.
Обучающий (Learner): собирает все траектории Rollout и выполняет градиентное обновление стратегии, требует наибольших ресурсов по вычислительной мощности и пропускной способности, поэтому обычно остается централизованным или слабоцентрализованным для обеспечения стабильности сходимости.
Рамки этапов RL (RLHF → RLAIF → PRM → GRPO)
Общий процесс усиленного обучения обычно делится на пять этапов, последовательность которых следующая:
Этап генерации данных (Policy Exploration)
При заданных входных подсказках стратегия πθ генерирует несколько кандидатных цепочек рассуждений или полных траекторий, служащих базой для последующей оценки предпочтений и моделирования награды, определяет широту поиска стратегии.
Этап обратной связи по предпочтениям (RLHF / RLAIF)
· RLHF (Reinforcement Learning from Human Feedback): использует несколько ответов, ручную разметку предпочтений, обучение модели наград (RM) и оптимизацию стратегии с помощью PPO, делая выводы более соответствующими человеческим ценностям — ключевой этап для GPT-3.5 → GPT-4.
· RLAIF (Reinforcement Learning from AI Feedback): заменяет ручную разметку автоматической системой судей или конституционными правилами, значительно снижая издержки и позволяя масштабировать — стал стандартным подходом у Anthropic, OpenAI, DeepSeek и др.
Этап моделирования награды (Reward Modeling)
Обучение модели награды на предпочтениях, чтобы она могла оценивать качество ответов:
· RM (Reward Model): оценивает финальные ответы, присваивая им баллы;
· PRM (Process Reward Model): оценивает не только финальный ответ, а каждое шаг рассуждения, каждый токен и логический сегмент — ключевая технология OpenAI o1 и DeepSeek-R1, по сути «учит модель думать».
Этап проверки награды (RLVR / Reward Verifiability)
В процессе генерации и использования сигнала награды вводятся «проверяемые ограничения», чтобы награда максимально исходила из воспроизводимых правил, фактов или консенсуса, снижая риск «хакерства награды» и смещения, повышая аудитируемость и масштабируемость в открытых средах.
Этап оптимизации стратегии (Policy Optimization)
Обновление параметров стратегии θ под руководством сигнала модели награды для получения более мощных рассуждений, большей безопасности и стабильных моделей поведения. Основные методы:
· PPO (Proximal Policy Optimization): классический оптимизатор RLHF, обеспечивает стабильность, но в сложных задачах часто сталкивается с медленной сходимостью и недостаточной стабильностью.
· GRPO (Group Relative Policy Optimization): ключевое нововведение DeepSeek-R1, моделирует преимущества внутри группы ответов для оценки ожидаемой ценности, а не простого ранжирования. Этот метод сохраняет информацию о величине награды, лучше подходит для оптимизации цепочек рассуждений, обеспечивает более стабильное обучение и считается важной рамкой для глубокого рассуждения.
· DPO (Direct Preference Optimization): постобучение без RL, не генерирует траектории и не строит модели награды, а напрямую оптимизирует по предпочтениям, низкая стоимость и стабильный эффект, широко используется для выравнивания моделей типа Llama, Gemma, но не повышает рассуждательные способности.
Новая стадия развертывания стратегии (New Policy Deployment)
После оптимизации модель демонстрирует: повышенную способность генерировать цепочки рассуждений (System-2 Reasoning), более соответствующее предпочтениям поведение, меньшую частоту галлюцинаций и повышенную безопасность. В процессе постоянных итераций модель учится предпочтениям, оптимизирует процессы и повышает качество решений, образуя замкнутый цикл.
Промышленные применения усиленного обучения: пять категорий
RL уже эволюционировало от ранних игр и стратегий к ядру автономных решений в различных отраслях. В зависимости от зрелости технологий и уровня внедрения выделяют пять основных категорий:
· Игры и стратегии (Game & Strategy): первые успешные применения RL, в средах с «полной информацией + четкими наградами» (AlphaGo, AlphaZero, AlphaStar, OpenAI Five), где достигнуты уровни, сопоставимые или превосходящие человеческий интеллект, заложившие основы современных алгоритмов.
· Роботы и embodied AI: RL через управление движением, моделирование динамики и взаимодействие с окружением (RT-2, RT-X) быстро приближается к промышленному внедрению, являясь ключевым направлением для реальных роботов.
· Цифровое рассуждение (Digital Reasoning / System-2 LLM): RL + PRM переводит большие модели от «языкового имитирования» к «структурированному рассуждению», примеры — DeepSeek-R1, OpenAI o1/o3, Anthropic Claude, AlphaGeometry, где награды оптимизируют цепочки рассуждений, а не только финальные ответы.
· Научные открытия и математическая оптимизация (Scientific Discovery): RL в условиях отсутствия меток, с сложными наградами и огромным поисковым пространством позволяет находить оптимальные структуры и стратегии, достигнуты прорывы в AlphaTensor, AlphaDev, Fusion RL, демонстрирующие способность к исследованию, превосходящему интуицию человека.
· Экономические решения и торговля (Economic Decision-making & Trading): RL используется для оптимизации стратегий, управления рисками и создания адаптивных торговых систем, превосходя традиционные количественные модели в условиях неопределенности, важный компонент интеллектуальных финансов.
Естественное соответствие Web3 и RL
Высокая совместимость RL и Web3 обусловлена их природной «мотивационной системой». RL использует сигналы награды для оптимизации стратегий, а блокчейн — для координации участников через экономические стимулы, что делает их механически совместимыми. Основные требования RL — масштабные разнородные выборки rollout, распределение наград и проверка подлинности — совпадают с преимуществами Web3 по сотрудничеству, распределению стимулов и проверяемому выполнению.
Разделение рассуждений и обучения
Процесс обучения RL можно четко разбить на два этапа:
· Rollout (исследование и выборка): модель на основе текущей стратегии генерирует большие объемы данных, что — ресурсоемко, но коммуникационно малозатратно. Не требует частых межузловых сообщений, подходит для параллельной работы на глобальных GPU.
· Обновление (параметров): на основе собранных данных происходит обновление весов модели, что требует высокой пропускной способности централизованных узлов.
«Разделение рассуждений и обучения» идеально подходит для децентрализованных систем с разнородными вычислительными ресурсами: rollout можно делегировать открытой сети, используя токеновые механизмы для учета вклада, а обновление модели — централизовать для стабильности.
Проверяемость (Verifiability)
Технологии Zero-Knowledge (ZK) и Proof-of-Learning позволяют проверять, действительно ли узлы выполняли рассуждения, что решает проблему честности в открытых сетях. В задачах с детерминированными ответами, например, в коде или математике, проверяющий может просто проверить ответ, что значительно повышает доверие к децентрализованным RL-системам.
Механизм стимулов на базе токенов
Web3 использует токеновые механизмы для прямого вознаграждения участников за вклад в предпочтения и обратную связь (RLHF, RLAIF), делая сбор предпочтений прозрачным, расчетным и без разрешений. Стейкинг и штрафы (Staking/Slashing) дополнительно ограничивают качество обратной связи, создавая более эффективный и выравненный рынок отзывов по сравнению с традиционным краудсорсингом.
Потенциал мультиагентного RL (MARL)
Блокчейн — это открытая, прозрачная, постоянно эволюционирующая среда с множеством агентов, аккаунтов, контрактов и интеллектуальных субъектов, которые под воздействием стимулов постоянно меняют стратегии. Это создает естественные предпосылки для масштабных экспериментов MARL. Несмотря на раннюю стадию, открытость данных, проверяемость исполнения и программируемость стимулов дают принципиальные преимущества для развития MARL.
Анализ классических Web3 + проектов RL
На основе вышеизложенной теории кратко рассматриваются наиболее значимые проекты:
Prime Intellect: асинхронная парадигма RL prime-rl
Prime Intellect строит глобальный открытый рынок вычислительных ресурсов, снижает пороги обучения, стимулирует совместное децентрализованное обучение и развивает полный открытый стек сверхинтеллекта. В его системе: Prime Compute (единая облачная/распределенная среда), модельный семейство INTELLECT (от 10B до 100B+), открытый центр окружения (Environments Hub) и крупномасштабный синтез данных (SYNTHETIC-1/2).
Ключевая инфраструктура prime-rl специально разработана для асинхронной распределенной среды и усиленного обучения, включает коммуникационный протокол OpenDiLoCo, гарантирующий целостность вычислений TopLoc и другие компоненты.
prime-rl — ядро обучения Prime Intellect, предназначенное для масштабных асинхронных децентрализованных сред, реализует полное декуплирование Actor–Learner для высокой пропускной способности и стабильной сходимости. Исполнители (Rollout Worker) и обучающие (Trainer) больше не блокируют друг друга, узлы могут подключаться и отключаться в любой момент, просто подтягивая актуальную стратегию и загружая данные:
· Исполнитель Actor (Rollout Workers): отвечает за моделирование и генерацию данных. Впервые в Prime Intellect интегрирован движок vLLM для рассуждений. Технология PagedAttention и возможность непрерывной пакетной обработки позволяют Actor генерировать траектории с очень высокой пропускной способностью.
· Обучающий Learner (Trainer): собирает опыт из буфера и асинхронно обновляет стратегию, не ожидая завершения всех Actor.
· Координатор (Orchestrator): управляет передачей весов и потоками данных.
Ключевые инновации prime-rl
· Полностью асинхронный режим (True Asynchrony): отказ от синхронных PPO, не ждет медленных узлов, не требует синхронизации батчей, что позволяет подключать любое число GPU, обеспечивая децентрализацию RL.
· Глубокая интеграция FSDP2 и MoE: с помощью разбиения параметров FSDP2 и разреженного активации MoE prime-rl позволяет эффективно обучать модели в сотни миллиардов параметров в распределенной среде, активные эксперты — только часть модели, что значительно снижает требования к памяти и вычислениям.
· GRPO+ (Group Relative Policy Optimization): исключает необходимость критика (Critic), уменьшает вычислительные и памятьные затраты, подходит для асинхронных условий, обеспечивает стабильное сходимость даже при высокой задержке, считается важной рамкой для глубокого рассуждения.
Модельный семейство INTELLECT: знак зрелости децентрализованных RL-технологий
· INTELLECT-1 (10B, октябрь 2024): впервые показано, что OpenDiLoCo может эффективно обучать в межконтинентальных условиях (менее 2% коммуникации, 98% использования ресурсов), преодолевая физические границы.
· INTELLECT-2 (32B, апрель 2025): первый RL-модель без разрешений, подтверждает стабильность сходимости prime-rl и GRPO+ в условиях задержек и асинхронности, обеспечивает участие глобальных ресурсов.
· INTELLECT-3 (106B MoE, ноябрь 2025): разреженная архитектура с активизацией 12B параметров, обучена на 512×H200, достигает уровня, приближающегося или превосходящего централизованные закрытые модели (AIME 90.8%, GPQA 74.4%, MMLU-Pro 81.9%).
Кроме того, построены инфраструктурные компоненты: OpenDiLoCo — снижает коммуникации при межрегиональных тренировках в сотни раз, TopLoc + Verifiers — формируют децентрализованный слой доверия, SYNTHETIC — генерирует большие объемы цепочек рассуждений, позволяя моделям до 671B эффективно работать на потребительских GPU. Эти компоненты создают инженерную базу для генерации данных, проверки и пропускной способности децентрализованного RL. Серия INTELLECT подтверждает, что стек технологий способен создавать зрелые мирового уровня модели, выводя децентрализованное обучение из концептуальной стадии в практическую.
Gensyn: ядро RL-стека RL Swarm и SAPO
Gensyn ставит целью объединить неиспользуемую вычислительную мощность по всему миру в открытую, доверительную и масштабируемую инфраструктуру для обучения ИИ. В его ядро входят стандартизированный слой выполнения на разных устройствах, p2p-сеть координации и система проверки задач без доверия, автоматическая раздача задач и вознаграждений через смарт-контракты. В центре внимания — особенности RL: механизмы RL Swarm, SAPO и SkipPipe, которые разъединяют генерацию, оценку и обновление, используют глобальные разнородные GPU для коллективной эволюции. Итог — не просто вычислительные ресурсы, а проверяемый интеллект (Verifiable Intelligence).
RL Swarm демонстрирует новую модель сотрудничества. Он не просто распределяет задачи, а реализует цикл «генерация — оценка — обновление», имитирующий социальное обучение, — бесконечный цикл:
· Solvers (исполнители): отвечают за локальное моделирование и генерацию Rollout, узлы разнородны. Gensyn интегрирует локальный движок высокого пропускания (например, CodeZero), который выводит полные траектории, а не только ответы.
· Proposers (предлагающие задачи): динамически создают задачи (математика, код), поддерживают разнообразие и адаптивность сложности, подобно Curriculum Learning.
· Evaluators (оценщики): используют замороженные «судейские модели» или правила для оценки Rollout, формируют локальные сигналы награды. Процесс может быть аудируемым, что снижает злоупотребления.
Эти три компонента образуют P2P-структуру RL без централизованного управления, что позволяет масштабировать совместное обучение.
SAPO: стратегия оптимизации для децентрализованной реконструкции
SAPO (Swarm Sampling Policy Optimization) основана на «совместной выборке Rollout и фильтрации без градиентов», что позволяет сохранять стабильность в условиях отсутствия централизованного координирования и значительных задержек узлов. В отличие от PPO с критиком или GRPO, SAPO использует минимальную пропускную способность, что позволяет даже потребительским GPU участвовать в масштабных RL-обучениях.
Благодаря RL Swarm и SAPO Gensyn демонстрирует, что RL (особенно этап постобучения RLVR) естественно подходит для децентрализованных структур — поскольку он опирается на масштабные, разнородные исследования (rollout), а не на частое синхронное обновление параметров. В сочетании с системами верификации PoL и Verde Gensyn предлагает альтернативный путь обучения моделей триллионных размеров без зависимости от крупных корпораций: сеть из миллионов разнородных GPU по всему миру, эволюционирующая сама.
Nous Research: проверяемая среда RL Atropos
Nous Research создает децентрализованную, самосовершенствующуюся когнитивную инфраструктуру. Ее ядро — Hermes, Atropos, DisTrO, Psyche и World Sim — образуют цикл постоянного интеллектуального развития. В отличие от линейных процессов «предобучение — постобучение — рассуждение», Nous использует технологии RL (DPO, GRPO, отбор с отказом), объединяя генерацию данных, проверку, обучение и рассуждение в непрерывный цикл, создавая устойчивую экосистему.
Обзор компонентов Nous Research
Модельный уровень: Hermes и развитие рассуждательных возможностей
Hermes — основной интерфейс моделей Nous, показывающий путь от традиционного SFT/DPO к рассуждательному RL:
· Hermes 1–3: обучение по инструкциям и ранние возможности: используют низкозатратный DPO для надежного выравнивания, Hermes 3 — с помощью синтезированных данных и Atropos.
· Hermes 4 / DeepHermes: внедрение «мышления» в веса через цепочки систем-2, повышение математической и кодовой производительности с помощью Test-Time Scaling, используют «отказ с выборкой + Atropos» для построения чистых данных для рассуждений.
· DeepHermes: заменяет PPO на GRPO, что позволяет запускать RL в распределенной среде Psyche, создавая основу для масштабируемых открытых систем рассуждения.
Atropos: проверяемая среда наградного RL
Atropos — ключевой компонент RL системы Nous. Он превращает подсказки, вызовы инструментов, выполнение кода и многократные взаимодействия в стандартизированную RL-среду, которая может проверять правильность вывода, обеспечивая детерминированный сигнал награды, заменяя дорогостоящую ручную разметку. В децентрализованной сети Psyche Atropos выступает как «судья», проверяющий, действительно ли узлы улучшили стратегию, поддерживая проверяемое доказательство обучения (Proof-of-Learning), что решает проблему доверия к наградам в распределенном RL.
DisTrO и Psyche: слой оптимизации децентрализованного RL
Традиционное обучение RL (RLHF, RLAIF) требует централизованных высокоскоростных кластеров — это барьер для открытых систем. DisTrO использует декуплирование с помощью импульсных методов и сжатия градиентов, снижая коммуникационные издержки в разы, позволяя обучать через интернет-каналы; Psyche реализует этот механизм на цепочке, узлы могут локально выполнять рассуждения, проверку, оценку наград и обновление весов, образуя полный цикл RL.
В системе Nous Atropos проверяет цепочки рассуждений; DisTrO сжимает коммуникации; Psyche управляет циклом RL; World Sim моделирует сложные среды; Forge собирает реальные цепочки; Hermes записывает все обучение в веса. RL — это не просто этап, а основной протокол, связывающий данные, окружение, модель и инфраструктуру, делая Hermes живой системой, способной к постоянному самосовершенствованию в открытой сети.
Gradient Network: архитектура RL Echo
Gradient Network — это концепция переосмысления AI через «открытый протокол интеллекта» (Open Intelligence Stack). Стек состоит из нескольких эволюционирующих и взаимодействующих протоколов: Parallax (распределенное рассуждение), Echo (распределенное RL), Lattica (P2P сеть), SEDM / Massgen / Symphony / CUAHarm (память, сотрудничество, безопасность), VeriLLM (доверенная проверка), Mirage (высокоточная имитация). Вместе они формируют постоянно развивающуюся децентрализованную инфраструктуру.
Echo — архитектура обучения RL
Echo — это фреймворк RL Gradient, основанный на декуплировании процессов обучения, рассуждения и данных (наград), что позволяет выборки, оптимизация стратегии и оценка наград разворачиваться независимо в разнородных средах. В сети с узлами для рассуждений и обучения Echo использует легкие синхронные механизмы для поддержания стабильности, снижая проблему низкой загрузки GPU, характерную для DeepSpeed RLHF / VERL.
Echo реализует «двойную архитектуру» — два независимых кластера: один для рассуждений, другой для обучения:
· Максимизация пропускной способности выборки: Inference Swarm — из потребительских GPU и устройств на периферии, использует Parallax для pipeline-параллельных выборок, фокусируется на цепочках;
· Максимизация вычислений градиентов: Training Swarm — из централизованных или глобальных GPU, занимается градиентами, синхронизацией и LoRA.
Для согласованности стратегии и данных Echo предлагает два режима синхронизации:
· Последовательный (Pull): при обновлении траекторий узлы обновляют модель перед генерацией новых цепочек, что важно для чувствительных к свежести стратегий задач;
· Асинхронный (Push–Pull): рассуждающие узлы постоянно генерируют цепочки с метками версий, обучающий узел их потребляет, а координатор следит за отклонениями и инициирует обновление весов, максимально эффективно использует ресурсы.
На уровне инфраструктуры Echo базируется на Parallax (распределенное рассуждение в условиях низкой пропускной способности) и легких компонентах распределенного обучения (например, VERL)), использующих LoRA для снижения затрат синхронизации между узлами, что обеспечивает стабильную работу RL в глобальных разнородных сетях.
Grail: экосистема Bittensor и усиленное обучение
GRAIL — это слой, основанный на уникальном механизме консенсуса Yuma, создающий огромную, разреженную и нестабильную сеть наградных функций.
Экосистема Bittensor включает цепочку от предобучения до RL-постобучения: SN3 Templar — предобучение базовых моделей, SN39 Basilica — рынок распределенных ресурсов, SN81 Grail — «проверяемый слой рассуждений» для RLHF / RLAIF, реализующий цикл оптимизации от базовой модели к выравниванию.
GRAIL использует криптографические методы для доказательства подлинности каждого rollout и связывает его с идентичностью модели, обеспечивая безопасность и доверие без необходимости доверия. Три уровня протоколов создают доверительную цепочку:
Генерация детерминированных вызовов: с помощью drand и хешей блоков создаются непредсказуемые, но воспроизводимые задачи (например, SAT, GSM8K), исключая предсказуемое мошенничество;
Использование PRF и скетч-коммитментов для минимальных затрат на выборочные проверки логарифмов и цепочек рассуждений, подтверждая, что rollout создан заявленной моделью;
Связывание идентичности модели с отпечатками весов и структурными подписями распределения токенов, что позволяет мгновенно обнаруживать замену модели или повторное воспроизведение результатов. Это создает надежную основу для подлинности цепочек рассуждений в RL.
На базе этого механизма Grail реализует проверяемый постобучающий цикл в стиле GRPO: майнеры генерируют несколько цепочек рассуждений по одной задаче, проверяющие оценивают их по правильности, качеству цепочек и SAT, и записывают результаты в цепочку, формируя веса TAO. Открытые эксперименты показывают, что этот подход повысил точность MATH модели Qwen2.5-1.5B с 12.7% до 47.6%, что подтверждает защиту от мошенничества и усиление модели. В стеке обучения Covenant AI Grail — основа доверия и исполнения для RLVR / RLAIF, пока не запущена в основном режиме.
Fraction AI: конкурентное RL (RLFC)
Fraction AI строит архитектуру на базе конкурентного RL (Reinforcement Learning from Competition) и геймифицированной разметки данных, заменяя статические награды RLHF и ручную разметку на динамическое соревнование. Агенты в разных «Spaces» соревнуются, их относительные рейтинги и оценки AI-экспертов формируют текущие награды, превращая выравнивание в постоянную многопользовательскую игру.
Ключевые отличия RLFC от традиционного RLHF:
RLFC основывается на наградах, получаемых не от одной модели, а от постоянно меняющихся соперников и оценщиков, что предотвращает злоупотребления моделями наград и способствует стратегическому разнообразию. Структура Spaces определяет тип игры (зеро-сумм или позитив-сумм), стимулируя развитие сложных стратегий в противостоянии и сотрудничестве.
В системе RLFC выделяются четыре ключевых компонента:
· Agents: легкие стратегии на базе открытых LLM, используют QLoRA для дифференцированного расширения весов, обновляются с низкими затратами;
· Spaces: изолированные области задач, агенты платят за вход и получают награды за победы или поражения;
· AI Judges: система оценки на базе RLAIF, обеспечивает масштабируемую и децентрализованную обратную связь;
· Proof-of-Learning: связывает обновление стратегии с результатами соревнований, обеспечивает проверяемость процесса.
По сути, Fraction AI создает «эволюционный движок» с участием человека как «мета-оптимизатора» через Prompt Engineering и настройку гиперпараметров, а агенты автоматически генерируют огромные объемы предпочтительных данных в микроскопическом соревновании. Такой подход превращает сбор данных в «доверительный» и автоматизированный процесс, реализуемый через «Trustless Fine-tuning».
Сравнение архитектур проектов RL и Web3
Обобщение и перспективы: пути и возможности сочетания RL и Web3
Анализируя указанные проекты, можно заметить, что несмотря на разные подходы (алгоритмический, инженерный или рыночный), при интеграции RL и Web3 их базовая архитектура сходится к высоко согласованной модели «разделение — проверка — стимулы». Это не только технологическая случайность, но и закономерность, обусловленная особенностями децентрализованных сетей, адаптирующихся к уникальным свойствам RL.
Общие черты архитектуры RL: решение ключевых физических и доверительных ограничений
Физическое разделение процессов обучения и выполнения (Decoupling of Rollouts & Learning): по умолчанию — вычислительная топология
Малозатратное и параллельное делегирование rollout глобальным GPU, высокая пропускная способность для обновлений параметров — от асинхронных Actor–Learner Prime Intellect до двойной архитектуры Gradient Echo.
Обеспечение доверия через проверку (Verification-Driven Trust): инфраструктурный уровень
В неограниченных сетях безопасность вычислений должна обеспечиваться математическими и механическими средствами, такие как PoL Gensyn, TopLoc Prime Intellect и криптографическая проверка Grail.
Обеспечивают стимулы для участия, контроль за мошенничеством через штрафы, создавая устойчивую и эволюционирующую сеть в открытых условиях.
Различия в технологических путях: при схожей архитектуре — разные «точки прорыва»
Несмотря на схожесть архитектур, проекты выбирают разные технологические стратегии:
· Алгоритмический прорыв (Nous Research): попытки решить физические ограничения распределенного обучения (пропускная способность). Их DisTrO — компрессор градиентов, уменьшающий объем коммуникаций в тысячи раз, — «уменьшение размерности» физических ограничений.
· Инженерный подход (Prime Intellect, Gensyn, Gradient): создание следующего поколения «среды выполнения ИИ». Prime Intellect ShardCast и Gradient Parallax — инженерные решения для максимизации эффективности в существующих сетевых условиях.
· Рыночный подход (Bittensor, Fraction AI): проектирование функций награды (Reward Function). Через продуманные механизмы оценки стимулируют майнеров искать оптимальные стратегии, ускоряя появление интеллекта.
Преимущества, вызовы и перспективы
В системе RL + Web3 ключевые преимущества — в перестройке стоимости и управления:
· Перестройка стоимости: постобучение требует бесконечных выборок, Web3 позволяет за минимальные затраты мобилизовать глобальные ресурсы, что недоступно централизованным облакам.
· Суверенное выравнивание (Sovereign Alignment): разрушение монополии крупных корпораций на ценности AI, сообщество через токены может голосовать за «хорошие ответы», демократизируя управление.
Однако система сталкивается с двумя структурными ограничениями:
· «Стена пропускной способности» (Bandwidth Wall): несмотря на инновации DisTrO, физические задержки ограничивают обучение моделей с более чем 70B параметров, Web3 пока больше подходит для тонкой настройки и рассуждений.
· Закон Гудхарта (Reward Hacking): в высоко мотивированной сети майнеры склонны «подгонять» награды, а не повышать реальный интеллект. Разработка устойчивых наградных функций — вечная игра.
· Атаки злонамеренных узлов (Byzantine): активное манипулирование сигналами обучения и подделка данных могут разрушить сходимость модели. Важна разработка механизмов противодействия.
Интеграция RL и Web3 — это в основном переписывание «как создается, выравнивается и распределяется ценность» в системе ИИ. Ее развитие можно представить тремя взаимодополняющими направлениями:
Децентрализованные сети обучения: от майнеров до стратегий, делегирование и проверка rollout глобальным GPU, краткосрочно — рынок проверяемых рассуждений, долгосрочно — субсети RL по задачам;
Активы предпочтений и наград: от разметки до доли данных. Сделать предпочтения и награды управляемыми активами, превратить обратную связь и Reward Model в управляемые и распределяемые данные, перейти от «разметки» к «долевому участию»;
«Маленькие и красивые» вертикальные решения: в задачах с проверяемыми результатами и измеримой отдачей — создание узкоспециализированных RL-агентов (DeFi, кодогенерация), связывающих улучшение стратегий и получение ценности, с возможностью опередить универсальные закрытые модели.
Общий вывод: истинные возможности RL + Web3 — не в копировании децентрализованной версии OpenAI, а в переписывании «производственных отношений» ИИ: превращении обучения в открытый рынок
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
От вычислительной мощности до интеллекта: карта децентрализованных AI-инвестиций, основанная на усиленном обучении
Искусственный интеллект постепенно переходит от статистического обучения, основанного на «подгонке моделей», к системе способностей, ориентированной на «структурное рассуждение», что быстро повышает значение постобучения (Post-training). Появление DeepSeek-R1 ознаменовало кардинальный сдвиг парадигмы в области усиленного обучения в эпоху больших моделей, сформировалось отраслевое консенсусное понимание: предварительное обучение создает универсальную базу возможностей модели, а усиленное обучение перестает быть лишь инструментом выравнивания ценностей, доказано, что оно систематически повышает качество цепочек рассуждений и способность к сложным решениям, постепенно превращаясь в технологический путь постоянного повышения уровня интеллекта.
Одновременно Web3 через децентрализованные сети вычислительных мощностей и систему криптовознаграждений перестраивает производственные отношения в области ИИ, а структурные требования усиленного обучения — выборки rollout, сигналы награды и проверяемое обучение — естественно сочетаются с возможностями блокчейна по сотрудничеству по вычислительным мощностям, распределению стимулов и проверяемому выполнению. В этом отчете систематически разбираются парадигмы обучения ИИ и принципы технологий усиленного обучения, демонстрируются структурные преимущества сочетания RL и Web3, а также анализируются проекты Prime Intellect, Gensyn, Nous Research, Gradient, Grail и Fraction AI.
Три этапа обучения ИИ: предварительное обучение, тонкая настройка по инструкциям и постобучение (выравнивание)
Современное обучение больших языковых моделей (LLM) обычно делится на три ключевых этапа: предварительное обучение (Pre-training), контролируемая тонкая настройка (SFT) и постобучение (Post-training/RL). Каждый из них выполняет функции «построение модели мира — внедрение задачевых возможностей — формирование рассуждений и ценностей», а их вычислительная структура, требования к данным и сложность валидации определяют степень децентрализации.
· Предварительное обучение (Pre-training) с помощью масштабного самосупервизированного обучения (Self-supervised Learning) создает статистическую языковую структуру модели и межмодальную модель мира — фундамент возможностей LLM. Этот этап требует обучения на триллионах текстов в глобальном масштабе, синхронно, с использованием тысяч или десятков тысяч H100 в однородных кластерах, что занимает до 80–95% затрат, очень чувствителен к пропускной способности и правам на данные, поэтому должен проходить в высокоцентрализованных средах.
· Тонкая настройка (Supervised Fine-tuning) внедряет задачи и формат инструкций, объем данных небольшой, занимает около 5–15% затрат, может выполняться как полным обновлением всех параметров, так и с помощью параметрически-эффективных методов (PEFT), таких как LoRA, Q-LoRA и Adapter — основные в индустрии. Однако требует синхронных градиентов, что ограничивает потенциал децентрализации.
· Постобучение (Post-training) состоит из нескольких итеративных подэтапов, определяющих рассуждательные способности модели, ценности и границы безопасности. Методы включают системы усиленного обучения (RLHF, RLAIF, GRPO), а также методы без RL, такие как оптимизация предпочтений (DPO) и модели поощрения процесса (PRM). Этот этап требует меньших затрат (5–10%), сосредоточен на rollout и обновлении стратегий; естественно поддерживает асинхронное и распределенное выполнение, узлы не обязаны иметь полные веса модели, а использование проверяемых вычислений и стимулов на цепочке делает его наиболее подходящим для Web3.
Обзор технологий усиленного обучения: архитектуры, рамки и применения
Архитектура системы RL и ключевые компоненты
Reinforcement Learning (RL) — это процесс, при котором модель самостоятельно совершенствует свои решения через «взаимодействие с окружением — получение награды — обновление стратегии». Его основная структура — обратная связь, состоящая из состояний, действий, наград и стратегии. Полная RL-система включает три типа компонентов: Policy (стратегическая сеть), Rollout (выборка опыта) и Learner (обновление стратегии). Стратегия взаимодействует с окружением, формируя траектории, Learner обновляет стратегию на основе сигналов награды, что обеспечивает непрерывный цикл улучшения:
Рамки этапов RL (RLHF → RLAIF → PRM → GRPO)
Общий процесс усиленного обучения обычно делится на пять этапов, последовательность которых следующая:
Этап генерации данных (Policy Exploration)
При заданных входных подсказках стратегия πθ генерирует несколько кандидатных цепочек рассуждений или полных траекторий, служащих базой для последующей оценки предпочтений и моделирования награды, определяет широту поиска стратегии.
Этап обратной связи по предпочтениям (RLHF / RLAIF)
· RLHF (Reinforcement Learning from Human Feedback): использует несколько ответов, ручную разметку предпочтений, обучение модели наград (RM) и оптимизацию стратегии с помощью PPO, делая выводы более соответствующими человеческим ценностям — ключевой этап для GPT-3.5 → GPT-4.
· RLAIF (Reinforcement Learning from AI Feedback): заменяет ручную разметку автоматической системой судей или конституционными правилами, значительно снижая издержки и позволяя масштабировать — стал стандартным подходом у Anthropic, OpenAI, DeepSeek и др.
Этап моделирования награды (Reward Modeling)
Обучение модели награды на предпочтениях, чтобы она могла оценивать качество ответов:
· RM (Reward Model): оценивает финальные ответы, присваивая им баллы;
· PRM (Process Reward Model): оценивает не только финальный ответ, а каждое шаг рассуждения, каждый токен и логический сегмент — ключевая технология OpenAI o1 и DeepSeek-R1, по сути «учит модель думать».
Этап проверки награды (RLVR / Reward Verifiability)
В процессе генерации и использования сигнала награды вводятся «проверяемые ограничения», чтобы награда максимально исходила из воспроизводимых правил, фактов или консенсуса, снижая риск «хакерства награды» и смещения, повышая аудитируемость и масштабируемость в открытых средах.
Этап оптимизации стратегии (Policy Optimization)
Обновление параметров стратегии θ под руководством сигнала модели награды для получения более мощных рассуждений, большей безопасности и стабильных моделей поведения. Основные методы:
· PPO (Proximal Policy Optimization): классический оптимизатор RLHF, обеспечивает стабильность, но в сложных задачах часто сталкивается с медленной сходимостью и недостаточной стабильностью.
· GRPO (Group Relative Policy Optimization): ключевое нововведение DeepSeek-R1, моделирует преимущества внутри группы ответов для оценки ожидаемой ценности, а не простого ранжирования. Этот метод сохраняет информацию о величине награды, лучше подходит для оптимизации цепочек рассуждений, обеспечивает более стабильное обучение и считается важной рамкой для глубокого рассуждения.
· DPO (Direct Preference Optimization): постобучение без RL, не генерирует траектории и не строит модели награды, а напрямую оптимизирует по предпочтениям, низкая стоимость и стабильный эффект, широко используется для выравнивания моделей типа Llama, Gemma, но не повышает рассуждательные способности.
Новая стадия развертывания стратегии (New Policy Deployment)
После оптимизации модель демонстрирует: повышенную способность генерировать цепочки рассуждений (System-2 Reasoning), более соответствующее предпочтениям поведение, меньшую частоту галлюцинаций и повышенную безопасность. В процессе постоянных итераций модель учится предпочтениям, оптимизирует процессы и повышает качество решений, образуя замкнутый цикл.
Промышленные применения усиленного обучения: пять категорий
RL уже эволюционировало от ранних игр и стратегий к ядру автономных решений в различных отраслях. В зависимости от зрелости технологий и уровня внедрения выделяют пять основных категорий:
· Игры и стратегии (Game & Strategy): первые успешные применения RL, в средах с «полной информацией + четкими наградами» (AlphaGo, AlphaZero, AlphaStar, OpenAI Five), где достигнуты уровни, сопоставимые или превосходящие человеческий интеллект, заложившие основы современных алгоритмов.
· Роботы и embodied AI: RL через управление движением, моделирование динамики и взаимодействие с окружением (RT-2, RT-X) быстро приближается к промышленному внедрению, являясь ключевым направлением для реальных роботов.
· Цифровое рассуждение (Digital Reasoning / System-2 LLM): RL + PRM переводит большие модели от «языкового имитирования» к «структурированному рассуждению», примеры — DeepSeek-R1, OpenAI o1/o3, Anthropic Claude, AlphaGeometry, где награды оптимизируют цепочки рассуждений, а не только финальные ответы.
· Научные открытия и математическая оптимизация (Scientific Discovery): RL в условиях отсутствия меток, с сложными наградами и огромным поисковым пространством позволяет находить оптимальные структуры и стратегии, достигнуты прорывы в AlphaTensor, AlphaDev, Fusion RL, демонстрирующие способность к исследованию, превосходящему интуицию человека.
· Экономические решения и торговля (Economic Decision-making & Trading): RL используется для оптимизации стратегий, управления рисками и создания адаптивных торговых систем, превосходя традиционные количественные модели в условиях неопределенности, важный компонент интеллектуальных финансов.
Естественное соответствие Web3 и RL
Высокая совместимость RL и Web3 обусловлена их природной «мотивационной системой». RL использует сигналы награды для оптимизации стратегий, а блокчейн — для координации участников через экономические стимулы, что делает их механически совместимыми. Основные требования RL — масштабные разнородные выборки rollout, распределение наград и проверка подлинности — совпадают с преимуществами Web3 по сотрудничеству, распределению стимулов и проверяемому выполнению.
Разделение рассуждений и обучения
Процесс обучения RL можно четко разбить на два этапа:
· Rollout (исследование и выборка): модель на основе текущей стратегии генерирует большие объемы данных, что — ресурсоемко, но коммуникационно малозатратно. Не требует частых межузловых сообщений, подходит для параллельной работы на глобальных GPU.
· Обновление (параметров): на основе собранных данных происходит обновление весов модели, что требует высокой пропускной способности централизованных узлов.
«Разделение рассуждений и обучения» идеально подходит для децентрализованных систем с разнородными вычислительными ресурсами: rollout можно делегировать открытой сети, используя токеновые механизмы для учета вклада, а обновление модели — централизовать для стабильности.
Проверяемость (Verifiability)
Технологии Zero-Knowledge (ZK) и Proof-of-Learning позволяют проверять, действительно ли узлы выполняли рассуждения, что решает проблему честности в открытых сетях. В задачах с детерминированными ответами, например, в коде или математике, проверяющий может просто проверить ответ, что значительно повышает доверие к децентрализованным RL-системам.
Механизм стимулов на базе токенов
Web3 использует токеновые механизмы для прямого вознаграждения участников за вклад в предпочтения и обратную связь (RLHF, RLAIF), делая сбор предпочтений прозрачным, расчетным и без разрешений. Стейкинг и штрафы (Staking/Slashing) дополнительно ограничивают качество обратной связи, создавая более эффективный и выравненный рынок отзывов по сравнению с традиционным краудсорсингом.
Потенциал мультиагентного RL (MARL)
Блокчейн — это открытая, прозрачная, постоянно эволюционирующая среда с множеством агентов, аккаунтов, контрактов и интеллектуальных субъектов, которые под воздействием стимулов постоянно меняют стратегии. Это создает естественные предпосылки для масштабных экспериментов MARL. Несмотря на раннюю стадию, открытость данных, проверяемость исполнения и программируемость стимулов дают принципиальные преимущества для развития MARL.
Анализ классических Web3 + проектов RL
На основе вышеизложенной теории кратко рассматриваются наиболее значимые проекты:
Prime Intellect: асинхронная парадигма RL prime-rl
Prime Intellect строит глобальный открытый рынок вычислительных ресурсов, снижает пороги обучения, стимулирует совместное децентрализованное обучение и развивает полный открытый стек сверхинтеллекта. В его системе: Prime Compute (единая облачная/распределенная среда), модельный семейство INTELLECT (от 10B до 100B+), открытый центр окружения (Environments Hub) и крупномасштабный синтез данных (SYNTHETIC-1/2).
Ключевая инфраструктура prime-rl специально разработана для асинхронной распределенной среды и усиленного обучения, включает коммуникационный протокол OpenDiLoCo, гарантирующий целостность вычислений TopLoc и другие компоненты.
Обзор компонентов Prime Intellect
Технический фундамент: асинхронный фреймворк prime-rl
prime-rl — ядро обучения Prime Intellect, предназначенное для масштабных асинхронных децентрализованных сред, реализует полное декуплирование Actor–Learner для высокой пропускной способности и стабильной сходимости. Исполнители (Rollout Worker) и обучающие (Trainer) больше не блокируют друг друга, узлы могут подключаться и отключаться в любой момент, просто подтягивая актуальную стратегию и загружая данные:
· Исполнитель Actor (Rollout Workers): отвечает за моделирование и генерацию данных. Впервые в Prime Intellect интегрирован движок vLLM для рассуждений. Технология PagedAttention и возможность непрерывной пакетной обработки позволяют Actor генерировать траектории с очень высокой пропускной способностью.
· Обучающий Learner (Trainer): собирает опыт из буфера и асинхронно обновляет стратегию, не ожидая завершения всех Actor.
· Координатор (Orchestrator): управляет передачей весов и потоками данных.
Ключевые инновации prime-rl
· Полностью асинхронный режим (True Asynchrony): отказ от синхронных PPO, не ждет медленных узлов, не требует синхронизации батчей, что позволяет подключать любое число GPU, обеспечивая децентрализацию RL.
· Глубокая интеграция FSDP2 и MoE: с помощью разбиения параметров FSDP2 и разреженного активации MoE prime-rl позволяет эффективно обучать модели в сотни миллиардов параметров в распределенной среде, активные эксперты — только часть модели, что значительно снижает требования к памяти и вычислениям.
· GRPO+ (Group Relative Policy Optimization): исключает необходимость критика (Critic), уменьшает вычислительные и памятьные затраты, подходит для асинхронных условий, обеспечивает стабильное сходимость даже при высокой задержке, считается важной рамкой для глубокого рассуждения.
Модельный семейство INTELLECT: знак зрелости децентрализованных RL-технологий
· INTELLECT-1 (10B, октябрь 2024): впервые показано, что OpenDiLoCo может эффективно обучать в межконтинентальных условиях (менее 2% коммуникации, 98% использования ресурсов), преодолевая физические границы.
· INTELLECT-2 (32B, апрель 2025): первый RL-модель без разрешений, подтверждает стабильность сходимости prime-rl и GRPO+ в условиях задержек и асинхронности, обеспечивает участие глобальных ресурсов.
· INTELLECT-3 (106B MoE, ноябрь 2025): разреженная архитектура с активизацией 12B параметров, обучена на 512×H200, достигает уровня, приближающегося или превосходящего централизованные закрытые модели (AIME 90.8%, GPQA 74.4%, MMLU-Pro 81.9%).
Кроме того, построены инфраструктурные компоненты: OpenDiLoCo — снижает коммуникации при межрегиональных тренировках в сотни раз, TopLoc + Verifiers — формируют децентрализованный слой доверия, SYNTHETIC — генерирует большие объемы цепочек рассуждений, позволяя моделям до 671B эффективно работать на потребительских GPU. Эти компоненты создают инженерную базу для генерации данных, проверки и пропускной способности децентрализованного RL. Серия INTELLECT подтверждает, что стек технологий способен создавать зрелые мирового уровня модели, выводя децентрализованное обучение из концептуальной стадии в практическую.
Gensyn: ядро RL-стека RL Swarm и SAPO
Gensyn ставит целью объединить неиспользуемую вычислительную мощность по всему миру в открытую, доверительную и масштабируемую инфраструктуру для обучения ИИ. В его ядро входят стандартизированный слой выполнения на разных устройствах, p2p-сеть координации и система проверки задач без доверия, автоматическая раздача задач и вознаграждений через смарт-контракты. В центре внимания — особенности RL: механизмы RL Swarm, SAPO и SkipPipe, которые разъединяют генерацию, оценку и обновление, используют глобальные разнородные GPU для коллективной эволюции. Итог — не просто вычислительные ресурсы, а проверяемый интеллект (Verifiable Intelligence).
Применение RL в стеке Gensyn
RL Swarm: децентрализованный коллаборативный движок RL
RL Swarm демонстрирует новую модель сотрудничества. Он не просто распределяет задачи, а реализует цикл «генерация — оценка — обновление», имитирующий социальное обучение, — бесконечный цикл:
· Solvers (исполнители): отвечают за локальное моделирование и генерацию Rollout, узлы разнородны. Gensyn интегрирует локальный движок высокого пропускания (например, CodeZero), который выводит полные траектории, а не только ответы.
· Proposers (предлагающие задачи): динамически создают задачи (математика, код), поддерживают разнообразие и адаптивность сложности, подобно Curriculum Learning.
· Evaluators (оценщики): используют замороженные «судейские модели» или правила для оценки Rollout, формируют локальные сигналы награды. Процесс может быть аудируемым, что снижает злоупотребления.
Эти три компонента образуют P2P-структуру RL без централизованного управления, что позволяет масштабировать совместное обучение.
SAPO: стратегия оптимизации для децентрализованной реконструкции
SAPO (Swarm Sampling Policy Optimization) основана на «совместной выборке Rollout и фильтрации без градиентов», что позволяет сохранять стабильность в условиях отсутствия централизованного координирования и значительных задержек узлов. В отличие от PPO с критиком или GRPO, SAPO использует минимальную пропускную способность, что позволяет даже потребительским GPU участвовать в масштабных RL-обучениях.
Благодаря RL Swarm и SAPO Gensyn демонстрирует, что RL (особенно этап постобучения RLVR) естественно подходит для децентрализованных структур — поскольку он опирается на масштабные, разнородные исследования (rollout), а не на частое синхронное обновление параметров. В сочетании с системами верификации PoL и Verde Gensyn предлагает альтернативный путь обучения моделей триллионных размеров без зависимости от крупных корпораций: сеть из миллионов разнородных GPU по всему миру, эволюционирующая сама.
Nous Research: проверяемая среда RL Atropos
Nous Research создает децентрализованную, самосовершенствующуюся когнитивную инфраструктуру. Ее ядро — Hermes, Atropos, DisTrO, Psyche и World Sim — образуют цикл постоянного интеллектуального развития. В отличие от линейных процессов «предобучение — постобучение — рассуждение», Nous использует технологии RL (DPO, GRPO, отбор с отказом), объединяя генерацию данных, проверку, обучение и рассуждение в непрерывный цикл, создавая устойчивую экосистему.
Обзор компонентов Nous Research
Модельный уровень: Hermes и развитие рассуждательных возможностей
Hermes — основной интерфейс моделей Nous, показывающий путь от традиционного SFT/DPO к рассуждательному RL:
· Hermes 1–3: обучение по инструкциям и ранние возможности: используют низкозатратный DPO для надежного выравнивания, Hermes 3 — с помощью синтезированных данных и Atropos.
· Hermes 4 / DeepHermes: внедрение «мышления» в веса через цепочки систем-2, повышение математической и кодовой производительности с помощью Test-Time Scaling, используют «отказ с выборкой + Atropos» для построения чистых данных для рассуждений.
· DeepHermes: заменяет PPO на GRPO, что позволяет запускать RL в распределенной среде Psyche, создавая основу для масштабируемых открытых систем рассуждения.
Atropos: проверяемая среда наградного RL
Atropos — ключевой компонент RL системы Nous. Он превращает подсказки, вызовы инструментов, выполнение кода и многократные взаимодействия в стандартизированную RL-среду, которая может проверять правильность вывода, обеспечивая детерминированный сигнал награды, заменяя дорогостоящую ручную разметку. В децентрализованной сети Psyche Atropos выступает как «судья», проверяющий, действительно ли узлы улучшили стратегию, поддерживая проверяемое доказательство обучения (Proof-of-Learning), что решает проблему доверия к наградам в распределенном RL.
DisTrO и Psyche: слой оптимизации децентрализованного RL
Традиционное обучение RL (RLHF, RLAIF) требует централизованных высокоскоростных кластеров — это барьер для открытых систем. DisTrO использует декуплирование с помощью импульсных методов и сжатия градиентов, снижая коммуникационные издержки в разы, позволяя обучать через интернет-каналы; Psyche реализует этот механизм на цепочке, узлы могут локально выполнять рассуждения, проверку, оценку наград и обновление весов, образуя полный цикл RL.
В системе Nous Atropos проверяет цепочки рассуждений; DisTrO сжимает коммуникации; Psyche управляет циклом RL; World Sim моделирует сложные среды; Forge собирает реальные цепочки; Hermes записывает все обучение в веса. RL — это не просто этап, а основной протокол, связывающий данные, окружение, модель и инфраструктуру, делая Hermes живой системой, способной к постоянному самосовершенствованию в открытой сети.
Gradient Network: архитектура RL Echo
Gradient Network — это концепция переосмысления AI через «открытый протокол интеллекта» (Open Intelligence Stack). Стек состоит из нескольких эволюционирующих и взаимодействующих протоколов: Parallax (распределенное рассуждение), Echo (распределенное RL), Lattica (P2P сеть), SEDM / Massgen / Symphony / CUAHarm (память, сотрудничество, безопасность), VeriLLM (доверенная проверка), Mirage (высокоточная имитация). Вместе они формируют постоянно развивающуюся децентрализованную инфраструктуру.
Echo — архитектура обучения RL
Echo — это фреймворк RL Gradient, основанный на декуплировании процессов обучения, рассуждения и данных (наград), что позволяет выборки, оптимизация стратегии и оценка наград разворачиваться независимо в разнородных средах. В сети с узлами для рассуждений и обучения Echo использует легкие синхронные механизмы для поддержания стабильности, снижая проблему низкой загрузки GPU, характерную для DeepSpeed RLHF / VERL.
Echo реализует «двойную архитектуру» — два независимых кластера: один для рассуждений, другой для обучения:
· Максимизация пропускной способности выборки: Inference Swarm — из потребительских GPU и устройств на периферии, использует Parallax для pipeline-параллельных выборок, фокусируется на цепочках;
· Максимизация вычислений градиентов: Training Swarm — из централизованных или глобальных GPU, занимается градиентами, синхронизацией и LoRA.
Для согласованности стратегии и данных Echo предлагает два режима синхронизации:
· Последовательный (Pull): при обновлении траекторий узлы обновляют модель перед генерацией новых цепочек, что важно для чувствительных к свежести стратегий задач;
· Асинхронный (Push–Pull): рассуждающие узлы постоянно генерируют цепочки с метками версий, обучающий узел их потребляет, а координатор следит за отклонениями и инициирует обновление весов, максимально эффективно использует ресурсы.
На уровне инфраструктуры Echo базируется на Parallax (распределенное рассуждение в условиях низкой пропускной способности) и легких компонентах распределенного обучения (например, VERL)), использующих LoRA для снижения затрат синхронизации между узлами, что обеспечивает стабильную работу RL в глобальных разнородных сетях.
Grail: экосистема Bittensor и усиленное обучение
GRAIL — это слой, основанный на уникальном механизме консенсуса Yuma, создающий огромную, разреженную и нестабильную сеть наградных функций.
Экосистема Bittensor включает цепочку от предобучения до RL-постобучения: SN3 Templar — предобучение базовых моделей, SN39 Basilica — рынок распределенных ресурсов, SN81 Grail — «проверяемый слой рассуждений» для RLHF / RLAIF, реализующий цикл оптимизации от базовой модели к выравниванию.
GRAIL использует криптографические методы для доказательства подлинности каждого rollout и связывает его с идентичностью модели, обеспечивая безопасность и доверие без необходимости доверия. Три уровня протоколов создают доверительную цепочку:
Генерация детерминированных вызовов: с помощью drand и хешей блоков создаются непредсказуемые, но воспроизводимые задачи (например, SAT, GSM8K), исключая предсказуемое мошенничество;
Использование PRF и скетч-коммитментов для минимальных затрат на выборочные проверки логарифмов и цепочек рассуждений, подтверждая, что rollout создан заявленной моделью;
Связывание идентичности модели с отпечатками весов и структурными подписями распределения токенов, что позволяет мгновенно обнаруживать замену модели или повторное воспроизведение результатов. Это создает надежную основу для подлинности цепочек рассуждений в RL.
На базе этого механизма Grail реализует проверяемый постобучающий цикл в стиле GRPO: майнеры генерируют несколько цепочек рассуждений по одной задаче, проверяющие оценивают их по правильности, качеству цепочек и SAT, и записывают результаты в цепочку, формируя веса TAO. Открытые эксперименты показывают, что этот подход повысил точность MATH модели Qwen2.5-1.5B с 12.7% до 47.6%, что подтверждает защиту от мошенничества и усиление модели. В стеке обучения Covenant AI Grail — основа доверия и исполнения для RLVR / RLAIF, пока не запущена в основном режиме.
Fraction AI: конкурентное RL (RLFC)
Fraction AI строит архитектуру на базе конкурентного RL (Reinforcement Learning from Competition) и геймифицированной разметки данных, заменяя статические награды RLHF и ручную разметку на динамическое соревнование. Агенты в разных «Spaces» соревнуются, их относительные рейтинги и оценки AI-экспертов формируют текущие награды, превращая выравнивание в постоянную многопользовательскую игру.
Ключевые отличия RLFC от традиционного RLHF:
RLFC основывается на наградах, получаемых не от одной модели, а от постоянно меняющихся соперников и оценщиков, что предотвращает злоупотребления моделями наград и способствует стратегическому разнообразию. Структура Spaces определяет тип игры (зеро-сумм или позитив-сумм), стимулируя развитие сложных стратегий в противостоянии и сотрудничестве.
В системе RLFC выделяются четыре ключевых компонента:
· Agents: легкие стратегии на базе открытых LLM, используют QLoRA для дифференцированного расширения весов, обновляются с низкими затратами;
· Spaces: изолированные области задач, агенты платят за вход и получают награды за победы или поражения;
· AI Judges: система оценки на базе RLAIF, обеспечивает масштабируемую и децентрализованную обратную связь;
· Proof-of-Learning: связывает обновление стратегии с результатами соревнований, обеспечивает проверяемость процесса.
По сути, Fraction AI создает «эволюционный движок» с участием человека как «мета-оптимизатора» через Prompt Engineering и настройку гиперпараметров, а агенты автоматически генерируют огромные объемы предпочтительных данных в микроскопическом соревновании. Такой подход превращает сбор данных в «доверительный» и автоматизированный процесс, реализуемый через «Trustless Fine-tuning».
Сравнение архитектур проектов RL и Web3
Обобщение и перспективы: пути и возможности сочетания RL и Web3
Анализируя указанные проекты, можно заметить, что несмотря на разные подходы (алгоритмический, инженерный или рыночный), при интеграции RL и Web3 их базовая архитектура сходится к высоко согласованной модели «разделение — проверка — стимулы». Это не только технологическая случайность, но и закономерность, обусловленная особенностями децентрализованных сетей, адаптирующихся к уникальным свойствам RL.
Общие черты архитектуры RL: решение ключевых физических и доверительных ограничений
Малозатратное и параллельное делегирование rollout глобальным GPU, высокая пропускная способность для обновлений параметров — от асинхронных Actor–Learner Prime Intellect до двойной архитектуры Gradient Echo.
В неограниченных сетях безопасность вычислений должна обеспечиваться математическими и механическими средствами, такие как PoL Gensyn, TopLoc Prime Intellect и криптографическая проверка Grail.
Обеспечивают стимулы для участия, контроль за мошенничеством через штрафы, создавая устойчивую и эволюционирующую сеть в открытых условиях.
Различия в технологических путях: при схожей архитектуре — разные «точки прорыва»
Несмотря на схожесть архитектур, проекты выбирают разные технологические стратегии:
· Алгоритмический прорыв (Nous Research): попытки решить физические ограничения распределенного обучения (пропускная способность). Их DisTrO — компрессор градиентов, уменьшающий объем коммуникаций в тысячи раз, — «уменьшение размерности» физических ограничений.
· Инженерный подход (Prime Intellect, Gensyn, Gradient): создание следующего поколения «среды выполнения ИИ». Prime Intellect ShardCast и Gradient Parallax — инженерные решения для максимизации эффективности в существующих сетевых условиях.
· Рыночный подход (Bittensor, Fraction AI): проектирование функций награды (Reward Function). Через продуманные механизмы оценки стимулируют майнеров искать оптимальные стратегии, ускоряя появление интеллекта.
Преимущества, вызовы и перспективы
В системе RL + Web3 ключевые преимущества — в перестройке стоимости и управления:
· Перестройка стоимости: постобучение требует бесконечных выборок, Web3 позволяет за минимальные затраты мобилизовать глобальные ресурсы, что недоступно централизованным облакам.
· Суверенное выравнивание (Sovereign Alignment): разрушение монополии крупных корпораций на ценности AI, сообщество через токены может голосовать за «хорошие ответы», демократизируя управление.
Однако система сталкивается с двумя структурными ограничениями:
· «Стена пропускной способности» (Bandwidth Wall): несмотря на инновации DisTrO, физические задержки ограничивают обучение моделей с более чем 70B параметров, Web3 пока больше подходит для тонкой настройки и рассуждений.
· Закон Гудхарта (Reward Hacking): в высоко мотивированной сети майнеры склонны «подгонять» награды, а не повышать реальный интеллект. Разработка устойчивых наградных функций — вечная игра.
· Атаки злонамеренных узлов (Byzantine): активное манипулирование сигналами обучения и подделка данных могут разрушить сходимость модели. Важна разработка механизмов противодействия.
Интеграция RL и Web3 — это в основном переписывание «как создается, выравнивается и распределяется ценность» в системе ИИ. Ее развитие можно представить тремя взаимодополняющими направлениями:
Децентрализованные сети обучения: от майнеров до стратегий, делегирование и проверка rollout глобальным GPU, краткосрочно — рынок проверяемых рассуждений, долгосрочно — субсети RL по задачам;
Активы предпочтений и наград: от разметки до доли данных. Сделать предпочтения и награды управляемыми активами, превратить обратную связь и Reward Model в управляемые и распределяемые данные, перейти от «разметки» к «долевому участию»;
«Маленькие и красивые» вертикальные решения: в задачах с проверяемыми результатами и измеримой отдачей — создание узкоспециализированных RL-агентов (DeFi, кодогенерация), связывающих улучшение стратегий и получение ценности, с возможностью опередить универсальные закрытые модели.
Общий вывод: истинные возможности RL + Web3 — не в копировании децентрализованной версии OpenAI, а в переписывании «производственных отношений» ИИ: превращении обучения в открытый рынок