От вычислительной мощности до интеллекта: карта децентрализованных AI-инвестиций, основанная на усиленном обучении

Искусственный интеллект постепенно переходит от статистического обучения, основанного на «подгонке моделей», к системе способностей, ориентированной на «структурное рассуждение», что быстро повышает значение постобучения (Post-training). Появление DeepSeek-R1 ознаменовало кардинальный сдвиг парадигмы в области усиленного обучения в эпоху больших моделей, сформировалось отраслевое консенсусное понимание: предварительное обучение создает универсальную базу возможностей модели, а усиленное обучение перестает быть лишь инструментом выравнивания ценностей, доказано, что оно систематически повышает качество цепочек рассуждений и способность к сложным решениям, постепенно превращаясь в технологический путь постоянного повышения уровня интеллекта.

Одновременно Web3 через децентрализованные сети вычислительных мощностей и систему криптовознаграждений перестраивает производственные отношения в области ИИ, а структурные требования усиленного обучения — выборки rollout, сигналы награды и проверяемое обучение — естественно сочетаются с возможностями блокчейна по сотрудничеству по вычислительным мощностям, распределению стимулов и проверяемому выполнению. В этом отчете систематически разбираются парадигмы обучения ИИ и принципы технологий усиленного обучения, демонстрируются структурные преимущества сочетания RL и Web3, а также анализируются проекты Prime Intellect, Gensyn, Nous Research, Gradient, Grail и Fraction AI.

Три этапа обучения ИИ: предварительное обучение, тонкая настройка по инструкциям и постобучение (выравнивание)

Современное обучение больших языковых моделей (LLM) обычно делится на три ключевых этапа: предварительное обучение (Pre-training), контролируемая тонкая настройка (SFT) и постобучение (Post-training/RL). Каждый из них выполняет функции «построение модели мира — внедрение задачевых возможностей — формирование рассуждений и ценностей», а их вычислительная структура, требования к данным и сложность валидации определяют степень децентрализации.

· Предварительное обучение (Pre-training) с помощью масштабного самосупервизированного обучения (Self-supervised Learning) создает статистическую языковую структуру модели и межмодальную модель мира — фундамент возможностей LLM. Этот этап требует обучения на триллионах текстов в глобальном масштабе, синхронно, с использованием тысяч или десятков тысяч H100 в однородных кластерах, что занимает до 80–95% затрат, очень чувствителен к пропускной способности и правам на данные, поэтому должен проходить в высокоцентрализованных средах.

· Тонкая настройка (Supervised Fine-tuning) внедряет задачи и формат инструкций, объем данных небольшой, занимает около 5–15% затрат, может выполняться как полным обновлением всех параметров, так и с помощью параметрически-эффективных методов (PEFT), таких как LoRA, Q-LoRA и Adapter — основные в индустрии. Однако требует синхронных градиентов, что ограничивает потенциал децентрализации.

· Постобучение (Post-training) состоит из нескольких итеративных подэтапов, определяющих рассуждательные способности модели, ценности и границы безопасности. Методы включают системы усиленного обучения (RLHF, RLAIF, GRPO), а также методы без RL, такие как оптимизация предпочтений (DPO) и модели поощрения процесса (PRM). Этот этап требует меньших затрат (5–10%), сосредоточен на rollout и обновлении стратегий; естественно поддерживает асинхронное и распределенное выполнение, узлы не обязаны иметь полные веса модели, а использование проверяемых вычислений и стимулов на цепочке делает его наиболее подходящим для Web3.

Обзор технологий усиленного обучения: архитектуры, рамки и применения

Архитектура системы RL и ключевые компоненты

Reinforcement Learning (RL) — это процесс, при котором модель самостоятельно совершенствует свои решения через «взаимодействие с окружением — получение награды — обновление стратегии». Его основная структура — обратная связь, состоящая из состояний, действий, наград и стратегии. Полная RL-система включает три типа компонентов: Policy (стратегическая сеть), Rollout (выборка опыта) и Learner (обновление стратегии). Стратегия взаимодействует с окружением, формируя траектории, Learner обновляет стратегию на основе сигналов награды, что обеспечивает непрерывный цикл улучшения:

  1. Стратегическая сеть (Policy): генерирует действия на основе состояния окружения, является ядром решений. Во время обучения требуется централизованное обратное распространение для согласованности; при выводе — может быть распределена по узлам для параллельной работы.
  2. Выборка опыта (Rollout): узлы по стратегии взаимодействуют с окружением, создавая траектории состояний, действий и наград. Этот процесс — высокопараллельный, с минимальной коммуникацией, не чувствителен к аппаратным различиям, идеально подходит для масштабирования в децентрализованных систем.
  3. Обучающий (Learner): собирает все траектории Rollout и выполняет градиентное обновление стратегии, требует наибольших ресурсов по вычислительной мощности и пропускной способности, поэтому обычно остается централизованным или слабоцентрализованным для обеспечения стабильности сходимости.

Рамки этапов RL (RLHF → RLAIF → PRM → GRPO)

Общий процесс усиленного обучения обычно делится на пять этапов, последовательность которых следующая:

Этап генерации данных (Policy Exploration)

При заданных входных подсказках стратегия πθ генерирует несколько кандидатных цепочек рассуждений или полных траекторий, служащих базой для последующей оценки предпочтений и моделирования награды, определяет широту поиска стратегии.

Этап обратной связи по предпочтениям (RLHF / RLAIF)

· RLHF (Reinforcement Learning from Human Feedback): использует несколько ответов, ручную разметку предпочтений, обучение модели наград (RM) и оптимизацию стратегии с помощью PPO, делая выводы более соответствующими человеческим ценностям — ключевой этап для GPT-3.5 → GPT-4.

· RLAIF (Reinforcement Learning from AI Feedback): заменяет ручную разметку автоматической системой судей или конституционными правилами, значительно снижая издержки и позволяя масштабировать — стал стандартным подходом у Anthropic, OpenAI, DeepSeek и др.

Этап моделирования награды (Reward Modeling)

Обучение модели награды на предпочтениях, чтобы она могла оценивать качество ответов:

· RM (Reward Model): оценивает финальные ответы, присваивая им баллы;

· PRM (Process Reward Model): оценивает не только финальный ответ, а каждое шаг рассуждения, каждый токен и логический сегмент — ключевая технология OpenAI o1 и DeepSeek-R1, по сути «учит модель думать».

Этап проверки награды (RLVR / Reward Verifiability)

В процессе генерации и использования сигнала награды вводятся «проверяемые ограничения», чтобы награда максимально исходила из воспроизводимых правил, фактов или консенсуса, снижая риск «хакерства награды» и смещения, повышая аудитируемость и масштабируемость в открытых средах.

Этап оптимизации стратегии (Policy Optimization)

Обновление параметров стратегии θ под руководством сигнала модели награды для получения более мощных рассуждений, большей безопасности и стабильных моделей поведения. Основные методы:

· PPO (Proximal Policy Optimization): классический оптимизатор RLHF, обеспечивает стабильность, но в сложных задачах часто сталкивается с медленной сходимостью и недостаточной стабильностью.

· GRPO (Group Relative Policy Optimization): ключевое нововведение DeepSeek-R1, моделирует преимущества внутри группы ответов для оценки ожидаемой ценности, а не простого ранжирования. Этот метод сохраняет информацию о величине награды, лучше подходит для оптимизации цепочек рассуждений, обеспечивает более стабильное обучение и считается важной рамкой для глубокого рассуждения.

· DPO (Direct Preference Optimization): постобучение без RL, не генерирует траектории и не строит модели награды, а напрямую оптимизирует по предпочтениям, низкая стоимость и стабильный эффект, широко используется для выравнивания моделей типа Llama, Gemma, но не повышает рассуждательные способности.

Новая стадия развертывания стратегии (New Policy Deployment)

После оптимизации модель демонстрирует: повышенную способность генерировать цепочки рассуждений (System-2 Reasoning), более соответствующее предпочтениям поведение, меньшую частоту галлюцинаций и повышенную безопасность. В процессе постоянных итераций модель учится предпочтениям, оптимизирует процессы и повышает качество решений, образуя замкнутый цикл.

Промышленные применения усиленного обучения: пять категорий

RL уже эволюционировало от ранних игр и стратегий к ядру автономных решений в различных отраслях. В зависимости от зрелости технологий и уровня внедрения выделяют пять основных категорий:

· Игры и стратегии (Game & Strategy): первые успешные применения RL, в средах с «полной информацией + четкими наградами» (AlphaGo, AlphaZero, AlphaStar, OpenAI Five), где достигнуты уровни, сопоставимые или превосходящие человеческий интеллект, заложившие основы современных алгоритмов.

· Роботы и embodied AI: RL через управление движением, моделирование динамики и взаимодействие с окружением (RT-2, RT-X) быстро приближается к промышленному внедрению, являясь ключевым направлением для реальных роботов.

· Цифровое рассуждение (Digital Reasoning / System-2 LLM): RL + PRM переводит большие модели от «языкового имитирования» к «структурированному рассуждению», примеры — DeepSeek-R1, OpenAI o1/o3, Anthropic Claude, AlphaGeometry, где награды оптимизируют цепочки рассуждений, а не только финальные ответы.

· Научные открытия и математическая оптимизация (Scientific Discovery): RL в условиях отсутствия меток, с сложными наградами и огромным поисковым пространством позволяет находить оптимальные структуры и стратегии, достигнуты прорывы в AlphaTensor, AlphaDev, Fusion RL, демонстрирующие способность к исследованию, превосходящему интуицию человека.

· Экономические решения и торговля (Economic Decision-making & Trading): RL используется для оптимизации стратегий, управления рисками и создания адаптивных торговых систем, превосходя традиционные количественные модели в условиях неопределенности, важный компонент интеллектуальных финансов.

Естественное соответствие Web3 и RL

Высокая совместимость RL и Web3 обусловлена их природной «мотивационной системой». RL использует сигналы награды для оптимизации стратегий, а блокчейн — для координации участников через экономические стимулы, что делает их механически совместимыми. Основные требования RL — масштабные разнородные выборки rollout, распределение наград и проверка подлинности — совпадают с преимуществами Web3 по сотрудничеству, распределению стимулов и проверяемому выполнению.

Разделение рассуждений и обучения

Процесс обучения RL можно четко разбить на два этапа:

· Rollout (исследование и выборка): модель на основе текущей стратегии генерирует большие объемы данных, что — ресурсоемко, но коммуникационно малозатратно. Не требует частых межузловых сообщений, подходит для параллельной работы на глобальных GPU.

· Обновление (параметров): на основе собранных данных происходит обновление весов модели, что требует высокой пропускной способности централизованных узлов.

«Разделение рассуждений и обучения» идеально подходит для децентрализованных систем с разнородными вычислительными ресурсами: rollout можно делегировать открытой сети, используя токеновые механизмы для учета вклада, а обновление модели — централизовать для стабильности.

Проверяемость (Verifiability)

Технологии Zero-Knowledge (ZK) и Proof-of-Learning позволяют проверять, действительно ли узлы выполняли рассуждения, что решает проблему честности в открытых сетях. В задачах с детерминированными ответами, например, в коде или математике, проверяющий может просто проверить ответ, что значительно повышает доверие к децентрализованным RL-системам.

Механизм стимулов на базе токенов

Web3 использует токеновые механизмы для прямого вознаграждения участников за вклад в предпочтения и обратную связь (RLHF, RLAIF), делая сбор предпочтений прозрачным, расчетным и без разрешений. Стейкинг и штрафы (Staking/Slashing) дополнительно ограничивают качество обратной связи, создавая более эффективный и выравненный рынок отзывов по сравнению с традиционным краудсорсингом.

Потенциал мультиагентного RL (MARL)

Блокчейн — это открытая, прозрачная, постоянно эволюционирующая среда с множеством агентов, аккаунтов, контрактов и интеллектуальных субъектов, которые под воздействием стимулов постоянно меняют стратегии. Это создает естественные предпосылки для масштабных экспериментов MARL. Несмотря на раннюю стадию, открытость данных, проверяемость исполнения и программируемость стимулов дают принципиальные преимущества для развития MARL.

Анализ классических Web3 + проектов RL

На основе вышеизложенной теории кратко рассматриваются наиболее значимые проекты:

Prime Intellect: асинхронная парадигма RL prime-rl

Prime Intellect строит глобальный открытый рынок вычислительных ресурсов, снижает пороги обучения, стимулирует совместное децентрализованное обучение и развивает полный открытый стек сверхинтеллекта. В его системе: Prime Compute (единая облачная/распределенная среда), модельный семейство INTELLECT (от 10B до 100B+), открытый центр окружения (Environments Hub) и крупномасштабный синтез данных (SYNTHETIC-1/2).

Ключевая инфраструктура prime-rl специально разработана для асинхронной распределенной среды и усиленного обучения, включает коммуникационный протокол OpenDiLoCo, гарантирующий целостность вычислений TopLoc и другие компоненты.

Обзор компонентов Prime Intellect

Технический фундамент: асинхронный фреймворк prime-rl

prime-rl — ядро обучения Prime Intellect, предназначенное для масштабных асинхронных децентрализованных сред, реализует полное декуплирование Actor–Learner для высокой пропускной способности и стабильной сходимости. Исполнители (Rollout Worker) и обучающие (Trainer) больше не блокируют друг друга, узлы могут подключаться и отключаться в любой момент, просто подтягивая актуальную стратегию и загружая данные:

· Исполнитель Actor (Rollout Workers): отвечает за моделирование и генерацию данных. Впервые в Prime Intellect интегрирован движок vLLM для рассуждений. Технология PagedAttention и возможность непрерывной пакетной обработки позволяют Actor генерировать траектории с очень высокой пропускной способностью.

· Обучающий Learner (Trainer): собирает опыт из буфера и асинхронно обновляет стратегию, не ожидая завершения всех Actor.

· Координатор (Orchestrator): управляет передачей весов и потоками данных.

Ключевые инновации prime-rl

· Полностью асинхронный режим (True Asynchrony): отказ от синхронных PPO, не ждет медленных узлов, не требует синхронизации батчей, что позволяет подключать любое число GPU, обеспечивая децентрализацию RL.

· Глубокая интеграция FSDP2 и MoE: с помощью разбиения параметров FSDP2 и разреженного активации MoE prime-rl позволяет эффективно обучать модели в сотни миллиардов параметров в распределенной среде, активные эксперты — только часть модели, что значительно снижает требования к памяти и вычислениям.

· GRPO+ (Group Relative Policy Optimization): исключает необходимость критика (Critic), уменьшает вычислительные и памятьные затраты, подходит для асинхронных условий, обеспечивает стабильное сходимость даже при высокой задержке, считается важной рамкой для глубокого рассуждения.

Модельный семейство INTELLECT: знак зрелости децентрализованных RL-технологий

· INTELLECT-1 (10B, октябрь 2024): впервые показано, что OpenDiLoCo может эффективно обучать в межконтинентальных условиях (менее 2% коммуникации, 98% использования ресурсов), преодолевая физические границы.

· INTELLECT-2 (32B, апрель 2025): первый RL-модель без разрешений, подтверждает стабильность сходимости prime-rl и GRPO+ в условиях задержек и асинхронности, обеспечивает участие глобальных ресурсов.

· INTELLECT-3 (106B MoE, ноябрь 2025): разреженная архитектура с активизацией 12B параметров, обучена на 512×H200, достигает уровня, приближающегося или превосходящего централизованные закрытые модели (AIME 90.8%, GPQA 74.4%, MMLU-Pro 81.9%).

Кроме того, построены инфраструктурные компоненты: OpenDiLoCo — снижает коммуникации при межрегиональных тренировках в сотни раз, TopLoc + Verifiers — формируют децентрализованный слой доверия, SYNTHETIC — генерирует большие объемы цепочек рассуждений, позволяя моделям до 671B эффективно работать на потребительских GPU. Эти компоненты создают инженерную базу для генерации данных, проверки и пропускной способности децентрализованного RL. Серия INTELLECT подтверждает, что стек технологий способен создавать зрелые мирового уровня модели, выводя децентрализованное обучение из концептуальной стадии в практическую.

Gensyn: ядро RL-стека RL Swarm и SAPO

Gensyn ставит целью объединить неиспользуемую вычислительную мощность по всему миру в открытую, доверительную и масштабируемую инфраструктуру для обучения ИИ. В его ядро входят стандартизированный слой выполнения на разных устройствах, p2p-сеть координации и система проверки задач без доверия, автоматическая раздача задач и вознаграждений через смарт-контракты. В центре внимания — особенности RL: механизмы RL Swarm, SAPO и SkipPipe, которые разъединяют генерацию, оценку и обновление, используют глобальные разнородные GPU для коллективной эволюции. Итог — не просто вычислительные ресурсы, а проверяемый интеллект (Verifiable Intelligence).

Применение RL в стеке Gensyn

RL Swarm: децентрализованный коллаборативный движок RL

RL Swarm демонстрирует новую модель сотрудничества. Он не просто распределяет задачи, а реализует цикл «генерация — оценка — обновление», имитирующий социальное обучение, — бесконечный цикл:

· Solvers (исполнители): отвечают за локальное моделирование и генерацию Rollout, узлы разнородны. Gensyn интегрирует локальный движок высокого пропускания (например, CodeZero), который выводит полные траектории, а не только ответы.

· Proposers (предлагающие задачи): динамически создают задачи (математика, код), поддерживают разнообразие и адаптивность сложности, подобно Curriculum Learning.

· Evaluators (оценщики): используют замороженные «судейские модели» или правила для оценки Rollout, формируют локальные сигналы награды. Процесс может быть аудируемым, что снижает злоупотребления.

Эти три компонента образуют P2P-структуру RL без централизованного управления, что позволяет масштабировать совместное обучение.

SAPO: стратегия оптимизации для децентрализованной реконструкции

SAPO (Swarm Sampling Policy Optimization) основана на «совместной выборке Rollout и фильтрации без градиентов», что позволяет сохранять стабильность в условиях отсутствия централизованного координирования и значительных задержек узлов. В отличие от PPO с критиком или GRPO, SAPO использует минимальную пропускную способность, что позволяет даже потребительским GPU участвовать в масштабных RL-обучениях.

Благодаря RL Swarm и SAPO Gensyn демонстрирует, что RL (особенно этап постобучения RLVR) естественно подходит для децентрализованных структур — поскольку он опирается на масштабные, разнородные исследования (rollout), а не на частое синхронное обновление параметров. В сочетании с системами верификации PoL и Verde Gensyn предлагает альтернативный путь обучения моделей триллионных размеров без зависимости от крупных корпораций: сеть из миллионов разнородных GPU по всему миру, эволюционирующая сама.

Nous Research: проверяемая среда RL Atropos

Nous Research создает децентрализованную, самосовершенствующуюся когнитивную инфраструктуру. Ее ядро — Hermes, Atropos, DisTrO, Psyche и World Sim — образуют цикл постоянного интеллектуального развития. В отличие от линейных процессов «предобучение — постобучение — рассуждение», Nous использует технологии RL (DPO, GRPO, отбор с отказом), объединяя генерацию данных, проверку, обучение и рассуждение в непрерывный цикл, создавая устойчивую экосистему.

Обзор компонентов Nous Research

Модельный уровень: Hermes и развитие рассуждательных возможностей

Hermes — основной интерфейс моделей Nous, показывающий путь от традиционного SFT/DPO к рассуждательному RL:

· Hermes 1–3: обучение по инструкциям и ранние возможности: используют низкозатратный DPO для надежного выравнивания, Hermes 3 — с помощью синтезированных данных и Atropos.

· Hermes 4 / DeepHermes: внедрение «мышления» в веса через цепочки систем-2, повышение математической и кодовой производительности с помощью Test-Time Scaling, используют «отказ с выборкой + Atropos» для построения чистых данных для рассуждений.

· DeepHermes: заменяет PPO на GRPO, что позволяет запускать RL в распределенной среде Psyche, создавая основу для масштабируемых открытых систем рассуждения.

Atropos: проверяемая среда наградного RL

Atropos — ключевой компонент RL системы Nous. Он превращает подсказки, вызовы инструментов, выполнение кода и многократные взаимодействия в стандартизированную RL-среду, которая может проверять правильность вывода, обеспечивая детерминированный сигнал награды, заменяя дорогостоящую ручную разметку. В децентрализованной сети Psyche Atropos выступает как «судья», проверяющий, действительно ли узлы улучшили стратегию, поддерживая проверяемое доказательство обучения (Proof-of-Learning), что решает проблему доверия к наградам в распределенном RL.

DisTrO и Psyche: слой оптимизации децентрализованного RL

Традиционное обучение RL (RLHF, RLAIF) требует централизованных высокоскоростных кластеров — это барьер для открытых систем. DisTrO использует декуплирование с помощью импульсных методов и сжатия градиентов, снижая коммуникационные издержки в разы, позволяя обучать через интернет-каналы; Psyche реализует этот механизм на цепочке, узлы могут локально выполнять рассуждения, проверку, оценку наград и обновление весов, образуя полный цикл RL.

В системе Nous Atropos проверяет цепочки рассуждений; DisTrO сжимает коммуникации; Psyche управляет циклом RL; World Sim моделирует сложные среды; Forge собирает реальные цепочки; Hermes записывает все обучение в веса. RL — это не просто этап, а основной протокол, связывающий данные, окружение, модель и инфраструктуру, делая Hermes живой системой, способной к постоянному самосовершенствованию в открытой сети.

Gradient Network: архитектура RL Echo

Gradient Network — это концепция переосмысления AI через «открытый протокол интеллекта» (Open Intelligence Stack). Стек состоит из нескольких эволюционирующих и взаимодействующих протоколов: Parallax (распределенное рассуждение), Echo (распределенное RL), Lattica (P2P сеть), SEDM / Massgen / Symphony / CUAHarm (память, сотрудничество, безопасность), VeriLLM (доверенная проверка), Mirage (высокоточная имитация). Вместе они формируют постоянно развивающуюся децентрализованную инфраструктуру.

Echo — архитектура обучения RL

Echo — это фреймворк RL Gradient, основанный на декуплировании процессов обучения, рассуждения и данных (наград), что позволяет выборки, оптимизация стратегии и оценка наград разворачиваться независимо в разнородных средах. В сети с узлами для рассуждений и обучения Echo использует легкие синхронные механизмы для поддержания стабильности, снижая проблему низкой загрузки GPU, характерную для DeepSpeed RLHF / VERL.

Echo реализует «двойную архитектуру» — два независимых кластера: один для рассуждений, другой для обучения:

· Максимизация пропускной способности выборки: Inference Swarm — из потребительских GPU и устройств на периферии, использует Parallax для pipeline-параллельных выборок, фокусируется на цепочках;

· Максимизация вычислений градиентов: Training Swarm — из централизованных или глобальных GPU, занимается градиентами, синхронизацией и LoRA.

Для согласованности стратегии и данных Echo предлагает два режима синхронизации:

· Последовательный (Pull): при обновлении траекторий узлы обновляют модель перед генерацией новых цепочек, что важно для чувствительных к свежести стратегий задач;

· Асинхронный (Push–Pull): рассуждающие узлы постоянно генерируют цепочки с метками версий, обучающий узел их потребляет, а координатор следит за отклонениями и инициирует обновление весов, максимально эффективно использует ресурсы.

На уровне инфраструктуры Echo базируется на Parallax (распределенное рассуждение в условиях низкой пропускной способности) и легких компонентах распределенного обучения (например, VERL)), использующих LoRA для снижения затрат синхронизации между узлами, что обеспечивает стабильную работу RL в глобальных разнородных сетях.

Grail: экосистема Bittensor и усиленное обучение

GRAIL — это слой, основанный на уникальном механизме консенсуса Yuma, создающий огромную, разреженную и нестабильную сеть наградных функций.

Экосистема Bittensor включает цепочку от предобучения до RL-постобучения: SN3 Templar — предобучение базовых моделей, SN39 Basilica — рынок распределенных ресурсов, SN81 Grail — «проверяемый слой рассуждений» для RLHF / RLAIF, реализующий цикл оптимизации от базовой модели к выравниванию.

GRAIL использует криптографические методы для доказательства подлинности каждого rollout и связывает его с идентичностью модели, обеспечивая безопасность и доверие без необходимости доверия. Три уровня протоколов создают доверительную цепочку:

  1. Генерация детерминированных вызовов: с помощью drand и хешей блоков создаются непредсказуемые, но воспроизводимые задачи (например, SAT, GSM8K), исключая предсказуемое мошенничество;

  2. Использование PRF и скетч-коммитментов для минимальных затрат на выборочные проверки логарифмов и цепочек рассуждений, подтверждая, что rollout создан заявленной моделью;

  3. Связывание идентичности модели с отпечатками весов и структурными подписями распределения токенов, что позволяет мгновенно обнаруживать замену модели или повторное воспроизведение результатов. Это создает надежную основу для подлинности цепочек рассуждений в RL.

На базе этого механизма Grail реализует проверяемый постобучающий цикл в стиле GRPO: майнеры генерируют несколько цепочек рассуждений по одной задаче, проверяющие оценивают их по правильности, качеству цепочек и SAT, и записывают результаты в цепочку, формируя веса TAO. Открытые эксперименты показывают, что этот подход повысил точность MATH модели Qwen2.5-1.5B с 12.7% до 47.6%, что подтверждает защиту от мошенничества и усиление модели. В стеке обучения Covenant AI Grail — основа доверия и исполнения для RLVR / RLAIF, пока не запущена в основном режиме.

Fraction AI: конкурентное RL (RLFC)

Fraction AI строит архитектуру на базе конкурентного RL (Reinforcement Learning from Competition) и геймифицированной разметки данных, заменяя статические награды RLHF и ручную разметку на динамическое соревнование. Агенты в разных «Spaces» соревнуются, их относительные рейтинги и оценки AI-экспертов формируют текущие награды, превращая выравнивание в постоянную многопользовательскую игру.

Ключевые отличия RLFC от традиционного RLHF:

RLFC основывается на наградах, получаемых не от одной модели, а от постоянно меняющихся соперников и оценщиков, что предотвращает злоупотребления моделями наград и способствует стратегическому разнообразию. Структура Spaces определяет тип игры (зеро-сумм или позитив-сумм), стимулируя развитие сложных стратегий в противостоянии и сотрудничестве.

В системе RLFC выделяются четыре ключевых компонента:

· Agents: легкие стратегии на базе открытых LLM, используют QLoRA для дифференцированного расширения весов, обновляются с низкими затратами;

· Spaces: изолированные области задач, агенты платят за вход и получают награды за победы или поражения;

· AI Judges: система оценки на базе RLAIF, обеспечивает масштабируемую и децентрализованную обратную связь;

· Proof-of-Learning: связывает обновление стратегии с результатами соревнований, обеспечивает проверяемость процесса.

По сути, Fraction AI создает «эволюционный движок» с участием человека как «мета-оптимизатора» через Prompt Engineering и настройку гиперпараметров, а агенты автоматически генерируют огромные объемы предпочтительных данных в микроскопическом соревновании. Такой подход превращает сбор данных в «доверительный» и автоматизированный процесс, реализуемый через «Trustless Fine-tuning».

Сравнение архитектур проектов RL и Web3

Обобщение и перспективы: пути и возможности сочетания RL и Web3

Анализируя указанные проекты, можно заметить, что несмотря на разные подходы (алгоритмический, инженерный или рыночный), при интеграции RL и Web3 их базовая архитектура сходится к высоко согласованной модели «разделение — проверка — стимулы». Это не только технологическая случайность, но и закономерность, обусловленная особенностями децентрализованных сетей, адаптирующихся к уникальным свойствам RL.

Общие черты архитектуры RL: решение ключевых физических и доверительных ограничений

  1. Физическое разделение процессов обучения и выполнения (Decoupling of Rollouts & Learning): по умолчанию — вычислительная топология

Малозатратное и параллельное делегирование rollout глобальным GPU, высокая пропускная способность для обновлений параметров — от асинхронных Actor–Learner Prime Intellect до двойной архитектуры Gradient Echo.

  1. Обеспечение доверия через проверку (Verification-Driven Trust): инфраструктурный уровень

В неограниченных сетях безопасность вычислений должна обеспечиваться математическими и механическими средствами, такие как PoL Gensyn, TopLoc Prime Intellect и криптографическая проверка Grail.

  1. Токенизированные стимулы (Tokenized Incentive Loop): рыночное саморегулирование

Обеспечивают стимулы для участия, контроль за мошенничеством через штрафы, создавая устойчивую и эволюционирующую сеть в открытых условиях.

Различия в технологических путях: при схожей архитектуре — разные «точки прорыва»

Несмотря на схожесть архитектур, проекты выбирают разные технологические стратегии:

· Алгоритмический прорыв (Nous Research): попытки решить физические ограничения распределенного обучения (пропускная способность). Их DisTrO — компрессор градиентов, уменьшающий объем коммуникаций в тысячи раз, — «уменьшение размерности» физических ограничений.

· Инженерный подход (Prime Intellect, Gensyn, Gradient): создание следующего поколения «среды выполнения ИИ». Prime Intellect ShardCast и Gradient Parallax — инженерные решения для максимизации эффективности в существующих сетевых условиях.

· Рыночный подход (Bittensor, Fraction AI): проектирование функций награды (Reward Function). Через продуманные механизмы оценки стимулируют майнеров искать оптимальные стратегии, ускоряя появление интеллекта.

Преимущества, вызовы и перспективы

В системе RL + Web3 ключевые преимущества — в перестройке стоимости и управления:

· Перестройка стоимости: постобучение требует бесконечных выборок, Web3 позволяет за минимальные затраты мобилизовать глобальные ресурсы, что недоступно централизованным облакам.

· Суверенное выравнивание (Sovereign Alignment): разрушение монополии крупных корпораций на ценности AI, сообщество через токены может голосовать за «хорошие ответы», демократизируя управление.

Однако система сталкивается с двумя структурными ограничениями:

· «Стена пропускной способности» (Bandwidth Wall): несмотря на инновации DisTrO, физические задержки ограничивают обучение моделей с более чем 70B параметров, Web3 пока больше подходит для тонкой настройки и рассуждений.

· Закон Гудхарта (Reward Hacking): в высоко мотивированной сети майнеры склонны «подгонять» награды, а не повышать реальный интеллект. Разработка устойчивых наградных функций — вечная игра.

· Атаки злонамеренных узлов (Byzantine): активное манипулирование сигналами обучения и подделка данных могут разрушить сходимость модели. Важна разработка механизмов противодействия.

Интеграция RL и Web3 — это в основном переписывание «как создается, выравнивается и распределяется ценность» в системе ИИ. Ее развитие можно представить тремя взаимодополняющими направлениями:

  1. Децентрализованные сети обучения: от майнеров до стратегий, делегирование и проверка rollout глобальным GPU, краткосрочно — рынок проверяемых рассуждений, долгосрочно — субсети RL по задачам;

  2. Активы предпочтений и наград: от разметки до доли данных. Сделать предпочтения и награды управляемыми активами, превратить обратную связь и Reward Model в управляемые и распределяемые данные, перейти от «разметки» к «долевому участию»;

  3. «Маленькие и красивые» вертикальные решения: в задачах с проверяемыми результатами и измеримой отдачей — создание узкоспециализированных RL-агентов (DeFi, кодогенерация), связывающих улучшение стратегий и получение ценности, с возможностью опередить универсальные закрытые модели.

Общий вывод: истинные возможности RL + Web3 — не в копировании децентрализованной версии OpenAI, а в переписывании «производственных отношений» ИИ: превращении обучения в открытый рынок

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить