Отделение Tether’s QVAC объявило 17 марта 2026 года о запуске первого в мире кроссплатформенного фреймворка для тонкой настройки LoRA для моделей Microsoft BitNet (LLMs с 1 битом), позволяющего обучать и выполнять выводы ИИ с миллиардами параметров на потребительских GPU и смартфонах.
Этот фреймворк, интегрированный в QVAC Fabric, значительно снижает требования к памяти и вычислительным ресурсам, позволяя тонко настраивать модели до 13 миллиардов параметров на устройствах, таких как iPhone 16, Galaxy S25 и Pixel 9, а модели с 125 миллионами параметров обучаются примерно за 10 минут на мобильном оборудовании.
Релиз знаменует собой важный шаг в стратегическом переходе Tether от эмитента стейблкоинов к более широкому поставщику инфраструктуры, бросая вызов централизованной модели разработки ИИ, доминируемой облачными провайдерами и специализированным оборудованием NVIDIA.
Фреймворк QVAC Fabric позволяет выполнять тонкую настройку LoRA (Low-Rank Adaptation) и ускорение вывода на разнородном потребительском оборудовании, включая:
Настольные GPU: AMD, Intel и NVIDIA
Экосистема Apple: чипы Apple Silicon M и мобильные GPU Bionic
Мобильные GPU: Adreno (Samsung), Mali и другие
Эта широкая совместимость устраняет необходимость в системах уровня предприятия или облачной инфраструктуре, что ранее концентрировало разработку ИИ среди организаций с ограниченными бюджетами на специализированное оборудование.
Инженерная команда Tether успешно продемонстрировала тонкую настройку на флагманских смартфонах с следующими результатами:
Модели с 125М параметров: настройка на Samsung Galaxy S25 (GPU Adreno) за примерно 10 минут на биомедицинском датасете из ~300 документов (~18 тысяч токенов)
Модели с 1 млрд параметров: настройка того же биомедицинского датасета за 1 час 18 минут на Samsung S25 и за 1 час 45 минут на iPhone 16
Максимальная емкость: успешно настроены модели до 13 миллиардов параметров на iPhone 16, что значительно превосходит типичные демонстрации с менее чем 3 миллиардами параметров
Inference BitNet на мобильных GPU показывает значительное ускорение по сравнению с базовыми CPU:
Ускорение: производительность GPU в 2–11 раз выше, чем у CPU на протестированных устройствах
Практический эффект: мобильные GPU теперь могут поддерживать задачи, ранее требующие дорогостоящего специализированного оборудования или дата-центров
Бенчмарки показывают значительную экономию памяти по сравнению с традиционными моделями:
BitNet-1B (TQ1_0): использует до 77,8% меньше VRAM, чем Gemma-3-1B (16-бит)
по сравнению с Qwen3-0.6B: на 65,6% меньше VRAM, чем 16-битная версия
Эти сокращения применимы как к выводу, так и к тонкой настройке LoRA, создавая значительный запас памяти для более крупных моделей и процессов персонализации на оборудовании, ранее считавшемся недостаточным.
Фреймворк позволяет тонко настраивать модели в два раза больше на периферийных устройствах по сравнению с моделями Q4 без BitNet, демонстрируя превосходную эффективность использования памяти архитектуры BitNet.
Генеральный директор Tether Паоло Ардойно заявил, что релиз вписывается в более широкую концепцию доступного ИИ: «Интеллект станет ключевым фактором будущего общества. Когда обучение больших языковых моделей зависит от централизованной инфраструктуры, инновации застаиваются, экосистема становится уязвимой, а общественный баланс рискует. Обеспечивая возможность обучения крупных моделей на потребительском оборудовании, включая смартфоны, QVAC от Tether доказывает, что передовые ИИ могут быть децентрализованными, инклюзивными и доступными для всех.»
Эффективность достигаемых результатов делает возможным федеративное обучение, позволяя обучать и обмениваться тонко настроенными моделями между распределенными устройствами, сохраняя чувствительные данные пользователей локально. Это снижает зависимость от централизованной инфраструктуры и способствует совместному улучшению моделей.
Снижая зависимость от облачных провайдеров, фреймворк позволяет пользователям хранить чувствительные данные локально на своих устройствах во время обучения, что решает проблему конфиденциальности, связанную с передачей данных на централизованные серверы.
Релиз Tether напрямую конкурирует с централизованной моделью разработки ИИ, доминируемой гиперскейлерами и облачными провайдерами. Обеспечивая возможность выполнения значимых задач ИИ на потребительском оборудовании, компания позиционирует себя как инфраструктурного игрока в стеке периферийного ИИ, независимо от традиционных облачных юрисдикций.
Фреймворк, включая статью, адаптеры, бенчмарки и кроссплатформенные бинарные файлы, доступен на Hugging Face. Такой открытый подход направлен на закрепление QVAC как стандартного пути для независимых разработчиков и небольших лабораторий для развертывания ИИ на потребительском оборудовании, создавая культурное и техническое значение вне рамок традиционного регулирования.
Релиз продолжает расширение деятельности Tether за пределы выпуска стейблкоинов в критическую цифровую инфраструктуру, следуя предыдущим инициативам QVAC, включая датасет Genesis I на 41 миллиард токенов и локальную платформу AI Workbench. Компания заявила о дальнейшем инвестировании в децентрализованную инфраструктуру ИИ в ближайшие недели, месяцы и годы.
Полная техническая документация, включая бенчмарки производительности, детали реализации и кроссплатформенные бинарные файлы, доступна на блоге Hugging Face: «Тонкая настройка BitNet LoRA b1.58 LLM на разнородных периферийных GPU через QVAC Fabric.»
Tether описывает свою миссию как продвижение свободы, прозрачности и инноваций через технологии, обеспечивая прямой обмен информацией между равноправными участниками без ненужных посредников. Компания стремится заменить централизованные модели децентрализованной инфраструктурой, ориентированной на конфиденциальность, эффективность и устойчивость.
Фреймворк QVAC Fabric BitNet LoRA поддерживает потребительские GPU от AMD, Intel и NVIDIA; экосистему Apple, включая чипы Silicon M и мобильные GPU Bionic; а также мобильные GPU, такие как Adreno (Samsung), Mali и другие. Это позволяет выполнять тонкую настройку ИИ на ноутбуках, настольных ПК и флагманских смартфонах без специализированного корпоративного оборудования.
По данным тестов Tether, inference на мобильных устройствах с GPU в 2–11 раз быстрее, чем на CPU. Использование памяти сокращается до 77,8% по сравнению с традиционными моделями, что позволяет запускать более крупные модели в рамках тех же аппаратных ограничений.
Настройка модели с 13 миллиардами параметров на смартфоне — это качественный скачок по сравнению с обычными демонстрациями ИИ на устройстве, которые обычно связаны с моделями менее 3 миллиардов параметров или с переносом тяжелых задач в облако. Эта возможность предполагает будущее, в котором серьезная персонализация моделей и адаптация к конкретным областям могут происходить локально, без передачи пользовательских данных на централизованные серверы.
Связанные статьи
Tether сотрудничает с Canaan для разработки модульной инфраструктуры майнинга биткоина
OFAC налагает санкции на криптоадреса Центрального банка Ирана, Tether содействует заморозке 344 млн USDT
Tether запускает Mining Development Kit (MDK), открытую среду для майнеров Bitcoin
Aave, Kelp, LayerZero предлагают выпустить $71M на замороженном ETH для восстановления rsETH
США вводят санкции против криптокошельков, связанных с Ираном, на сумму $344M замороженную Tether
США вводят санкции против криптокошельков, связанных с Ираном; Tether замораживает $344 миллиона USDT