После вычислительной мощности, высококачественный корпус данных или решение ограничивающей способности крупной модели

Генерация тезисов в процессе

С 21 по 23 февраля в Шанхае пройдет Глобальная конференция разработчиков (GDC) 2025 года. По данным Шанхайской муниципальной комиссии по экономике и информационным технологиям, в этом GDC примут участие 100 сообществ разработчиков в стране и за рубежом, в том числе Hugging Face, Microsoft Developer Community, CSDN, Ali Magic Community, Linux Foundation, ARPA Foundation и Huawei Community. Фокусируясь на основных технологиях, таких как большие модели, вычислительная мощность, корпуса, инструменты, программные платформы и т. д., участвующие группы разработчиков включают разработку аппаратного обеспечения, облачные вычисления, большие данные, интернет вещей, искусственный интеллект, роботов, блокчейн и Метавселенную.

Компания Shanghai Kupas Technology Co., Ltd. - одна из компаний, принимающих участие в этом мероприятии. Kupas - это предприятие-платформа по сбору данных о языковых корпусах искусственного интеллекта, специально созданное по требованию Шанхайского комитета городского правительства. Компания ориентирована на предоставление профессиональных услуг по сбору данных о языковых корпусах малому, среднему и инновационному предпринимательству по доступной цене и высокого качества.

"Наша вся команда не отдыхала с 4-го дня нового года, все занимались исследованием и отслеживанием инноваций DeepSeek" - сказал CEO Купаси Хуан Хайцин в интервью интерфейсу новостей. Появление DeepSeek вызвало как волнение, так и тревогу во всей отрасли искусственного интеллекта. Основная тревога заключается в том, почему существующие крупные модели получили такие большие инвестиции, но не достигли таких результатов, как DeepSeek."

Он считает, что успех DeepSeek зависит не только от инноваций в исходных алгоритмах, но и от использования высококачественных языковых корпусов, что существенно экономит вычислительную мощность и данные, что дает китайской отрасли крупных моделей идею 'обогнать в поворотах'. Хуан Хайцин сказал, что с учетом текущего развития крупных моделей качество языковых корпусов определит верхний предел способностей крупных моделей, а высококачественное предложение языковых корпусов значительно снизит затраты на обучение крупных моделей компаний.

Он объяснил, что Купаси уже полностью запустил строительство корпуса данных в областях умных технологий, финансов, производства, образования, медицины, развлечений, управления городом и т. д. Платформа управления данными 1.0 уже запущена, и в настоящее время ускорено развивается проектирование платформы синтеза данных 2.0 от реального мира к моделированию и симуляции данных. В настоящее время компания уже связала более 50 партнеров по экосистеме данных, снижая затраты на крупные модели путем предоставления высококачественных и эффективных наборов данных партнерам.

Scaling Law все еще работает, но скорость уже замедлилась, считает Хуан Хайцин. Он считает, что в будущем, помимо больших языковых моделей, начнется взрывное применение мультимодельных больших моделей, а бизнес-модели ToB (для предприятий) и ToG (для правительства) станут основным направлением развития компаний с большими моделями. В настоящее время многие базовые компании с большими моделями переходят к отраслевым категориям, и в будущем на китайском рынке смогут выжить менее десятка базовых компаний с большими моделями.

В конкретной отрасли он считает, что в настоящее время финансовый, образовательный, медицинский и промышленный секторы уже приоритетно принимают крупномасштабные модели. А в ключевых областях, таких как автономное вождение, инкорпорированный интеллект, научный интеллект и т. д., также активно применяются крупномасштабные модели. С развитием времени будущее транспортной отрасли, розничной торговли и других отраслей также будут использовать крупномасштабные модели. Это также требует более крупного и высококачественного спроса на вертикальные отраслевые данные. Для моделей вывода также необходимо создать процесс вывода на основе исходных данных, что также предъявляет новые требования к производству корпусов текстов.

Что касается сбора и производства корпусных данных, Хуан Хайцин также предположил, что закон об авторском праве должен идти в ногу со временем и внести некоторые изменения в разумное определение корпусных данных для искусственного интеллекта и обучения больших моделей.

«Речь идет не об изменении прошлого, а о добавлении и обновлении, и я думаю, что это более подходящий и действенный путь». Хуан Хайцин сказал: «В области искусственного интеллекта, больших моделей и корпусных данных предыдущие законы об авторском праве были доступны для людей, и когда большие модели обучают корпусные данные, если они используют прошлые стандарты для измерения стандартов машинного обучения, это может быть не так уместно». Кроме того, эта проблема повлияла на стоимость закупок корпуса и юридические риски крупных модельных компаний. ”

Он предложил ускорить разработку разумных правил использования корпусных данных для крупномасштабных моделей, способствовать применению “текста и майнинга данных” в области предварительного обучения; внедрить разумное использование данных для машинного обучения в стране, сбалансировать права авторов и потребности в развитии технологий, решить проблему сложности авторских прав; правительство должно разработать поощрительные меры, поддержать разработку платформы для автоматизации инструментов цепочки языковых данных, снизить стоимость языковых данных; создать платформу для автоматизированной очистки и маркировки данных для искусственного интеллекта, снизить стоимость языковых данных; ускорить правовые исследования в области защиты произведений, созданных искусственным интеллектом, установить четкие правила владения и ответственности за произведения, созданные искусственным интеллектом.

Хуан Хайцин также заявил, что в будущем искусственный интеллект будет доминировать в маркировке и очистке данных, причем маркировка данных будет переходить от трудоемких отраслей к знаниевым и техническим.

(Источник статьи: интерфейсные новости)

Источник: Восточный Финансовый Сайт

Автор: Интерфейсные новости

ARPA1.44%

Посмотреть Оригинал

Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».

2 Лайков

Награда
2
1
Поделиться

комментарий

0/400

Нет комментариев

Тема
#BTC#
192939 посты
#ETH#
120223 посты
#PI#
100903 посты
4#GateioInto11#
76071 посты
5#ContentStar#
63861 посты
6#BOME#
59016 посты
7#GT#
55959 посты
8#DOGE#
52692 посты
9#MAGA#
51284 посты
10#SLERF#
50244 посты

Закрепить

Карта сайта