Інтернет-товариство Китаю опублікувало: Глобальний звіт про генеративну індустрію ШІ за 2023 рік

Джерело: Internet Society of China

19 травня 2023 року під час Сьомої всесвітньої конференції з питань інтелекту «Всесвітній саміт співробітництва інновацій у інтелектуальних технологіях» під керівництвом Інтернет-товариства Китаю та Китайської асоціації індустрії програмного забезпечення, Товариства штучного інтелекту Тяньцзіня, Zhiding Technology і Zhiding Think Tank спільно « Global Generative AI Industry Map 2023» і «Global Generative AI Industry Report Report», підготовлені автором, опубліковані для кращого розуміння розвитку глобального генеративного AI для державних відомств, галузевих практиків, освітян і громадської ситуації для довідки.

Кредит зображення: створено інструментами Unbounded AI

Будучи передовою галуззю штучного інтелекту, генеративний ШІ став найактуальнішою темою технологій у світі. У 2022 році OpenAI випустив ChatGPT, і генеративний ШІ досяг важливого прориву на рівні модельного додатка.Кількість активних користувачів щомісяця перевищила 100 мільйонів лише за два місяці, що зробило його найшвидше зростаючим споживчим додатком в історії. Багато технологічних компаній у всьому світі збільшили свої інвестиції в дослідження та розробки в галузі генеративного штучного інтелекту, постійно впроваджували важливі досягнення в технологіях, продуктах і програмах, а також продовжували сприяти інноваціям і комерціалізації штучного інтелекту.

У цьому контексті під керівництвом Інтернет-товариства Китаю та Асоціації індустрії програмного забезпечення Китаю Товариство штучного інтелекту Тяньцзіня, Zhiding Technology і Zhiding Think Tank спільно опублікували «Звіт про глобальні дослідження генеративної індустрії штучного інтелекту за 2023 рік», який починається з глобальна перспектива, щоб відсортувати огляд галузі, інфраструктуру, модель алгоритму, застосування сценарію, можливості та проблеми генеративного ШІ, всебічно відобразити промисловий розвиток генеративного ШІ та надати більше інформації для державних департаментів, практиків галузі, освітян та громадськості. хороше розуміння генеративного штучного інтелекту забезпечує посилання.

01 Огляд індустрії Generative AI

1.1 Генеративна концепція ШІ та етап генерації контенту

Generative AI — це новий метод виробництва, який використовує технологію штучного інтелекту для автоматичного створення вмісту після професійно створеного контенту (PGC) і контенту, створеного користувачами (UGC).

Generative AI автоматично генерує та створює текст, аудіо, зображення, відео та кросмодальну інформацію на основі масивних навчальних даних і великомасштабних попередньо навчених моделей. Відколи OpenAI випустив ChatGPT у 2022 році, вибухнула глобальна хвиля генеративного ШІ, і багато технологічних компаній запустили генеративні моделі ШІ, продукти та пов’язану базову інфраструктуру та послуги.

1.2 Рушійні сили для розвитку індустрії генеративного ШІ

В останні роки глобальний масштаб даних продовжує зростати. IDC прогнозує, що глобальний масштаб даних досягне 175 ZB до 2025 року, забезпечуючи величезні ресурси даних для навчання моделі штучного інтелекту; впровадження високопродуктивних чіпів AI забезпечує важливу підтримку обчислювальної потужності для широкомасштабні моделі попереднього навчання; Завдяки постійному розвитку такі моделі, як Transformer, BERT, LaMDA та ChatGPT, досягли швидкої ітераційної оптимізації. Завдяки даним, обчислювальній потужності та моделям глобальна індустрія генеративного штучного інтелекту швидко розвивається, а відповідні сценарії та програми постійно збагачуються.

02 Generative AI Infrastructure

Високопродуктивні мікросхеми 2.1 AI забезпечують підтримку обчислювальної потужності для генеративного навчання AI

Розвиток штучного інтелекту вступив в еру великих моделей з епохи глибокого навчання.Кількість параметрів великомасштабних моделей попереднього навчання показала експоненціальне зростання, що вимагає підтримки високопродуктивної обчислювальної потужності.

Наразі обчислювальна потужність для навчання великомасштабних моделей попереднього навчання в 10-100 разів більша, ніж у минулому. Нинішнє масове навчання генеративних моделей ШІ широко використовує чіпи Nvidia Tensor Core GPU. Наприклад, Microsoft витратила сотні мільйонів доларів придбати десятки тисяч мікросхем Nvidia A100, щоб допомогти Open AI створити ChatGPT.

2.2 Обчислювальні кластери ШІ забезпечують великомасштабні обчислювальні ресурси для генеративного навчання ШІ

Обчислювальні кластери ШІ можуть забезпечити великомасштабну обчислювальну потужність, постійно покращувати використання ресурсів обчислювальної потужності, покращувати можливості зберігання та обробки даних, а також прискорювати навчання великої моделі ШІ та ефективність висновків.

Наразі типові обчислювальні кластери зі штучним інтелектом, такі як Nvidia DGX SuperPOD, Baidu Intelligent Cloud High-Performance Computing Cluster EHC, нове покоління високопродуктивного обчислювального кластера Tencent HCC тощо, відповідна інфраструктура обчислювальної потужності продовжує надавати потужні обчислювальні ресурси для генерації Сценарії навчання штучного інтелекту, ще більше зменшити поріг і вартість навчання моделі та сприяти впровадженню генеративних моделей штучного інтелекту.

Хмарний сервіс 2.3 AI забезпечує підтримку платформи для розробки генеративної моделі AI

Розробка моделей попереднього навчання штучного інтелекту має великий попит на хмарні сервіси. Хмарні сервіси штучного інтелекту можуть надавати модулі розробки штучного інтелекту. Завдяки диверсифікованим моделям обслуговування можна зменшити витрати розробників на розробку та цикли розробки продукту, а також забезпечити розширення можливостей ШІ для розробки моделі..

Типовим випадком є Amazon SageMaker, який може надавати аналіз зображення/зображення, обробку мовлення, розуміння природної мови та інші пов’язані послуги, а користувачі можуть реалізовувати функціональні програми, не знаючи параметрів і алгоритмів.

Платформа розробки штучного інтелекту з нульовим порогом Baidu Flying Paddle EasyDL надає такі функції, як класифікація зображень, виявлення об’єктів, класифікація тексту, класифікація звуку та класифікація відео, реалізуючи комплексне автоматизоване навчання та знижуючи поріг для спеціальної розробки ШІ.

03 Генеративна модель алгоритму AI

3.1 Історія розвитку глобальних генеративних моделей ШІ

3.2 Основні моделі для створення мови: OpenAI GPT-1 до GPT-4

З 2018 року OpenAI послідовно випускає серію генеративних моделей попереднього навчання, таких як GPT-1, GPT-2, GPT-3, ChatGPT і GPT-4. Модель GPT-1 базується на архітектурі Transformer, і зберігається лише частина архітектури декодера;

Модель GPT-2 скасовує контрольований етап тонкого налаштування в GPT-1;

Модель GPT-3 відмовляється від нульового циклу GPT-2 і використовує кілька циклів, щоб отримати невелику кількість зразків для конкретних завдань; ChatGPT використовує технологію RLHF (підсилення зворотного зв’язку людини), щоб покращити здатність регулювати вихід модель;

Модель GPT-4, випущена в 2023 році, має більш потужну мультимодальну здатність.Вона підтримує багатомодальне введення графіки та тексту та генерує текст відповіді, який може реалізувати класифікацію, аналіз і неявне семантичне вилучення візуальних елементів, показуючи чудову здатність відповіді.

3.3 Основна модель створення мовного класу: Google Transformer до PaLM-E

У 2017 році Google випустив культову модель Transformer. Модуль декодування цієї моделі став основним елементом моделі GPT. Завдяки впровадженню механізму уваги він може реалізувати більш масштабні паралельні обчислення, значно скоротити час навчання моделі, і створювати широкомасштабні моделі штучного інтелекту. Модель BERT і модель LaMDA постійно вдосконалюються з точки зору можливостей вилучення інформації та безпеки.

Нещодавно запущена модель PaLM-E має потужні можливості узагальнення та міграції.Вона може обробляти мультимодальні дані (мова, зір, дотик тощо).

3.4 Основна модель для створення зображень: дифузійна модель

Дослідження дифузійної моделі можна простежити до 2015 року, а в 2020 році було запропоновано імовірнісну модель знешумлення дифузії (DDPM), яка демонструє потужні можливості дифузійної моделі та стимулює її розвиток. Модель в основному включає два процеси: прямий процес і зворотний процес. Прямий процес також називається процесом дифузії. Модель дифузії навчається, додаючи гаусівський шум до зображення, щоб знищити навчальні дані, знаходить метод реверсування шуму. процес і використовує вивчені методи усунення шуму, що дозволяє синтезувати нові зображення з випадкових вхідних даних.

Перевага дифузійної моделі полягає в тому, що генеровані зображення мають вищу якість і не вимагають змагальної підготовки.За умови, що потрібно менше даних, ефект генерації зображень моделі значно покращується.

PART.04 Generative AI Scenario Application 4.1 Огляд типових глобальних Generative AI додатків

4.2 Generative AI Scenario Application—Text Generation

Додатки для генерування тексту в основному працюють у чотирьох сферах: продовження вмісту, передача стилю тексту, генерація анотації/заголовка та генерація всього тексту.Пов’язане персоналізоване генерування тексту та текстова взаємодія в режимі реального часу мають широкі перспективи.

Загалом, генерація тексту на основі технології NLP є більш ранньою програмою генеративного штучного інтелекту. Всесвітньо відомі технологічні компанії послідовно запустили інструменти генерації тексту, такі як Microsoft, Xmind та інші пов’язані продукти для копірайтингу, аналізу даних, презентацій, випадки застосування в розумових картах та інші аспекти.

4.3 Програма Generative AI сцени - створення зображення

Технічні сценарії створення зображення поділяються на редагування атрибутів зображення, часткове створення та модифікація зображення та наскрізне створення зображення. Серед них перші два сценарії посадки є інструментами для редагування зображень, а наскрізна генерація зображень відповідає двом основним сценаріям посадки — генерації творчого зображення та генерації функціонального зображення.

Наразі інструменти для редагування зображень широко використовуються, а пов’язаних продуктів відносно багато; генерація творчих зображень здебільшого представлена у формі NFT тощо, а функціональні зображення – це переважно маркетингові плакати/інтерфейси, ЛОГОТИПИ, зображення моделей та аватари користувачів .

4.4 Generative AI Scenario Application—Audio Generation

Генерація аудіо вже поширена в повсякденному житті, і її області застосування можна далі розділити на синтез мовлення та створення музики, а синтез мовлення включає в себе область генерування тексту, специфічного мовлення (TTS) і клонування мовлення.

Технічна зрілість галузі TTS є відносно високою, але все ще бракує емоційного вираження; клонування голосу має велике значення для кіно, анімації та інших галузей і заслуговує на увагу; створення музики можна далі поділити на тексти, композицію, аранжування, запис, мікшування тощо. Багато напрямків, процес створення в основному спирається на модель Transformer.

4.5 Generative AI Scenario Application—Video Generation

Очікується, що генерація відео буде сценарієм із середнім і високим потенціалом у сфері кросмодального генерування в майбутньому. Створення відео в основному відповідає трьом полям: редагування атрибутів відео, автоматичне редагування відео та створення частини відео.

Редагування атрибутів відео широко використовується у сфері створення відео, що значно покращує ефективність редагування відео; автоматичне редагування відео в основному знаходиться на стадії технічного випробування; принцип і суть генерації частини відео подібні до генерації зображень, наголошуючи на вирізанні відео на кадри, а потім редагування кожного кадру. Обробка зображень, технологія на цьому етапі полягає в покращенні точності модифікації та модифікації в реальному часі.

4.6 Generative AI Scenario Application—Digital Human

Цифрові люди — це синтез багатьох людських характеристик, які існують у нефізичному світі (таких як зображення, відео, прямі трансляції та VR). Цифрова людина являє собою перехід від модальностей низької щільності, таких як текст/аудіо, до модальностей вищої щільності інформації, таких як зображення/відео/взаємодія в реальному часі.У майбутньому відео та навіть метавсесвіт будуть важливими сценаріями застосування для цифрової людини.

У сфері генеративного штучного інтелекту генерацію цифрового людського відео можна розділити на генерацію цифрового людського відео та цифрову людську взаємодію в режимі реального часу. Цифрове людське відео в даний час є однією з найбільш широко використовуваних областей, тоді як цифрова людська взаємодія в реальному часі використовується переважно у візуальному інтелектуальному обслуговуванні клієнтів і більше Акцент на інтерактивних функціях у реальному часі.

05 Можливості та виклики генеративного ШІ

5.1 В епоху генеративного штучного інтелекту адміністративна робота значно замінена, і очікується, що «питати клієнтів» стане новою професією

Вплив генеративного штучного інтелекту на працевлаштування Виклики та можливості співіснують. З одного боку, генеративний штучний інтелект сприятиме інтелектуальному вдосконаленню робочих місць, а деякі робочі місця будуть замінені. Згідно з аналізом Goldman Sachs, можливості інтелектуальної автоматизації генеративного штучного інтелекту можуть значно підвищити ефективність роботи та знизити експлуатаційні витрати. Автоматизація штучного інтелекту різною мірою вплине на традиційні робочі місця в Сполучених Штатах і Європі, а генеративний штучний інтелект може замінити чверть робочих місць. .

З іншого боку, генеративний ШІ також створить нові робочі місця: «Інженер» дозволяє людям використовувати природну мову як підказки для взаємодії з ШІ для отримання інформації або створення робіт. Крім того, суміжні галузі навколо штучного інтелекту також створять велику кількість нових робочих місць.

5.2 Авторське право на генеративні роботи ШІ в основному розподіляється між власниками програмного забезпечення та користувачами

Суть генеративного ШІ полягає в застосуванні машинного навчання.На етапі навчання моделі він неминуче використовуватиме велику кількість наборів даних для виконання навчання.Однак питання власності на авторські права на продукти після навчання все ще залишається дискусійним.

Оскільки юридичні суб’єкти можуть користуватися правами, авторським правом на генеративні роботи штучного інтелекту можуть користуватися лише ті, хто зробив внесок у створення роботи. Відповідний персонал включає розробників програмного забезпечення, власників і користувачів (ідентичності суб’єктів можуть збігатися). Розробники програмного забезпечення штучного інтелекту були компенсується авторськими правами на програмне забезпечення, а авторські права на генеративні роботи ШІ в основному розподіляються між власниками програмного забезпечення та користувачами.

Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити