Hiệp hội Internet Trung Quốc đã phát hành: Báo cáo nghiên cứu ngành AI sáng tạo toàn cầu năm 2023

2023-06-15 07:59:35

Nguồn: Hiệp hội Internet Trung Quốc

Vào ngày 19 tháng 5 năm 2023, trong Hội nghị Trí tuệ Thế giới lần thứ bảy "Hội nghị Thượng đỉnh Hợp tác Đổi mới Công nghệ Thông minh Thế giới", được hướng dẫn bởi Hiệp hội Internet Trung Quốc và Hiệp hội Công nghiệp Phần mềm Trung Quốc, Hiệp hội Trí tuệ Nhân tạo Thiên Tân, Zhiding Technology và Zhiding Think Tank cùng phối hợp " Bản đồ ngành AI sáng tạo toàn cầu năm 2023" và "Báo cáo nghiên cứu ngành AI sáng tạo toàn cầu năm 2023" do tác giả chuẩn bị được phát hành để hiểu rõ hơn về sự phát triển của AI sáng tạo toàn cầu cho các cơ quan chính phủ, người hành nghề trong ngành, nhà giáo dục và tình hình công chúng để tham khảo.

Tín dụng hình ảnh: Được tạo bởi các công cụ Unbounded AI

Là lĩnh vực tiên phong của trí tuệ nhân tạo, AI tổng quát đã trở thành chủ đề công nghệ nóng nhất trên thế giới. Vào năm 2022, OpenAI đã phát hành ChatGPT và AI tổng quát đã đạt được một bước đột phá quan trọng ở cấp độ ứng dụng mô hình. Số lượng người dùng hoạt động hàng tháng đã vượt quá 100 triệu chỉ trong hai tháng, khiến nó trở thành ứng dụng tiêu dùng phát triển nhanh nhất trong lịch sử. Nhiều hãng công nghệ trên thế giới đã tăng cường đầu tư nghiên cứu và phát triển trong lĩnh vực trí tuệ nhân tạo, liên tục cho ra đời những thành tựu quan trọng về công nghệ, sản phẩm và ứng dụng, đồng thời tiếp tục thúc đẩy hoạt động đổi mới và thương mại hóa trí tuệ nhân tạo phát triển.

Trong bối cảnh này, dưới sự hướng dẫn của Hiệp hội Internet Trung Quốc và Hiệp hội Công nghiệp Phần mềm Trung Quốc, Hiệp hội Trí tuệ Nhân tạo Thiên Tân, Zhiding Technology và Zhiding Think Tank đã cùng phát hành "Báo cáo Nghiên cứu Ngành AI Sáng tạo Toàn cầu năm 2023", bắt đầu từ một viễn cảnh toàn cầu , để sắp xếp tổng quan về ngành, cơ sở hạ tầng, mô hình thuật toán, ứng dụng kịch bản, cơ hội và thách thức của AI tổng quát, hiển thị toàn diện sự phát triển công nghiệp của AI tổng quát và cung cấp thêm thông tin cho các cơ quan chính phủ, những người hành nghề trong ngành, các nhà giáo dục và công chúng A hiểu biết tốt về AI tổng quát cung cấp một tài liệu tham khảo.

01 Tổng quan về ngành AI sáng tạo

1.1 Giai đoạn tạo nội dung và khái niệm AI sáng tạo

AI sáng tạo là một phương pháp sản xuất mới sử dụng công nghệ trí tuệ nhân tạo để tự động tạo nội dung sau nội dung được tạo chuyên nghiệp (PGC) và nội dung do người dùng tạo (UGC).

AI sáng tạo tự động tạo và tạo thông tin văn bản, âm thanh, hình ảnh, video và đa phương thức dựa trên dữ liệu đào tạo khổng lồ và các mô hình được đào tạo trước quy mô lớn. Kể từ khi OpenAI phát hành ChatGPT vào năm 2022, một làn sóng AI tổng quát toàn cầu đã nổ ra và nhiều công ty công nghệ đã tung ra các mô hình, sản phẩm AI tổng quát cũng như cơ sở hạ tầng và dịch vụ cơ bản có liên quan.

1.2 Động lực phát triển ngành AI sáng tạo

Trong những năm gần đây, quy mô dữ liệu toàn cầu đã tiếp tục phát triển. IDC dự đoán rằng quy mô dữ liệu toàn cầu sẽ đạt 175ZB vào năm 2025, cung cấp nguồn dữ liệu khổng lồ cho đào tạo mô hình trí tuệ nhân tạo; việc giới thiệu chip AI hiệu suất cao cung cấp hỗ trợ sức mạnh tính toán quan trọng cho mô hình tiền đào tạo quy mô lớn; Với sự phát triển liên tục, các mô hình như Transformer, BERT, LaMDA và ChatGPT đã đạt được sự tối ưu hóa lặp đi lặp lại nhanh chóng. Được thúc đẩy bởi dữ liệu, sức mạnh tính toán và các mô hình, ngành công nghiệp trí tuệ nhân tạo toàn cầu đã phát triển nhanh chóng, đồng thời các kịch bản và ứng dụng liên quan không ngừng được làm phong phú thêm.

02 Cơ sở hạ tầng AI sáng tạo

2.1 Chip AI hiệu suất cao cung cấp khả năng tính toán hỗ trợ cho hoạt động đào tạo AI tổng quát

Sự phát triển của trí tuệ nhân tạo đã bước vào kỷ nguyên của các mô hình lớn từ kỷ nguyên học sâu, số lượng tham số của các mô hình tiền đào tạo quy mô lớn đã cho thấy sự gia tăng theo cấp số nhân, đòi hỏi phải có sự hỗ trợ của sức mạnh tính toán hiệu năng cao.

Hiện tại, sức mạnh tính toán đào tạo của các mô hình tiền đào tạo quy mô lớn đã gấp 10 đến 100 lần so với trước đây, mô hình đào tạo AI tổng quát chủ đạo hiện nay sử dụng rộng rãi chip GPU Nvidia Tensor Core, ví dụ như Microsoft đã chi hàng trăm triệu đô la để mua hàng chục nghìn chip Nvidia A100 giúp Open AI xây dựng ChatGPT.

2.2 Các cụm điện toán AI cung cấp tài nguyên điện toán quy mô lớn để đào tạo AI tổng quát

Các cụm điện toán AI có thể cung cấp sức mạnh tính toán quy mô lớn, liên tục cải thiện việc sử dụng tài nguyên sức mạnh tính toán, cải thiện khả năng lưu trữ và xử lý dữ liệu, đồng thời tăng tốc hiệu quả suy luận và đào tạo mô hình lớn AI.

Hiện tại, các cụm điện toán AI tiêu biểu như Nvidia DGX SuperPOD, Cụm điện toán hiệu năng cao đám mây thông minh Baidu EHC, cụm điện toán hiệu năng cao HCC thế hệ mới của Tencent, v.v. Các kịch bản đào tạo AI, tiếp tục Giảm ngưỡng và chi phí đào tạo mô hình, đồng thời thúc đẩy triển khai các mô hình AI tổng quát.

2.3 Dịch vụ đám mây AI cung cấp hỗ trợ nền tảng để phát triển mô hình AI tổng quát

Sự phát triển của các mô hình tiền đào tạo trí tuệ nhân tạo có nhu cầu lớn đối với dịch vụ đám mây. Dịch vụ đám mây AI có thể cung cấp các mô-đun phát triển trí tuệ nhân tạo. Thông qua các mô hình dịch vụ đa dạng, có thể giảm chi phí phát triển của nhà phát triển và chu kỳ phát triển sản phẩm, đồng thời có thể cung cấp khả năng trao quyền cho AI để phát triển mô hình. .

Một trường hợp điển hình là Amazon SageMaker, có thể cung cấp phân tích hình ảnh/hình ảnh, xử lý giọng nói, hiểu ngôn ngữ tự nhiên và các dịch vụ liên quan khác, đồng thời người dùng có thể nhận ra các ứng dụng chức năng mà không cần biết các tham số và thuật toán.

Nền tảng phát triển AI không ngưỡng Baidu Flying Paddle EasyDL cung cấp các chức năng như phân loại hình ảnh, phát hiện đối tượng, phân loại văn bản, phân loại âm thanh và phân loại video, thực hiện đào tạo tự động một cửa và giảm ngưỡng phát triển tùy chỉnh AI.

03 Mô hình thuật toán AI sáng tạo

3.1 Lịch sử phát triển của các mô hình AI tổng quát toàn cầu

3.2 Các mô hình chính để tạo ngôn ngữ: OpenAI GPT-1 đến GPT-4

Kể từ năm 2018, OpenAI đã liên tiếp phát hành một loạt mô hình tiền đào tạo tổng quát như GPT-1, GPT-2, GPT-3, ChatGPT và GPT-4. Mẫu GPT-1 dựa trên kiến trúc Transformer và chỉ phần giải mã của kiến trúc được giữ lại;

Mẫu GPT-2 hủy bỏ giai đoạn tinh chỉnh được giám sát trong GPT-1;

Mẫu GPT-3 loại bỏ tính năng zero-shot của GPT-2 và sử dụng few-shot để cung cấp một số lượng nhỏ mẫu cho các tác vụ cụ thể; ChatGPT sử dụng công nghệ RLHF (học tăng cường phản hồi của con người) để nâng cao khả năng điều chỉnh đầu ra của ngươi mâu;

Mẫu GPT-4 được phát hành vào năm 2023 có khả năng đa phương thức mạnh mẽ hơn. Nó hỗ trợ đầu vào đa phương thức của đồ họa và văn bản, đồng thời tạo văn bản phản hồi, có thể thực hiện phân loại, phân tích và trích xuất ngữ nghĩa tiềm ẩn của các thành phần hình ảnh, cho thấy khả năng Phản hồi xuất sắc .

3.3 Mô hình chính tạo lớp ngôn ngữ: Google Transformer to PaLM-E

Vào năm 2017, Google đã phát hành mô hình Transformer mang tính biểu tượng. Mô-đun giải mã của mô hình này đã trở thành yếu tố cốt lõi của mô hình GPT. Bằng cách giới thiệu cơ chế chú ý, nó có thể thực hiện điện toán song song quy mô lớn hơn, giảm đáng kể thời gian đào tạo mô hình, và làm cho các mô hình AI quy mô lớn được áp dụng. Mô hình BERT và mô hình LaMDA không ngừng cải thiện về khả năng trích xuất thông tin và bảo mật.

Mô hình PaLM-E mới ra mắt có khả năng tổng quát hóa và di chuyển mạnh mẽ, có thể xử lý chức năng dữ liệu đa phương thức (ngôn ngữ, hình ảnh, cảm ứng, v.v.).

3.4 Mô hình chính để tạo ảnh: Mô hình khuếch tán

Nghiên cứu về Mô hình khuếch tán có thể bắt đầu từ năm 2015 và Mô hình xác suất khuếch tán khử nhiễu (DDPM) đã được đề xuất vào năm 2020, thể hiện khả năng mạnh mẽ của mô hình khuếch tán và thúc đẩy sự phát triển của mô hình khuếch tán. Mô hình chủ yếu bao gồm hai quá trình: quá trình thuận và quá trình ngược. Quá trình thuận còn được gọi là quá trình khuếch tán. Mô hình khuếch tán học bằng cách thêm nhiễu Gaussian vào hình ảnh để hủy dữ liệu huấn luyện, tìm ra phương pháp đảo ngược nhiễu xử lý và sử dụng các phương pháp Khử nhiễu đã học cho phép tổng hợp các hình ảnh mới từ các đầu vào ngẫu nhiên.

Ưu điểm của mô hình Diffusion là hình ảnh được tạo ra có chất lượng cao hơn và không cần đào tạo đối thủ, trong điều kiện cần ít dữ liệu hơn, hiệu quả tạo hình ảnh của mô hình được cải thiện đáng kể.

PHẦN.04 Ứng dụng kịch bản AI sáng tạo 4.1 Tổng quan về các ứng dụng AI sáng tạo toàn cầu điển hình

4.2 Ứng dụng kịch bản AI sáng tạo—Tạo văn bản

Các ứng dụng tạo văn bản chủ yếu ở bốn lĩnh vực: tiếp tục nội dung, chuyển kiểu văn bản, tạo tiêu đề/tiêu đề và tạo toàn bộ văn bản.Việc tạo văn bản được cá nhân hóa có liên quan và tương tác văn bản trong thời gian thực có nhiều triển vọng.

Nói chung, tạo văn bản dựa trên công nghệ NLP là một ứng dụng sớm hơn trong AI tạo ra.Các công ty công nghệ nổi tiếng thế giới đã liên tiếp tung ra các công cụ ứng dụng tạo văn bản, chẳng hạn như Microsoft, Xmind và các sản phẩm liên quan khác trong viết quảng cáo, phân tích dữ liệu, thuyết trình, Có liên quan các trường hợp ứng dụng trong sơ đồ tư duy và các khía cạnh khác.

4.3 Ứng dụng cảnh trí tuệ nhân tạo AI - tạo hình ảnh

Các kịch bản kỹ thuật của việc tạo ảnh được chia thành chỉnh sửa thuộc tính ảnh, tạo và sửa đổi một phần ảnh và tạo ảnh từ đầu đến cuối. Trong số đó, hai kịch bản hạ cánh đầu tiên là các công cụ chỉnh sửa hình ảnh và quá trình tạo hình ảnh từ đầu đến cuối tương ứng với hai kịch bản hạ cánh chính là tạo hình ảnh sáng tạo và tạo hình ảnh chức năng.

Hiện tại, các công cụ chỉnh sửa hình ảnh được sử dụng rộng rãi và các sản phẩm liên quan tương đối phong phú; việc tạo hình ảnh sáng tạo chủ yếu được thể hiện dưới dạng NFT, v.v., và các hình ảnh chức năng chủ yếu là áp phích/giao diện tiếp thị, LOGO, ảnh người mẫu và hình đại diện người dùng .

4.4 Ứng dụng kịch bản AI sáng tạo—Tạo âm thanh

Việc tạo âm thanh đã phổ biến trong cuộc sống hàng ngày và các lĩnh vực ứng dụng của nó có thể được chia thành tổng hợp giọng nói và tạo nhạc, và tổng hợp giọng nói bao gồm lĩnh vực tạo văn bản giọng nói cụ thể (TTS) và sao chép giọng nói.

Sự trưởng thành về kỹ thuật của lĩnh vực TTS tương đối cao, nhưng vẫn còn thiếu biểu hiện cảm xúc; nhân bản giọng nói có ý nghĩa to lớn đối với điện ảnh, hoạt hình và các ngành công nghiệp khác và đáng được quan tâm; sáng tạo âm nhạc có thể được chia thành lời bài hát, sáng tác, sắp xếp, ghi âm, trộn, v.v. Nhiều hướng, quá trình tạo chủ yếu dựa vào mô hình Máy biến áp.

4.5 Ứng dụng kịch bản AI sáng tạo—Tạo video

Tạo video dự kiến sẽ là một kịch bản có tiềm năng từ trung bình đến cao trong lĩnh vực tạo đa phương thức trong tương lai. Tạo video chủ yếu tương ứng với ba trường: chỉnh sửa thuộc tính video, chỉnh sửa tự động video và tạo phần video.

Chỉnh sửa thuộc tính video đã được sử dụng rộng rãi trong lĩnh vực tạo video, cải thiện đáng kể hiệu quả chỉnh sửa video; chỉnh sửa video tự động chủ yếu ở giai đoạn thử nghiệm kỹ thuật; nguyên tắc và bản chất của việc tạo phần video tương tự như tạo hình ảnh, nhấn mạnh vào việc cắt video thành các khung, sau đó chỉnh sửa từng khung Xử lý hình ảnh, công nghệ ở giai đoạn này là cải thiện độ chính xác của việc sửa đổi và sửa đổi theo thời gian thực.

4.6 Ứng dụng kịch bản AI sáng tạo—Con người kỹ thuật số

Con người kỹ thuật số đề cập đến sự tổng hợp của nhiều đặc điểm con người tồn tại trong thế giới phi vật chất (chẳng hạn như hình ảnh, video, chương trình phát sóng trực tiếp và VR). Con người kỹ thuật số đại diện cho quá trình chuyển đổi từ các phương thức mật độ thấp như văn bản/âm thanh sang các phương thức mật độ thông tin cao hơn như hình ảnh/video/tương tác thời gian thực. Trong tương lai, video và thậm chí cả metaverse sẽ là các kịch bản ứng dụng quan trọng cho con người kỹ thuật số.

Trong lĩnh vực trí tuệ nhân tạo AI, thế hệ con người kỹ thuật số có thể được chia thành thế hệ video con người kỹ thuật số và tương tác thời gian thực của con người kỹ thuật số. Thế hệ video con người kỹ thuật số hiện là một trong những lĩnh vực được sử dụng rộng rãi nhất, trong khi tương tác thời gian thực của con người kỹ thuật số chủ yếu được sử dụng trong dịch vụ khách hàng thông minh trực quan và hơn thế nữa Nhấn mạnh vào các tính năng tương tác thời gian thực.

05 Cơ hội và thách thức AI sáng tạo

5.1 Trong thời đại trí tuệ nhân tạo AI, công việc hành chính được thay thế nhiều và "hỏi ý kiến khách hàng" dự kiến sẽ trở thành một nghề mới

Tác động của AI sáng tạo đối với việc làm Thách thức và cơ hội cùng tồn tại. Một mặt, AI tổng quát sẽ thúc đẩy việc nâng cấp công việc một cách thông minh và một số công việc sẽ bị thay thế. Theo phân tích của Goldman Sachs, khả năng tự động hóa thông minh của AI tổng quát có thể cải thiện đáng kể hiệu quả công việc và giảm chi phí vận hành.Các công việc truyền thống ở Hoa Kỳ và Châu Âu sẽ bị ảnh hưởng bởi tự động hóa AI ở các mức độ khác nhau và AI tổng quát có thể thay thế một phần tư công việc .

Mặt khác, AI tổng quát cũng sẽ tạo ra các công việc mới: "Kỹ sư" cho phép mọi người sử dụng ngôn ngữ tự nhiên làm lời nhắc để tương tác với AI để lấy thông tin hoặc tạo tác phẩm. Ngoài ra, các lĩnh vực liên quan đến trí tuệ nhân tạo cũng sẽ tạo ra một lượng lớn việc làm mới.

5.2 Bản quyền của các tác phẩm AI tổng quát chủ yếu được phân phối giữa chủ sở hữu phần mềm và người dùng

Bản chất của Generative AI là ứng dụng học máy, trong giai đoạn học mô hình chắc chắn sẽ sử dụng một số lượng lớn tập dữ liệu để thực hiện đào tạo, tuy nhiên vấn đề sở hữu bản quyền sản phẩm sau đào tạo vẫn còn nhiều tranh cãi.

Vì các chủ thể hợp pháp có thể được hưởng các quyền nên bản quyền của các tác phẩm AI tạo ra chỉ có thể được hưởng bởi những người đã đóng góp vào việc tạo ra tác phẩm. Những người có liên quan bao gồm nhà phát triển phần mềm, chủ sở hữu và người dùng (danh tính chủ thể có thể trùng nhau). được bồi thường từ bản quyền phần mềm và bản quyền của các tác phẩm AI sáng tạo chủ yếu được phân phối giữa chủ sở hữu phần mềm và người dùng.

Xem bản gốc

Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.

Phần thưởng
Thích
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
#BTC#
207k Trạng thái
#PI#
154k Trạng thái
#ETH#
131k Trạng thái
4#GateioInto11#
78k Trạng thái
5#ContentStar#
65k Trạng thái
6#BOME#
60k Trạng thái
7#GT#
59k Trạng thái
8#DOGE#
55k Trạng thái
9#MAGA#
52k Trạng thái
10#SLERF#
51k Trạng thái

Ghim

sơ đồ trang web