Pada tanggal 19 Mei 2023, selama Konferensi Kecerdasan Dunia Ketujuh "KTT Kerjasama Inovasi Teknologi Cerdas Dunia", dipandu oleh Masyarakat Internet Tiongkok dan Asosiasi Industri Perangkat Lunak Tiongkok, Masyarakat Kecerdasan Buatan Tianjin, Teknologi Zhiding, dan Think Tank Zhiding bersama-sama " Peta Industri AI Generatif Global 2023" dan "Laporan Penelitian Industri AI Generatif Global 2023" yang disiapkan oleh penulis dirilis untuk lebih memahami perkembangan AI generatif global untuk departemen pemerintah, praktisi industri, pendidik, dan situasi publik untuk referensi.
Kredit gambar: Dihasilkan oleh alat AI tak terbatas
Sebagai bidang terdepan kecerdasan buatan, AI generatif telah menjadi topik teknologi terpanas di dunia. Pada tahun 2022, OpenAI merilis ChatGPT, dan AI generatif mencapai terobosan penting di tingkat aplikasi model. Jumlah pengguna aktif bulanan melebihi 100 juta hanya dalam dua bulan, menjadikannya aplikasi konsumen dengan pertumbuhan tercepat dalam sejarah. Banyak perusahaan teknologi di seluruh dunia telah meningkatkan investasi mereka dalam penelitian dan pengembangan di bidang AI generatif, dan terus meluncurkan pencapaian penting dalam teknologi, produk, dan aplikasi, serta terus mempromosikan inovasi dan komersialisasi kecerdasan buatan.
Dalam konteks ini, di bawah bimbingan Masyarakat Internet China dan Asosiasi Industri Perangkat Lunak China, Masyarakat Kecerdasan Buatan Tianjin, Teknologi Zhiding, dan Think Tank Zhiding bersama-sama merilis "Laporan Riset Industri AI Generatif Global 2023", yang dimulai dari perspektif global , untuk memilah tinjauan industri, infrastruktur, model algoritme, aplikasi skenario, peluang dan tantangan AI generatif, menampilkan perkembangan industri AI generatif secara komprehensif, dan memberikan lebih banyak informasi untuk departemen pemerintah, praktisi industri, pendidik, dan publik A pemahaman yang baik tentang AI generatif memberikan referensi.
01 Ikhtisar Industri Generatif AI
1.1 Konsep AI generatif dan tahap pembuatan konten
AI generatif adalah metode produksi baru yang menggunakan teknologi kecerdasan buatan untuk menghasilkan konten secara otomatis setelah konten yang dibuat secara profesional (PGC) dan konten yang dibuat pengguna (UGC).
AI generatif secara otomatis menghasilkan dan membuat informasi teks, audio, gambar, video, dan lintas modal berdasarkan data pelatihan masif dan model pra-terlatih berskala besar.
Sejak OpenAI merilis ChatGPT pada tahun 2022, gelombang global AI generatif telah meletus, dan banyak perusahaan teknologi telah meluncurkan model AI generatif, produk, serta infrastruktur dan layanan terkait yang mendasarinya.
1.2 Kekuatan pendorong untuk pengembangan industri AI generatif
Dalam beberapa tahun terakhir, skala data global terus berkembang. IDC memperkirakan bahwa skala data global akan mencapai 175ZB pada tahun 2025, menyediakan sumber daya data yang sangat besar untuk pelatihan model kecerdasan buatan; pengenalan chip AI berperforma tinggi memberikan dukungan daya komputasi yang penting untuk model pra-pelatihan skala besar; Dengan pengembangan berkelanjutan, model seperti Transformer, BERT, LaMDA, dan ChatGPT telah mencapai pengoptimalan berulang yang cepat. Didorong oleh data, daya komputasi, dan model, industri AI generatif global telah berkembang pesat, dan skenario serta aplikasi terkait terus diperkaya.
02 Infrastruktur AI Generatif
2.1 chip performa tinggi AI memberikan dukungan daya komputasi untuk pelatihan AI generatif
Perkembangan kecerdasan buatan telah memasuki era model besar dari era pembelajaran mendalam.Jumlah parameter model pra-pelatihan skala besar telah menunjukkan peningkatan eksponensial, yang membutuhkan dukungan daya komputasi berkinerja tinggi.
Saat ini, kekuatan komputasi pelatihan model pra-pelatihan skala besar adalah 10 hingga 100 kali lipat dari masa lalu. Pelatihan model AI generatif arus utama saat ini banyak menggunakan chip GPU Nvidia Tensor Core. Misalnya, Microsoft menghabiskan ratusan juta dolar untuk membeli puluhan ribu chip Nvidia A100 untuk membantu Open AI membangun ChatGPT.
Kluster komputasi AI 2.2 menyediakan sumber daya komputasi skala besar untuk pelatihan AI generatif
Cluster komputasi AI dapat menyediakan daya komputasi skala besar, terus meningkatkan penggunaan sumber daya daya komputasi, meningkatkan penyimpanan data dan kemampuan pemrosesan, serta mempercepat pelatihan model besar AI dan efisiensi inferensi.
Saat ini, klaster komputasi AI tipikal seperti Nvidia DGX SuperPOD, Baidu Intelligent Cloud High-Performance Computing Cluster EHC, generasi baru Tencent dari klaster komputasi performa tinggi HCC, dll., infrastruktur daya komputasi terkait terus menyediakan sumber daya daya komputasi yang kuat untuk generatif Skenario pelatihan AI, selanjutnya Kurangi ambang batas dan biaya pelatihan model, dan promosikan penerapan model AI generatif.
Layanan cloud AI 2.3 menyediakan dukungan platform untuk pengembangan model AI generatif
Pengembangan model pra-pelatihan kecerdasan buatan memiliki permintaan besar untuk layanan cloud. Layanan cloud AI dapat menyediakan modul pengembangan kecerdasan buatan. Melalui model layanan yang beragam, biaya pengembangan pengembang dan siklus pengembangan produk dapat dikurangi, dan pemberdayaan AI dapat disediakan untuk pengembangan model. .
Kasus tipikal adalah Amazon SageMaker, yang dapat menyediakan analisis gambar/gambar, pemrosesan ucapan, pemahaman bahasa alami, dan layanan terkait lainnya, dan pengguna dapat mewujudkan aplikasi fungsional tanpa mengetahui parameter dan algoritme.
Platform pengembangan AI zero-threshold Baidu Flying Paddle EasyDL menyediakan fungsi seperti klasifikasi gambar, deteksi objek, klasifikasi teks, klasifikasi suara, dan klasifikasi video, mewujudkan pelatihan otomatis satu atap dan menurunkan ambang batas untuk pengembangan kustom AI.
03 Model Algoritma AI Generatif
3.1 Sejarah pengembangan model AI generatif global
3.2 Model arus utama untuk pembuatan bahasa: OpenAI GPT-1 hingga GPT-4
Sejak 2018, OpenAI secara berturut-turut merilis serangkaian model pra-pelatihan generatif seperti GPT-1, GPT-2, GPT-3, ChatGPT, dan GPT-4.
Model GPT-1 didasarkan pada arsitektur Transformer, dan hanya bagian dekoder dari arsitektur yang dipertahankan;
Model GPT-2 membatalkan tahap fine-tuning yang diawasi di GPT-1;
Model GPT-3 meninggalkan zero-shot dari GPT-2, dan menggunakan beberapa tembakan untuk memberikan sejumlah kecil sampel untuk tugas tertentu; ChatGPT menggunakan teknologi RLHF (human feedback reinforcement learning) untuk meningkatkan kemampuan menyesuaikan output dari model;
Model GPT-4 yang dirilis pada tahun 2023 memiliki kemampuan multimodal yang lebih kuat, mendukung input multimodal grafik dan teks dan menghasilkan teks respons, yang dapat mewujudkan klasifikasi, analisis, dan ekstraksi semantik implisit elemen visual, menunjukkan kemampuan Respons yang sangat baik.
3.3 Model arus utama pembuatan kelas bahasa: Google Transformer ke PaLM-E
Pada tahun 2017, Google merilis model Transformer yang ikonik. Modul decoding model ini telah menjadi elemen inti dari model GPT. Dengan memperkenalkan mekanisme perhatian, ia dapat mewujudkan komputasi paralel berskala lebih besar, secara signifikan mengurangi waktu pelatihan model, dan membuat model AI skala besar diterapkan. Model BERT dan model LaMDA terus meningkat dalam hal kemampuan dan keamanan ekstraksi informasi.
Model PaLM-E yang baru diluncurkan memiliki kemampuan generalisasi dan migrasi yang kuat, dapat memproses data multi-modal (bahasa, penglihatan, sentuhan, dll.) Fungsi.
3.4 Model utama untuk pembuatan gambar: Model Difusi
Penelitian tentang Model Difusi dapat ditelusuri kembali ke tahun 2015, dan Model Probabilistik Difusi Denoising (DDPM) diusulkan pada tahun 2020, menunjukkan kemampuan yang kuat dari model difusi dan mendorong pengembangan model difusi. Model ini terutama mencakup dua proses: proses maju dan proses mundur Proses maju juga disebut proses difusi Model difusi belajar dengan menambahkan noise Gaussian ke gambar untuk menghancurkan data pelatihan, menemukan metode membalikkan noise memproses, dan menggunakan metode Denoising yang dipelajari memungkinkan sintesis gambar baru dari input acak.
Keuntungan dari model Difusi adalah bahwa gambar yang dihasilkan memiliki kualitas yang lebih tinggi dan tidak memerlukan pelatihan permusuhan, dengan syarat bahwa data yang diperlukan lebih sedikit, efek pembuatan gambar dari model tersebut meningkat secara signifikan.
PART.04 Aplikasi Skenario AI Generatif 4.1 Tinjauan Umum Aplikasi AI Generatif Global
4.2 Aplikasi Skenario AI Generatif—Pembuatan Teks
Aplikasi pembuatan teks terutama dalam empat bidang: kelanjutan konten, transfer gaya teks, pembuatan abstrak / judul, dan seluruh pembuatan teks.Pembuatan teks yang dipersonalisasi terkait dan interaksi teks waktu nyata memiliki prospek yang luas.
Secara umum, pembuatan teks berdasarkan teknologi NLP adalah aplikasi sebelumnya dalam AI generatif.Perusahaan teknologi terkenal di dunia telah meluncurkan alat aplikasi pembuatan teks secara berturut-turut, seperti Microsoft, Xmind dan produk terkait lainnya dalam copywriting, analisis data, presentasi, Ada yang relevan kasus aplikasi dalam pemetaan pikiran dan aspek lainnya.
4.3 Aplikasi adegan AI generatif - pembuatan gambar
Skenario teknis pembuatan gambar dibagi menjadi pengeditan atribut gambar, pembuatan dan modifikasi gambar parsial, dan pembuatan gambar end-to-end. Diantaranya, dua skenario pendaratan pertama adalah alat pengeditan gambar, dan pembuatan gambar end-to-end sesuai dengan dua skenario pendaratan utama pembuatan gambar kreatif dan pembuatan gambar fungsional.
Saat ini, alat pengeditan gambar banyak digunakan, dan produk terkait relatif melimpah; pembuatan gambar kreatif sebagian besar disajikan dalam bentuk NFT, dll., dan gambar fungsional sebagian besar adalah poster/antarmuka pemasaran, LOGO, gambar model, dan avatar pengguna .
4.4 Aplikasi Skenario AI Generatif—Pembuatan Audio
Pembuatan audio sudah umum dalam kehidupan sehari-hari, dan bidang aplikasinya dapat dibagi lagi menjadi sintesis ucapan dan pembuatan musik, dan sintesis ucapan mencakup bidang pembuatan teks pidato khusus (TTS) dan kloning ucapan.
Kematangan teknis bidang TTS relatif tinggi, tetapi masih ada kekurangan ekspresi emosional; kloning suara sangat penting bagi film, animasi, dan industri lainnya dan patut mendapat perhatian; penciptaan musik dapat dibagi lagi menjadi lirik, komposisi, pengaturan, perekaman, pencampuran, dll. Berbagai arah, proses pembuatan terutama bergantung pada model Transformer.
4.5 Aplikasi Skenario AI Generatif—Pembuatan Video
Pembuatan video diharapkan menjadi skenario potensial menengah ke atas di bidang pembuatan lintas modal di masa mendatang. Pembuatan video terutama terkait dengan tiga bidang: pengeditan atribut video, pengeditan otomatis video, dan pembuatan bagian video.
Pengeditan atribut video telah banyak digunakan di bidang pembuatan video, sangat meningkatkan efisiensi pengeditan video; pengeditan video otomatis terutama dalam tahap uji coba teknis; prinsip dan esensi pembuatan bagian video mirip dengan pembuatan gambar, menekankan pemotongan video ke dalam bingkai, dan kemudian mengedit setiap bingkai.Pengolahan gambar, teknologi pada tahap ini adalah untuk meningkatkan akurasi modifikasi dan modifikasi waktu nyata.
4.6 Aplikasi Skenario AI Generatif—Manusia Digital
Manusia digital mengacu pada sintesis berbagai karakteristik manusia yang ada di dunia non-fisik (seperti gambar, video, siaran langsung, dan VR). Manusia digital mewakili transisi dari modalitas kepadatan rendah seperti teks/audio ke modalitas kepadatan informasi yang lebih tinggi seperti interaksi gambar/video/waktu nyata.Ke depan, video dan bahkan metaverse akan menjadi skenario aplikasi penting bagi manusia digital.
Di bidang AI generatif, generasi manusia digital dapat dibagi menjadi generasi video manusia digital dan interaksi manusia real-time digital. Generasi video manusia digital saat ini merupakan salah satu bidang yang paling banyak digunakan, sedangkan interaksi manusia digital real-time banyak digunakan dalam layanan pelanggan cerdas visual, dan lebih Penekanan pada fitur interaktif real-time.
05 Peluang dan Tantangan AI Generatif
5.1 Di era AI generatif, pekerjaan administrasi sangat tergantikan, dan "meminta pelanggan" diharapkan menjadi profesi baru
Dampak AI generatif pada pekerjaan Tantangan dan peluang hidup berdampingan. Di satu sisi, AI generatif akan mempromosikan peningkatan pekerjaan yang cerdas, dan beberapa pekerjaan akan diganti. Menurut analisis Goldman Sachs, kemampuan otomasi cerdas dari AI generatif dapat sangat meningkatkan efisiensi kerja dan mengurangi biaya pengoperasian.Pekerjaan tradisional di Amerika Serikat dan Eropa akan dipengaruhi oleh otomasi AI pada berbagai tingkat, dan AI generatif dapat menggantikan seperempat pekerjaan .
Di sisi lain, AI generatif juga akan menciptakan lapangan kerja baru: "Insinyur" memungkinkan orang menggunakan bahasa alami sebagai petunjuk untuk berinteraksi dengan AI untuk mendapatkan informasi atau membuat karya. Selain itu, bidang terkait seputar kecerdasan buatan juga akan menghasilkan banyak pekerjaan baru.
5.2 Hak cipta karya AI generatif sebagian besar didistribusikan antara pemilik perangkat lunak dan pengguna
Inti dari AI generatif adalah penerapan pembelajaran mesin. Pada tahap pembelajaran model, pasti akan menggunakan sejumlah besar set data untuk melakukan pelatihan. Namun, masalah kepemilikan hak cipta produk setelah pelatihan masih kontroversial.
Karena subjek hukum dapat menikmati hak, hak cipta karya AI generatif hanya dapat dinikmati oleh mereka yang telah berkontribusi pada pembuatan karya tersebut. Personel terkait termasuk pengembang, pemilik, dan pengguna perangkat lunak (identitas subjek mungkin tumpang tindih). Pengembang perangkat lunak AI telah dikompensasi dari hak cipta perangkat lunak, dan hak cipta karya AI generatif sebagian besar didistribusikan antara pemilik dan pengguna perangkat lunak.
Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
Masyarakat Internet Tiongkok merilis: Laporan Penelitian Industri AI Generatif Global 2023
Sumber: Masyarakat Internet China
Sebagai bidang terdepan kecerdasan buatan, AI generatif telah menjadi topik teknologi terpanas di dunia. Pada tahun 2022, OpenAI merilis ChatGPT, dan AI generatif mencapai terobosan penting di tingkat aplikasi model. Jumlah pengguna aktif bulanan melebihi 100 juta hanya dalam dua bulan, menjadikannya aplikasi konsumen dengan pertumbuhan tercepat dalam sejarah. Banyak perusahaan teknologi di seluruh dunia telah meningkatkan investasi mereka dalam penelitian dan pengembangan di bidang AI generatif, dan terus meluncurkan pencapaian penting dalam teknologi, produk, dan aplikasi, serta terus mempromosikan inovasi dan komersialisasi kecerdasan buatan.
Dalam konteks ini, di bawah bimbingan Masyarakat Internet China dan Asosiasi Industri Perangkat Lunak China, Masyarakat Kecerdasan Buatan Tianjin, Teknologi Zhiding, dan Think Tank Zhiding bersama-sama merilis "Laporan Riset Industri AI Generatif Global 2023", yang dimulai dari perspektif global , untuk memilah tinjauan industri, infrastruktur, model algoritme, aplikasi skenario, peluang dan tantangan AI generatif, menampilkan perkembangan industri AI generatif secara komprehensif, dan memberikan lebih banyak informasi untuk departemen pemerintah, praktisi industri, pendidik, dan publik A pemahaman yang baik tentang AI generatif memberikan referensi.
01 Ikhtisar Industri Generatif AI
1.1 Konsep AI generatif dan tahap pembuatan konten
AI generatif adalah metode produksi baru yang menggunakan teknologi kecerdasan buatan untuk menghasilkan konten secara otomatis setelah konten yang dibuat secara profesional (PGC) dan konten yang dibuat pengguna (UGC).
AI generatif secara otomatis menghasilkan dan membuat informasi teks, audio, gambar, video, dan lintas modal berdasarkan data pelatihan masif dan model pra-terlatih berskala besar. Sejak OpenAI merilis ChatGPT pada tahun 2022, gelombang global AI generatif telah meletus, dan banyak perusahaan teknologi telah meluncurkan model AI generatif, produk, serta infrastruktur dan layanan terkait yang mendasarinya.
Dalam beberapa tahun terakhir, skala data global terus berkembang. IDC memperkirakan bahwa skala data global akan mencapai 175ZB pada tahun 2025, menyediakan sumber daya data yang sangat besar untuk pelatihan model kecerdasan buatan; pengenalan chip AI berperforma tinggi memberikan dukungan daya komputasi yang penting untuk model pra-pelatihan skala besar; Dengan pengembangan berkelanjutan, model seperti Transformer, BERT, LaMDA, dan ChatGPT telah mencapai pengoptimalan berulang yang cepat. Didorong oleh data, daya komputasi, dan model, industri AI generatif global telah berkembang pesat, dan skenario serta aplikasi terkait terus diperkaya.
02 Infrastruktur AI Generatif
2.1 chip performa tinggi AI memberikan dukungan daya komputasi untuk pelatihan AI generatif
Perkembangan kecerdasan buatan telah memasuki era model besar dari era pembelajaran mendalam.Jumlah parameter model pra-pelatihan skala besar telah menunjukkan peningkatan eksponensial, yang membutuhkan dukungan daya komputasi berkinerja tinggi.
Saat ini, kekuatan komputasi pelatihan model pra-pelatihan skala besar adalah 10 hingga 100 kali lipat dari masa lalu. Pelatihan model AI generatif arus utama saat ini banyak menggunakan chip GPU Nvidia Tensor Core. Misalnya, Microsoft menghabiskan ratusan juta dolar untuk membeli puluhan ribu chip Nvidia A100 untuk membantu Open AI membangun ChatGPT.
Cluster komputasi AI dapat menyediakan daya komputasi skala besar, terus meningkatkan penggunaan sumber daya daya komputasi, meningkatkan penyimpanan data dan kemampuan pemrosesan, serta mempercepat pelatihan model besar AI dan efisiensi inferensi.
Saat ini, klaster komputasi AI tipikal seperti Nvidia DGX SuperPOD, Baidu Intelligent Cloud High-Performance Computing Cluster EHC, generasi baru Tencent dari klaster komputasi performa tinggi HCC, dll., infrastruktur daya komputasi terkait terus menyediakan sumber daya daya komputasi yang kuat untuk generatif Skenario pelatihan AI, selanjutnya Kurangi ambang batas dan biaya pelatihan model, dan promosikan penerapan model AI generatif.
Pengembangan model pra-pelatihan kecerdasan buatan memiliki permintaan besar untuk layanan cloud. Layanan cloud AI dapat menyediakan modul pengembangan kecerdasan buatan. Melalui model layanan yang beragam, biaya pengembangan pengembang dan siklus pengembangan produk dapat dikurangi, dan pemberdayaan AI dapat disediakan untuk pengembangan model. .
Kasus tipikal adalah Amazon SageMaker, yang dapat menyediakan analisis gambar/gambar, pemrosesan ucapan, pemahaman bahasa alami, dan layanan terkait lainnya, dan pengguna dapat mewujudkan aplikasi fungsional tanpa mengetahui parameter dan algoritme.
Platform pengembangan AI zero-threshold Baidu Flying Paddle EasyDL menyediakan fungsi seperti klasifikasi gambar, deteksi objek, klasifikasi teks, klasifikasi suara, dan klasifikasi video, mewujudkan pelatihan otomatis satu atap dan menurunkan ambang batas untuk pengembangan kustom AI.
03 Model Algoritma AI Generatif
3.1 Sejarah pengembangan model AI generatif global
Sejak 2018, OpenAI secara berturut-turut merilis serangkaian model pra-pelatihan generatif seperti GPT-1, GPT-2, GPT-3, ChatGPT, dan GPT-4. Model GPT-1 didasarkan pada arsitektur Transformer, dan hanya bagian dekoder dari arsitektur yang dipertahankan;
Model GPT-2 membatalkan tahap fine-tuning yang diawasi di GPT-1;
Model GPT-3 meninggalkan zero-shot dari GPT-2, dan menggunakan beberapa tembakan untuk memberikan sejumlah kecil sampel untuk tugas tertentu; ChatGPT menggunakan teknologi RLHF (human feedback reinforcement learning) untuk meningkatkan kemampuan menyesuaikan output dari model;
Model GPT-4 yang dirilis pada tahun 2023 memiliki kemampuan multimodal yang lebih kuat, mendukung input multimodal grafik dan teks dan menghasilkan teks respons, yang dapat mewujudkan klasifikasi, analisis, dan ekstraksi semantik implisit elemen visual, menunjukkan kemampuan Respons yang sangat baik.
Pada tahun 2017, Google merilis model Transformer yang ikonik. Modul decoding model ini telah menjadi elemen inti dari model GPT. Dengan memperkenalkan mekanisme perhatian, ia dapat mewujudkan komputasi paralel berskala lebih besar, secara signifikan mengurangi waktu pelatihan model, dan membuat model AI skala besar diterapkan. Model BERT dan model LaMDA terus meningkat dalam hal kemampuan dan keamanan ekstraksi informasi.
Model PaLM-E yang baru diluncurkan memiliki kemampuan generalisasi dan migrasi yang kuat, dapat memproses data multi-modal (bahasa, penglihatan, sentuhan, dll.) Fungsi.
Penelitian tentang Model Difusi dapat ditelusuri kembali ke tahun 2015, dan Model Probabilistik Difusi Denoising (DDPM) diusulkan pada tahun 2020, menunjukkan kemampuan yang kuat dari model difusi dan mendorong pengembangan model difusi. Model ini terutama mencakup dua proses: proses maju dan proses mundur Proses maju juga disebut proses difusi Model difusi belajar dengan menambahkan noise Gaussian ke gambar untuk menghancurkan data pelatihan, menemukan metode membalikkan noise memproses, dan menggunakan metode Denoising yang dipelajari memungkinkan sintesis gambar baru dari input acak.
Keuntungan dari model Difusi adalah bahwa gambar yang dihasilkan memiliki kualitas yang lebih tinggi dan tidak memerlukan pelatihan permusuhan, dengan syarat bahwa data yang diperlukan lebih sedikit, efek pembuatan gambar dari model tersebut meningkat secara signifikan.
Aplikasi pembuatan teks terutama dalam empat bidang: kelanjutan konten, transfer gaya teks, pembuatan abstrak / judul, dan seluruh pembuatan teks.Pembuatan teks yang dipersonalisasi terkait dan interaksi teks waktu nyata memiliki prospek yang luas.
Secara umum, pembuatan teks berdasarkan teknologi NLP adalah aplikasi sebelumnya dalam AI generatif.Perusahaan teknologi terkenal di dunia telah meluncurkan alat aplikasi pembuatan teks secara berturut-turut, seperti Microsoft, Xmind dan produk terkait lainnya dalam copywriting, analisis data, presentasi, Ada yang relevan kasus aplikasi dalam pemetaan pikiran dan aspek lainnya.
Skenario teknis pembuatan gambar dibagi menjadi pengeditan atribut gambar, pembuatan dan modifikasi gambar parsial, dan pembuatan gambar end-to-end. Diantaranya, dua skenario pendaratan pertama adalah alat pengeditan gambar, dan pembuatan gambar end-to-end sesuai dengan dua skenario pendaratan utama pembuatan gambar kreatif dan pembuatan gambar fungsional.
Saat ini, alat pengeditan gambar banyak digunakan, dan produk terkait relatif melimpah; pembuatan gambar kreatif sebagian besar disajikan dalam bentuk NFT, dll., dan gambar fungsional sebagian besar adalah poster/antarmuka pemasaran, LOGO, gambar model, dan avatar pengguna .
Pembuatan audio sudah umum dalam kehidupan sehari-hari, dan bidang aplikasinya dapat dibagi lagi menjadi sintesis ucapan dan pembuatan musik, dan sintesis ucapan mencakup bidang pembuatan teks pidato khusus (TTS) dan kloning ucapan.
Kematangan teknis bidang TTS relatif tinggi, tetapi masih ada kekurangan ekspresi emosional; kloning suara sangat penting bagi film, animasi, dan industri lainnya dan patut mendapat perhatian; penciptaan musik dapat dibagi lagi menjadi lirik, komposisi, pengaturan, perekaman, pencampuran, dll. Berbagai arah, proses pembuatan terutama bergantung pada model Transformer.
Pembuatan video diharapkan menjadi skenario potensial menengah ke atas di bidang pembuatan lintas modal di masa mendatang. Pembuatan video terutama terkait dengan tiga bidang: pengeditan atribut video, pengeditan otomatis video, dan pembuatan bagian video.
Pengeditan atribut video telah banyak digunakan di bidang pembuatan video, sangat meningkatkan efisiensi pengeditan video; pengeditan video otomatis terutama dalam tahap uji coba teknis; prinsip dan esensi pembuatan bagian video mirip dengan pembuatan gambar, menekankan pemotongan video ke dalam bingkai, dan kemudian mengedit setiap bingkai.Pengolahan gambar, teknologi pada tahap ini adalah untuk meningkatkan akurasi modifikasi dan modifikasi waktu nyata.
Manusia digital mengacu pada sintesis berbagai karakteristik manusia yang ada di dunia non-fisik (seperti gambar, video, siaran langsung, dan VR). Manusia digital mewakili transisi dari modalitas kepadatan rendah seperti teks/audio ke modalitas kepadatan informasi yang lebih tinggi seperti interaksi gambar/video/waktu nyata.Ke depan, video dan bahkan metaverse akan menjadi skenario aplikasi penting bagi manusia digital.
Di bidang AI generatif, generasi manusia digital dapat dibagi menjadi generasi video manusia digital dan interaksi manusia real-time digital. Generasi video manusia digital saat ini merupakan salah satu bidang yang paling banyak digunakan, sedangkan interaksi manusia digital real-time banyak digunakan dalam layanan pelanggan cerdas visual, dan lebih Penekanan pada fitur interaktif real-time.
05 Peluang dan Tantangan AI Generatif
5.1 Di era AI generatif, pekerjaan administrasi sangat tergantikan, dan "meminta pelanggan" diharapkan menjadi profesi baru
Dampak AI generatif pada pekerjaan Tantangan dan peluang hidup berdampingan. Di satu sisi, AI generatif akan mempromosikan peningkatan pekerjaan yang cerdas, dan beberapa pekerjaan akan diganti. Menurut analisis Goldman Sachs, kemampuan otomasi cerdas dari AI generatif dapat sangat meningkatkan efisiensi kerja dan mengurangi biaya pengoperasian.Pekerjaan tradisional di Amerika Serikat dan Eropa akan dipengaruhi oleh otomasi AI pada berbagai tingkat, dan AI generatif dapat menggantikan seperempat pekerjaan .
Di sisi lain, AI generatif juga akan menciptakan lapangan kerja baru: "Insinyur" memungkinkan orang menggunakan bahasa alami sebagai petunjuk untuk berinteraksi dengan AI untuk mendapatkan informasi atau membuat karya. Selain itu, bidang terkait seputar kecerdasan buatan juga akan menghasilkan banyak pekerjaan baru.
Inti dari AI generatif adalah penerapan pembelajaran mesin. Pada tahap pembelajaran model, pasti akan menggunakan sejumlah besar set data untuk melakukan pelatihan. Namun, masalah kepemilikan hak cipta produk setelah pelatihan masih kontroversial.
Karena subjek hukum dapat menikmati hak, hak cipta karya AI generatif hanya dapat dinikmati oleh mereka yang telah berkontribusi pada pembuatan karya tersebut. Personel terkait termasuk pengembang, pemilik, dan pengguna perangkat lunak (identitas subjek mungkin tumpang tindih). Pengembang perangkat lunak AI telah dikompensasi dari hak cipta perangkat lunak, dan hak cipta karya AI generatif sebagian besar didistribusikan antara pemilik dan pengguna perangkat lunak.