Halusinasi fatal, pengembangan alternatif GPU, model besar masih menghadapi 10 tantangan besar ini

2023-08-28 01:50:24

Peluncuran ChatGPT, GPT-4, dll, mari kita lihat pesona model besar (LLM), disertai dengan berbagai tantangan yang dihadapinya.

Sumber gambar: Dihasilkan oleh AI Tanpa Batas

Bagaimana cara membuat LLM lebih baik? Dalam menghadapi model berukuran besar, masalah apa yang perlu dipecahkan? Ini telah menjadi topik penelitian penting di bidang AI.

Dalam artikel ini, ilmuwan komputer Chip Huyen memulai dari 10 aspek dan menguraikan secara komprehensif tantangan yang dihadapi LLM. Secara khusus, dua aspek pertama adalah tentang halusinasi dan pembelajaran konteks, dan beberapa aspek lainnya termasuk namun tidak terbatas pada multimodalitas, arsitektur, menemukan alternatif GPU, dll.

Alamat asli:

Berikut terjemahan teks aslinya.

1. Cara mengurangi halusinasi

Masalah halusinasi adalah ketika teks yang dihasilkan oleh LLM cair dan alami, tetapi tidak sesuai dengan sumber isinya (masalah intrinsik) dan/atau tidak pasti (masalah ekstrinsik). Masalah ini ada secara luas di LLM.

Oleh karena itu, sangat penting untuk meringankan halusinasi dan mengembangkan indikator untuk mengukur halusinasi, dan banyak perusahaan dan institusi yang memperhatikan masalah ini. Chip Huyen mengatakan bahwa ada banyak cara untuk mengurangi halusinasi pada tahap ini, seperti menambahkan lebih banyak konteks pada perintah, menggunakan rantai pemikiran, atau membuat respons model lebih ringkas.

Materi yang bisa dijadikan referensi antara lain:

Tinjauan penelitian tentang halusinasi pada generasi bahasa alami:
Bagaimana ilusi bahasa memodelkan bola salju:
Evaluasi ChatGPT tentang penalaran, halusinasi dan interaktivitas:
Pembelajaran kontrastif mengurangi halusinasi dalam percakapan:
Konsistensi diri meningkatkan kemampuan penalaran rantai berpikir model bahasa:
Deteksi halusinasi kotak hitam untuk model bahasa besar generatif:

2. Optimalkan panjang konteks dan struktur konteks

Fokus penelitian LLM lainnya adalah panjang konteksnya, karena model yang besar perlu mengacu pada konteks saat menjawab pertanyaan pengguna, dan semakin panjang panjang yang dapat diproses, semakin bermanfaat bagi LLM. Misalnya, kita bertanya kepada ChatGPT "Restoran Vietnam mana yang terbaik?" Menghadapi pertanyaan ini, ChatGPT perlu merujuk pada konteks untuk mengetahui apakah pengguna bertanya tentang restoran Vietnam terbaik di Vietnam atau restoran Vietnam terbaik di Amerika. Serikat.tidak sama.

Pada subbagian ini, Chip Huyen menyajikan beberapa makalah terkait.

Yang pertama adalah "SITUATEDQA: Memasukkan Konteks Ekstra-Linguistik ke dalam QA", kedua penulisnya berasal dari University of Texas di Austin. Makalah ini memperkenalkan kumpulan data QA pengambilan terbuka SITUATEDQA, dan pembaca yang tertarik dapat memeriksanya untuk mempelajari lebih lanjut.

Chip Huyen menyatakan karena model belajar dari konteks yang diberikan, maka proses ini disebut pembelajaran kontekstual.

Makalah kedua adalah "Retri-Augmented Generation for Knowledge-Intensive NLP Tasks". Makalah ini mengusulkan RAG (Retri-Augmented Generation), yang dapat menggabungkan model bahasa terlatih dan pengetahuan eksternal untuk mewujudkan jawaban pertanyaan generatif domain terbuka dan pengetahuan lainnya Tugas intensif.

Proses operasi RGA dibagi menjadi dua fase: fase chunking (juga dikenal sebagai pengambilan) dan fase kueri:

Banyak orang berpendapat, berdasarkan penelitian ini, semakin panjang konteksnya, semakin banyak informasi yang dimasukkan oleh model dan semakin baik responsnya. Chip Huyen menilai pernyataan tersebut tidak sepenuhnya benar.

Seberapa banyak konteks yang dapat digunakan suatu model dan seberapa efisien suatu model menggunakan konteks adalah dua pertanyaan yang sangat berbeda. Yang harus kita lakukan adalah meningkatkan efisiensi konteks pemrosesan model secara paralel sekaligus menambah panjang konteks model. Misalnya, dalam makalah "Hilang di Tengah: Bagaimana Model Bahasa Menggunakan Konteks Panjang", makalah tersebut menjelaskan bagaimana model dapat lebih memahami informasi di awal dan akhir indeks, dibandingkan informasi di tengah.

3. Multimoda

Chip Huyen percaya bahwa multimodalitas sangat penting.

Pertama, domain termasuk layanan kesehatan, robotika, e-commerce, ritel, game, hiburan, dll. memerlukan data multimoda. Misalnya, prediksi medis memerlukan konten teks seperti catatan dokter dan kuesioner pasien, serta informasi gambar seperti CT scan, X-ray, dan MRI.

Kedua, multimodalitas menjanjikan peningkatan performa model secara signifikan, dengan model yang dapat memahami teks dan gambar memiliki performa lebih baik dibandingkan model yang hanya dapat memahami teks. Namun model berbasis teks sangat menuntut teks sehingga orang mulai khawatir bahwa kita akan segera kehabisan data Internet untuk melatih model. Setelah teksnya habis, kita perlu mempertimbangkan modalitas data lainnya.

Diagram Arsitektur Flamingo

Mengenai multimodalitas, Anda dapat merujuk pada konten berikut:

论文 1《Mempelajari Model Visual yang Dapat Dipindahtangankan Dari Pengawasan Bahasa Alami》：
论文 2《Flamingo: Model Bahasa Visual untuk Pembelajaran Sedikit Sekali》：
论文 3《BLIP-2: Pra-pelatihan Bootstrapping Bahasa-Gambar dengan Frozen Image Encoder dan Model Bahasa Besar》： *论文 4《Bukan Hanya Bahasa yang Anda Butuhkan: Menyelaraskan Persepsi dengan Model Bahasa》：
Makalah 5 "Penyetelan Instruksi Visual":
Google PaLM-E:
NVIDIA NeVA:

4. Jadikan LLM lebih cepat dan lebih murah

GPT-3.5 pertama kali dirilis pada akhir November 2022, dan banyak orang khawatir akan tingginya biaya penggunaan. Namun, hanya dalam waktu setengah tahun, komunitas telah menemukan model yang mendekati GPT-3.5 dalam hal performa, dan jejak memori yang dibutuhkan hanya 2% dari GPT-3.5.

Chip Huyen berkata jika Anda menciptakan sesuatu yang cukup baik, orang akan segera menemukan cara untuk membuatnya dengan cepat dan murah.

Berikut perbandingan performa Guanaco 7B dengan model seperti ChatGPT dan GPT-4. Namun perlu kami tekankan bahwa sangat sulit untuk mengevaluasi LLM.

Kemudian, Chip Huyen mencantumkan teknik optimasi dan kompresi model:

Kuantifikasi: Metode paling umum untuk pengoptimalan model hingga saat ini. Kuantisasi menggunakan lebih sedikit bit untuk mewakili parameter, sehingga mengurangi ukuran model. Misalnya, seseorang mengubah angka floating-point 32-bit menjadi 16-bit, atau bahkan representasi floating-point 4-bit;
Penyulingan Pengetahuan: Suatu metode melatih model kecil (siswa) untuk meniru model yang lebih besar atau kumpulan model (guru);
Dekomposisi peringkat rendah: Ide utamanya adalah mengganti tensor berdimensi tinggi dengan tensor berdimensi rendah untuk mengurangi jumlah parameter. Misalnya, pengguna dapat menguraikan tensor 3x3 menjadi produk tensor 3x1 dan 1x3, sehingga hanya terdapat 6 parameter, bukan 9;
Pemangkasan.

Keempat metode di atas masih populer, seperti melatih Alpaca dengan penyulingan pengetahuan, dan QLoRA yang menggabungkan dekomposisi dan kuantisasi tingkat rendah.

5. Rancang arsitektur model baru

Sejak AlexNet dirilis pada tahun 2012, banyak arsitektur termasuk LSTM, seq2seq menjadi populer dan kemudian menjadi usang. Berbeda dengan itu, Transformer sangat lengket. Sudah ada sejak tahun 2017 dan masih banyak digunakan hingga saat ini. Sulit diperkirakan berapa lama arsitektur ini akan populer.

Namun, tidak mudah untuk mengembangkan arsitektur yang benar-benar baru untuk mengungguli Transformer. Dalam 6 tahun terakhir, para peneliti telah melakukan banyak optimasi pada Transformer. Selain arsitektur model, juga mencakup optimasi di tingkat perangkat keras.

Laboratorium yang dipimpin oleh ilmuwan komputer Amerika Chris Ré telah melakukan banyak penelitian seputar S4 pada tahun 2021. Untuk informasi lebih lanjut, silakan merujuk ke makalah "Pemodelan Urutan Panjang yang Efisien dengan Ruang Keadaan Terstruktur". Selain itu, laboratorium Chris Ré telah banyak berinvestasi dalam pengembangan arsitektur baru, dan mereka baru-baru ini bermitra dengan startup Together untuk mengembangkan arsitektur Monarch Mixer.

Ide utama mereka adalah bahwa untuk arsitektur Transformer yang ada, kompleksitas yang diperhatikan adalah kuadrat dari panjang urutan, sedangkan kompleksitas MLP adalah kuadrat dari dimensi model, dan arsitektur dengan kompleksitas rendah akan lebih efisien.

6. Mengembangkan alternatif GPU

GPU telah mendominasi pembelajaran mendalam sejak AlexNet dirilis pada tahun 2012. Faktanya, salah satu alasan popularitas AlexNet adalah karena ini adalah makalah pertama yang berhasil melatih jaringan saraf menggunakan GPU. Sebelum munculnya GPU, jika Anda ingin melatih model seukuran AlexNet, Anda harus menggunakan ribuan CPU, dan beberapa GPU dapat melakukannya.

Selama dekade terakhir, baik perusahaan besar maupun startup telah berupaya menciptakan perangkat keras baru untuk kecerdasan buatan. Yang paling representatif termasuk namun tidak terbatas pada TPU Google, IPU Graphcore, dan perusahaan chip AI Cerebras. Selain itu, startup chip AI SambaNova mengumpulkan lebih dari $1 miliar untuk mengembangkan chip AI baru.

Arah menarik lainnya adalah chip fotonik, yang menggunakan foton untuk memindahkan data, memungkinkan komputasi lebih cepat dan efisien. Beberapa startup di bidang ini telah mengumpulkan ratusan juta dolar, termasuk Lightmatter ($270 juta), Ayar Labs ($220 juta), Lightelligence ($200 juta+), dan Luminous Compute ($115 juta).

Berikut ini adalah garis waktu kemajuan tiga pendekatan utama dalam komputasi matriks fotonik, yang diambil dari makalah "Perkalian matriks fotonik menyalakan akselerator fotonik dan seterusnya". Ketiga metode tersebut adalah konversi cahaya planar (PLC), interferometer Mach-Zehnder (MZI) dan multiplexing pembagian panjang gelombang (WDM).

7. Jadikan agen lebih bermanfaat

Agen adalah LLM yang dapat melakukan tindakan seperti browsing internet, mengirim email, memesan kamar, dll. Dibandingkan dengan arahan penelitian lain dalam artikel ini, arahan ini muncul relatif terlambat dan sangat baru bagi semua orang.

Karena kebaruan dan potensinya yang besar, setiap orang memiliki obsesi gila terhadap agen cerdas. Auto-GPT saat ini merupakan proyek terpopuler ke-25 di GitHub. GPT-Engineering adalah proyek lain yang sangat populer.

Meskipun hal ini diharapkan dan menarik, masih diragukan apakah LLM akan cukup andal dan berkinerja cukup untuk diberi hak untuk bertindak.

Namun, kasus penerapan yang sudah muncul adalah dengan menerapkan agen pada penelitian sosial. Beberapa waktu yang lalu, Stanford membuka sumber "kota virtual" Smallville. 25 agen AI tinggal di kota tersebut. Mereka memiliki pekerjaan, dapat bergosip, dan dapat mengatur kegiatan sosial. kegiatan., mencari teman baru, dan bahkan mengadakan pesta Hari Valentine, setiap Penghuni Kota memiliki kepribadian dan latar belakang yang unik.

Untuk lebih jelasnya, silakan merujuk pada makalah berikut.

Alamat kertas:

Mungkin startup paling terkenal di bidang ini adalah Adept, yang didirikan oleh dua penulis Transformer dan mantan VP OpenAI, dan hingga saat ini telah mengumpulkan hampir $500 juta. Tahun lalu, mereka melakukan demo yang menunjukkan bagaimana agen mereka dapat menjelajahi internet dan menambahkan akun baru ke Salesforce.

, durasi 03:30

8. Peningkatan Pembelajaran dari Preferensi Manusia

RLHF adalah singkatan Pembelajaran Penguatan dari Preferensi Manusia. Tidak mengherankan jika orang mencari cara lain untuk melatih LLM, lagipula RLHF masih memiliki banyak masalah yang harus diselesaikan. Chip Huyen mencatat 3 poin berikut.

**Bagaimana cara merepresentasikan preferensi manusia secara matematis? **

Saat ini, preferensi manusia ditentukan oleh perbandingan: anotator manusia menentukan apakah respons A lebih baik daripada respons B, namun tidak mempertimbangkan seberapa baik respons A dibandingkan respons B.

**Apa preferensi manusia? **

Anthropic mengukur kualitas respons model mereka berdasarkan tiga sumbu, kegunaan, kejujuran, dan kepolosan.

Alamat kertas:

DeepMind juga mencoba menghasilkan tanggapan yang memuaskan mayoritas. Lihat makalah ini di bawah.

Alamat kertas:

Namun untuk lebih jelasnya, apakah kita menginginkan AI yang mampu mengambil sikap, atau AI generik yang menghindari topik yang berpotensi kontroversial?

**Preferensi siapa yang merupakan preferensi "orang"? **

Mengingat perbedaan budaya, agama, dll., terdapat banyak tantangan dalam memperoleh data pelatihan yang cukup mewakili semua calon pengguna.

Misalnya, dalam data InstructGPT OpenAI, pelabelnya sebagian besar adalah orang Filipina dan Bangladesh, yang mungkin menyebabkan beberapa penyimpangan karena perbedaan geografis.

Sumber:

Komunitas riset juga sedang berupaya melakukan hal ini, namun bias data masih ada. Misalnya, dalam distribusi demografi kumpulan data OpenAssistant, 201 dari 222 responden (90,5%) adalah laki-laki.

9. Meningkatkan efisiensi antarmuka obrolan

Sejak ChatGPT, banyak diskusi tentang apakah chat cocok untuk berbagai tugas. Misalnya diskusi ini:

Bahasa alami adalah UI yang malas
Mengapa chatbots bukan masa depan:
Jenis pertanyaan apa yang memerlukan dialog untuk dijawab?
Antarmuka obrolan AI dapat menjadi antarmuka pengguna utama untuk membaca dokumentasi:
Berinteraksi dengan LLM dengan obrolan minimal:

Namun diskusi ini bukanlah hal baru. Banyak negara, terutama di Asia, telah menggunakan obrolan sebagai antarmuka super app selama sekitar satu dekade.

*Chat sebagai antarmuka umum untuk aplikasi berbahasa Mandarin

Pada tahun 2016, ketika banyak orang berpikir bahwa aplikasi sudah mati dan chatbots adalah masa depan, diskusi kembali menjadi tegang:

Tentang antarmuka obrolan:
Apakah tren chatbot merupakan kesalahpahaman besar:
Bot tidak akan menggantikan aplikasi, aplikasi yang lebih baik akan:

Chip Huyen mengatakan bahwa dia sangat menyukai antarmuka obrolan karena alasan berikut:

Obrolan adalah antarmuka yang dapat dipelajari dengan cepat oleh semua orang, bahkan mereka yang belum pernah memiliki akses ke komputer atau Internet sebelumnya.
Tidak ada kendala dalam antarmuka obrolan, bahkan saat Anda sedang terburu-buru, Anda dapat menggunakan suara sebagai pengganti teks.
Obrolan juga merupakan antarmuka yang sangat kuat, Anda dapat mengajukan permintaan apa pun padanya, meskipun balasannya tidak bagus, ia akan membalas.

Namun, menurut Chip Huyen, antarmuka obrolan masih menyisakan ruang untuk perbaikan di beberapa area. Dia memiliki saran berikut

Banyak pesan per putaran

Saat ini, diperkirakan hanya satu pesan yang dapat dikirim per putaran. Tapi itu bukan cara orang mengirim pesan dalam kehidupan nyata. Biasanya, beberapa informasi diperlukan untuk melengkapi ide seseorang, karena data yang berbeda (seperti gambar, lokasi, tautan) perlu dimasukkan dalam proses, dan pengguna mungkin melewatkan sesuatu dalam informasi sebelumnya, atau tidak. ingin memasukkan semuanya Tulis dalam paragraf panjang.

Masukan multimoda

Dalam bidang aplikasi multimodal, sebagian besar upaya dihabiskan untuk membangun model yang lebih baik, dan hanya sedikit yang dihabiskan untuk membangun antarmuka yang lebih baik. Dalam kasus chatbot NeVA Nvidia, mungkin ada ruang untuk meningkatkan pengalaman pengguna.

alamat:

Memasukkan AI Generatif ke dalam Alur Kerja

Linus Lee mengartikulasikan hal ini dengan baik dalam ceramahnya "antarmuka yang dihasilkan AI di luar obrolan". Misalnya, jika Anda ingin mengajukan pertanyaan tentang kolom dalam bagan yang sedang Anda kerjakan, Anda cukup menunjuk ke kolom tersebut dan bertanya.

Alamat video:

Mengedit dan menghapus informasi

Penting untuk memikirkan bagaimana mengedit atau menghapus masukan pengguna dapat mengubah alur percakapan dengan chatbot.

10. Membangun LLM untuk bahasa non-Inggris

LLM saat ini untuk bahasa Inggris sebagai bahasa pertama tidak dapat dibandingkan dengan bahasa lain dalam hal kinerja, latensi, dan kecepatan. Konten terkait dapat membaca artikel berikut:

Alamat kertas:

Alamat artikel:

Chip Huyen mengatakan bahwa beberapa pembaca awal artikel ini mengatakan kepadanya bahwa menurut mereka arah ini tidak boleh dimasukkan karena dua alasan.

Ini bukanlah pertanyaan penelitian melainkan pertanyaan logistik. Kita sudah tahu bagaimana melakukannya, hanya perlu seseorang untuk menginvestasikan uang dan energi, dan hal ini tidak sepenuhnya benar. Sebagian besar bahasa dianggap sebagai bahasa dengan sumber daya rendah, misalnya, memiliki data berkualitas tinggi yang jauh lebih sedikit dibandingkan bahasa Inggris atau Cina, sehingga mungkin memerlukan teknik berbeda untuk melatih model bahasa besar. Lihat artikel berikut:

Alamat kertas:

Orang yang pesimis berpikir bahwa banyak bahasa akan punah di masa depan, dan Internet di masa depan akan terdiri dari dua bahasa: Inggris dan Cina.

Dampak alat AI, seperti terjemahan mesin dan chatbot, terhadap pembelajaran bahasa masih belum jelas. Apakah mereka membantu orang mempelajari bahasa baru dengan lebih cepat, atau menghilangkan kebutuhan untuk mempelajari bahasa baru sepenuhnya, masih belum diketahui.

Meringkaskan

Masalah-masalah yang disebutkan dalam makalah ini juga memiliki tingkat kesulitan yang berbeda-beda, seperti masalah terakhir, jika Anda dapat menemukan sumber daya dan waktu yang cukup, maka dimungkinkan untuk membangun LLM untuk bahasa non-Inggris.

Salah satu masalah pertama adalah mengurangi halusinasi, yang akan jauh lebih sulit, karena halusinasi hanyalah LLM yang melakukan hal-hal yang bersifat probabilistik.

Masalah keempat adalah menjadikan LLM lebih cepat dan lebih murah, dan ini tidak akan terselesaikan sepenuhnya. Beberapa kemajuan telah dicapai dalam bidang ini, dan akan ada lebih banyak kemajuan di masa depan, namun kita tidak akan pernah mencapai kesempurnaan.

Masalah kelima dan keenam adalah arsitektur baru dan perangkat keras baru, yang sangat menantang, namun tidak dapat dihindari seiring berjalannya waktu. Karena hubungan simbiosis antara arsitektur dan perangkat keras, dimana arsitektur baru perlu dioptimalkan untuk perangkat keras tujuan umum, dan perangkat keras perlu mendukung arsitektur tujuan umum, masalah ini berpotensi diselesaikan oleh perusahaan yang sama.

Ada juga permasalahan yang tidak dapat diselesaikan hanya dengan pengetahuan teknis. Misalnya, permasalahan kedelapan dalam meningkatkan metode pembelajaran berdasarkan preferensi manusia mungkin lebih merupakan permasalahan kebijakan dibandingkan permasalahan teknis. Berbicara tentang pertanyaan kesembilan, meningkatkan efisiensi antarmuka, ini lebih seperti masalah pengalaman pengguna, dan diperlukan lebih banyak orang dengan latar belakang non-teknis untuk menyelesaikan masalah ini bersama-sama.

Jika Anda ingin melihat masalah ini dari sudut lain, Chip Huyen merekomendasikan untuk membaca makalah berikut.

Alamat kertas:

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

1 Suka

Hadiah
1
Komentar
Posting ulang
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
#Gate & WLFI USD1 Points Program
40k Popularitas
#Trump Allows 401(k) Crypto Investing
15k Popularitas
#Join Copy Trading Share to Win $2,000
10k Popularitas
#Show My Alpha Points
76k Popularitas
#SOL Futures Reach New High
22k Popularitas

Sematkan

peta situs