ภาพหลอนร้ายแรง การพัฒนาทางเลือก GPU รุ่นใหญ่ยังคงเผชิญกับความท้าทายหลัก 10 ประการนี้

2023-08-28 01:50:24

การเปิดตัว ChatGPT, GPT-4 ฯลฯ เราจะได้เห็นเสน่ห์ของโมเดลขนาดใหญ่ (LLM) ที่มาพร้อมกับความท้าทายต่างๆ ที่โมเดลต้องเผชิญ

แหล่งที่มาของรูปภาพ: สร้างโดย Unbounded AI

จะทำให้ LLM ดีขึ้นได้อย่างไร? เผชิญปัญหารุ่นใหญ่ต้องแก้ไขอะไรบ้าง? กลายเป็นหัวข้อวิจัยที่สำคัญในสาขา AI

ในบทความนี้ Chip Huyen นักวิทยาศาสตร์คอมพิวเตอร์เริ่มต้นจาก 10 แง่มุมและอธิบายความท้าทายที่ LLM เผชิญอย่างครอบคลุม โดยเฉพาะอย่างยิ่ง สองประเด็นแรกนั้นเกี่ยวกับภาพหลอนและการเรียนรู้บริบท และแง่มุมอื่นๆ อีกหลายแง่มุม รวมถึงแต่ไม่จำกัดเพียงความหลากหลายทางสถาปัตยกรรม การค้นหาทางเลือก GPU เป็นต้น

ที่อยู่เดิม:

ต่อไปนี้เป็นการแปลข้อความต้นฉบับ

1. วิธีลดอาการประสาทหลอน

ปัญหาประสาทหลอนคือเมื่อข้อความที่สร้างโดย LLM มีความลื่นไหลและเป็นธรรมชาติ แต่ไม่ตรงตามแหล่งที่มาของเนื้อหา (ปัญหาภายใน) และ/หรือไม่แน่นอน (ปัญหาภายนอก) ปัญหานี้มีอยู่อย่างกว้างขวางใน LLM

ดังนั้นจึงเป็นเรื่องสำคัญมากที่จะต้องบรรเทาอาการประสาทหลอนและพัฒนาตัวชี้วัดเพื่อวัดอาการประสาทหลอน และบริษัทและสถาบันหลายแห่งกำลังให้ความสนใจกับปัญหานี้ Chip Huyen กล่าวว่ามีหลายวิธีในการลดอาการประสาทหลอนในระยะนี้ เช่น การเพิ่มบริบทให้กับข้อความ การใช้สายความคิด หรือทำให้การตอบสนองของแบบจำลองมีความกระชับมากขึ้น

วัสดุที่สามารถอ้างอิงได้ ได้แก่ :

การทบทวนงานวิจัยเกี่ยวกับภาพหลอนในการสร้างภาษาธรรมชาติ:
ภาพลวงตาของแบบจำลองภาษาสโนว์บอลเป็นอย่างไร:
การประเมิน ChatGPT ในด้านการให้เหตุผล ภาพหลอน และการโต้ตอบ:
การเรียนรู้แบบตรงกันข้ามช่วยลดภาพหลอนในการสนทนา:
ความสอดคล้องในตนเองช่วยเพิ่มความสามารถในการให้เหตุผลห่วงโซ่การคิดของแบบจำลองภาษา:
การตรวจจับภาพหลอนแบบกล่องดำสำหรับโมเดลภาษาขนาดใหญ่ที่สร้างขึ้น:

2. ปรับความยาวบริบทและโครงสร้างบริบทให้เหมาะสม

การวิจัยที่มุ่งเน้นอีกประการหนึ่งของ LLM คือความยาวของบริบท เนื่องจากโมเดลขนาดใหญ่จำเป็นต้องอ้างอิงถึงบริบทเมื่อตอบคำถามของผู้ใช้ และยิ่งความยาวที่สามารถประมวลผลได้มากเท่าไรก็ยิ่งมีประโยชน์สำหรับ LLM มากขึ้นเท่านั้น ตัวอย่างเช่น เราถาม ChatGPT ว่า "ร้านอาหารเวียดนามร้านไหนดีที่สุด" เมื่อต้องเผชิญกับคำถามนี้ ChatGPT จำเป็นต้องอ้างอิงบริบทเพื่อดูว่าผู้ใช้ถามเกี่ยวกับร้านอาหารเวียดนามที่ดีที่สุดในเวียดนามหรือร้านอาหารเวียดนามที่ดีที่สุดใน United รัฐ.ไม่เหมือนกัน.

ภายใต้ส่วนย่อยนี้ Chip Huyen นำเสนอเอกสารที่เกี่ยวข้องหลายฉบับ

เรื่องแรกคือ "SITUATEDQA: Incorporating Extra-Linguistic Contexts into QA" ผู้เขียนทั้งสองคนมาจากมหาวิทยาลัยเท็กซัสที่ออสติน บทความนี้จะแนะนำชุดข้อมูล QA แบบดึงข้อมูลแบบเปิด SITUATEDQA และผู้อ่านที่สนใจสามารถตรวจสอบเพื่อเรียนรู้เพิ่มเติมได้

Chip Huyen กล่าวว่าเนื่องจากโมเดลเรียนรู้จากบริบทที่ให้มา กระบวนการนี้จึงเรียกว่าการเรียนรู้ตามบริบท

บทความที่สองคือ "Retri-Augmented Generation สำหรับงาน NLP ที่เน้นความรู้" บทความนี้เสนอ RAG (Retri-Augmented Generation) ซึ่งสามารถรวมแบบจำลองภาษาที่ได้รับการฝึกอบรมล่วงหน้าและความรู้ภายนอกเพื่อให้ทราบถึงการตอบคำถามที่สร้างโดเมนแบบเปิดและความรู้อื่นๆ งานที่เข้มข้น

กระบวนการดำเนินการ RGA แบ่งออกเป็นสองขั้นตอน: ขั้นตอนการเป็นก้อน (หรือที่เรียกว่าการดึงข้อมูล) และขั้นตอนการสืบค้น:

จากการวิจัยนี้ หลายๆ คนคิดว่า ยิ่งบริบทยาวเท่าใด โมเดลก็จะยิ่งอัดแน่นไปด้วยข้อมูลมากขึ้นและการตอบสนองก็จะดีขึ้นเท่านั้น Chip Huyen คิดว่าข้อความนี้ไม่เป็นความจริงทั้งหมด

โมเดลสามารถใช้บริบทได้มากเพียงใดและโมเดลใช้บริบทได้อย่างมีประสิทธิภาพเพียงใดเป็นคำถามสองข้อที่แตกต่างกันโดยสิ้นเชิง สิ่งที่เราต้องทำคือการเพิ่มประสิทธิภาพของบริบทการประมวลผลโมเดลแบบขนานในขณะที่เพิ่มความยาวของบริบทของโมเดล ตัวอย่างเช่น ในรายงาน "Lost in the Middle: How Language Models Use Long Contexts" บทความจะอธิบายว่าโมเดลสามารถเข้าใจข้อมูลที่จุดเริ่มต้นและจุดสิ้นสุดของดัชนีได้ดีขึ้น แทนที่จะเป็นข้อมูลตรงกลาง

3. ต่อเนื่องหลายรูปแบบ

Chip Huyen เชื่อว่าความหลากหลายรูปแบบมีความสำคัญมาก

ประการแรก โดเมนต่างๆ รวมถึงการดูแลสุขภาพ หุ่นยนต์ อีคอมเมิร์ซ การค้าปลีก เกม ความบันเทิง ฯลฯ จำเป็นต้องมีข้อมูลหลายรูปแบบ ตัวอย่างเช่น การทำนายทางการแพทย์จำเป็นต้องมีเนื้อหาข้อความ เช่น บันทึกของแพทย์ และแบบสอบถามของผู้ป่วย ตลอดจนข้อมูลรูปภาพ เช่น การสแกน CT, X-ray และ MRI

ประการที่สอง ความหลากหลายหลายรูปแบบสัญญาว่าจะปรับปรุงประสิทธิภาพของโมเดลอย่างมาก โดยโมเดลที่สามารถเข้าใจทั้งข้อความและรูปภาพทำงานได้ดีกว่าโมเดลที่สามารถเข้าใจเพียงข้อความเท่านั้น แต่โมเดลแบบข้อความมีความต้องการข้อความมากจนผู้คนเริ่มกังวลว่าข้อมูลอินเทอร์เน็ตจะหมดในเร็วๆ นี้เพื่อฝึกโมเดล เมื่อข้อความหมดลงแล้ว เราจำเป็นต้องพิจารณารูปแบบข้อมูลอื่นๆ

แผนผังสถาปัตยกรรมฟลามิงโก

เกี่ยวกับ multimodality คุณสามารถอ้างถึงเนื้อหาต่อไปนี้:

论文 1《การเรียนรู้แบบจำลองภาพที่สามารถถ่ายทอดได้จากการควบคุมดูแลภาษาธรรมชาติ》：
论文 2《ฟลามิงโก: โมเดลภาษาภาพสำหรับการเรียนรู้แบบไม่กี่ช็อต》：
论文 3 《 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders และ Large Language Models 》：
论文 4《ภาษาไม่ใช่สิ่งที่คุณต้องการ: การรับรู้ให้สอดคล้องกับรูปแบบภาษา》：
เอกสาร 5 "การปรับแต่งคำสั่งด้วยภาพ":
Google PaLM-E:
NVIDIA เนวา:

4. ทำให้ LLM เร็วขึ้นและถูกลง

GPT-3.5 เปิดตัวครั้งแรกในช่วงปลายเดือนพฤศจิกายน 2022 และหลายคนกังวลเรื่องต้นทุนการใช้งานที่สูง อย่างไรก็ตาม ในเวลาเพียงครึ่งปี ชุมชนได้พบโมเดลที่ใกล้เคียงกับ GPT-3.5 ในแง่ของประสิทธิภาพ และขนาดหน่วยความจำที่ต้องการคือเพียง 2% ของ GPT-3.5

Chip Huyen กล่าวว่าหากคุณสร้างสิ่งที่ดีพอ ผู้คนจะพบวิธีทำให้มันรวดเร็วและราคาถูกในไม่ช้า

ต่อไปนี้คือการเปรียบเทียบประสิทธิภาพของ Guanaco 7B กับรุ่นต่างๆ เช่น ChatGPT และ GPT-4 แต่เราต้องเน้นย้ำว่าการประเมิน LLM นั้นยากมาก

จากนั้น Chip Huyen ก็ได้แสดงรายการการปรับแต่งโมเดลและเทคนิคการบีบอัด:

การหาปริมาณ: วิธีการทั่วไปที่สุดในการปรับโมเดลให้เหมาะสมที่สุดจนถึงปัจจุบัน การหาปริมาณใช้บิตน้อยลงในการแสดงพารามิเตอร์ ซึ่งจะช่วยลดขนาดของโมเดล ตัวอย่างเช่น มีคนเปลี่ยนตัวเลขทศนิยม 32 บิตเป็น 16 บิต หรือแม้แต่การแสดงค่าทศนิยม 4 บิต
การกลั่นกรองความรู้: วิธีการฝึกอบรมโมเดลขนาดเล็ก (นักเรียน) ให้เลียนแบบโมเดลขนาดใหญ่หรือชุดโมเดล (ครู)
การสลายตัวระดับต่ำ: แนวคิดหลักคือการแทนที่เทนเซอร์มิติสูงด้วยเทนเซอร์มิติต่ำเพื่อลดจำนวนพารามิเตอร์ ตัวอย่างเช่น ผู้ใช้สามารถแยกย่อยเทนเซอร์ 3x3 ให้เป็นผลิตภัณฑ์ของเทนเซอร์ 3x1 และ 1x3 เพื่อให้มีเพียง 6 พารามิเตอร์แทนที่จะเป็น 9;
การตัดแต่งกิ่ง

วิธีการทั้งสี่ข้างต้นยังคงได้รับความนิยม เช่น การฝึกอัลปาก้าด้วยการกลั่นความรู้ และ QLoRA ผสมผสานการสลายตัวและการหาปริมาณระดับต่ำ

5. ออกแบบสถาปัตยกรรมโมเดลใหม่

นับตั้งแต่เปิดตัว AlexNet ในปี 2012 สถาปัตยกรรมจำนวนมากรวมถึง LSTM, seq2seq ก็ได้รับความนิยมและล้าสมัยไป ต่างจากเรื่องนั้น Transformer มีความเหนียวอย่างไม่น่าเชื่อ มีมาตั้งแต่ปี 2560 และยังคงใช้กันอย่างแพร่หลายจนถึงปัจจุบัน สถาปัตยกรรมนี้จะได้รับความนิยมได้นานแค่ไหนนั้นยากที่จะประมาณได้

อย่างไรก็ตาม มันไม่ง่ายเลยที่จะพัฒนาสถาปัตยกรรมใหม่ทั้งหมดเพื่อให้เหนือกว่า Transformer ในช่วง 6 ปีที่ผ่านมา นักวิจัยได้ทำการปรับปรุง Transformer มากมาย นอกจากสถาปัตยกรรมโมเดลแล้ว ยังรวมถึงการเพิ่มประสิทธิภาพในระดับฮาร์ดแวร์ด้วย

ห้องปฏิบัติการที่นำโดยนักวิทยาศาสตร์คอมพิวเตอร์ชาวอเมริกัน Chris Ré ได้ทำการวิจัยมากมายเกี่ยวกับ S4 ในปี 2021 สำหรับข้อมูลเพิ่มเติม โปรดดูบทความ "การสร้างแบบจำลองลำดับยาวอย่างมีประสิทธิภาพด้วยช่องว่างสถานะที่มีโครงสร้าง" นอกจากนี้ ห้องปฏิบัติการ Chris Ré ได้ลงทุนอย่างมากในการพัฒนาสถาปัตยกรรมใหม่ๆ และเมื่อเร็วๆ นี้พวกเขาได้ร่วมมือกับสตาร์ทอัพ Together เพื่อพัฒนาสถาปัตยกรรม Monarch Mixer

แนวคิดหลักของพวกเขาคือสำหรับสถาปัตยกรรม Transformer ที่มีอยู่ ความซับซ้อนของความสนใจคือกำลังสองของความยาวลำดับ ในขณะที่ความซับซ้อนของ MLP คือกำลังสองของมิติแบบจำลอง และสถาปัตยกรรมที่มีความซับซ้อนต่ำจะมีประสิทธิภาพมากกว่า

6. พัฒนาทางเลือก GPU

GPU ครอบงำการเรียนรู้เชิงลึกนับตั้งแต่เปิดตัว AlexNet ในปี 2012 ในความเป็นจริง เหตุผลที่ยอมรับกันดีประการหนึ่งที่ทำให้ AlexNet ได้รับความนิยมก็คือ นี่เป็นรายงานฉบับแรกที่ประสบความสำเร็จในการฝึกโครงข่ายประสาทเทียมโดยใช้ GPU ก่อนการเกิดขึ้นของ GPU หากคุณต้องการฝึกโมเดลขนาด AlexNet คุณต้องใช้ CPU หลายพันตัว และ GPU เพียงไม่กี่ตัวก็สามารถทำได้

ในช่วงทศวรรษที่ผ่านมา ทั้งองค์กรขนาดใหญ่และบริษัทสตาร์ทอัพต่างก็พยายามสร้างฮาร์ดแวร์ใหม่สำหรับปัญญาประดิษฐ์ ตัวแทนส่วนใหญ่รวมถึงแต่ไม่จำกัดเพียง TPU ของ Google, IPU ของ Graphcore และ Cerebras บริษัทชิป AI นอกจากนี้ SambaNova สตาร์ทอัพด้านชิป AI ยังระดมทุนได้มากกว่า 1 พันล้านดอลลาร์เพื่อพัฒนาชิป AI ใหม่

ทิศทางที่น่าตื่นเต้นอีกประการหนึ่งคือชิปโฟโตนิกซึ่งใช้โฟตอนเพื่อย้ายข้อมูลไปรอบๆ ทำให้สามารถคำนวณได้เร็วและมีประสิทธิภาพยิ่งขึ้น บริษัทสตาร์ทอัพหลายแห่งในพื้นที่นี้สามารถระดมทุนได้หลายร้อยล้านดอลลาร์ รวมถึง Lightmatter (270 ล้านดอลลาร์), Ayar Labs (220 ล้านดอลลาร์), Lightelligence (200 ล้านดอลลาร์ขึ้นไป) และ Luminous Compute (115 ล้านดอลลาร์)

ต่อไปนี้เป็นลำดับเวลาของความคืบหน้าของแนวทางหลักสามประการในการคำนวณเมทริกซ์โฟโตนิก ซึ่งนำมาจากรายงาน "การคูณเมทริกซ์โฟโตนิกจะส่องสว่างตัวเร่งโฟโตนิกและอื่น ๆ " ทั้งสามวิธี ได้แก่ การแปลงแสงระนาบ (PLC), อินเตอร์เฟอโรมิเตอร์ Mach-Zehnder (MZI) และมัลติเพล็กซ์การแบ่งความยาวคลื่น (WDM)

7. ทำให้ตัวแทนใช้งานได้มากขึ้น

ตัวแทนคือ LLM ที่สามารถดำเนินการต่างๆ เช่น ท่องอินเทอร์เน็ต ส่งอีเมล จองห้องพัก ฯลฯ เมื่อเทียบกับทิศทางการวิจัยอื่น ๆ ในบทความนี้ แนวทางนี้ปรากฏค่อนข้างช้าและใหม่มากสำหรับทุกคน

เป็นเพราะความแปลกใหม่และศักยภาพที่ยอดเยี่ยมที่ทำให้ทุกคนหลงใหลในตัวแทนที่ชาญฉลาดอย่างบ้าคลั่ง ปัจจุบัน Auto-GPT เป็นโครงการที่ได้รับความนิยมสูงสุดอันดับที่ 25 บน GitHub GPT-Engineering เป็นอีกหนึ่งโครงการที่ได้รับความนิยมมาก

แม้ว่าสิ่งนี้จะเป็นที่คาดหวังและน่าตื่นเต้น แต่ก็ยังคงเป็นที่น่าสงสัยว่า LLM จะมีความน่าเชื่อถือเพียงพอและมีประสิทธิภาพเพียงพอที่จะได้รับสิทธิ์ในการดำเนินการหรือไม่

อย่างไรก็ตาม กรณีการสมัครที่ปรากฏอยู่แล้วคือการใช้ตัวแทนในการวิจัยทางสังคม เมื่อไม่นานมานี้ Stanford ได้เปิดซอร์ส "เมืองเสมือนจริง" Smallville มีเจ้าหน้าที่ AI 25 คนอาศัยอยู่ในเมือง พวกเขามีงาน ซุบซิบได้ และสามารถจัดระเบียบสังคมได้ กิจกรรมต่างๆ ได้รู้จักเพื่อนใหม่ และแม้กระทั่งจัดงานปาร์ตี้วันวาเลนไทน์ Town Dweller แต่ละคนก็มีบุคลิกและเรื่องราวเบื้องหลังที่เป็นเอกลักษณ์

สำหรับรายละเอียดเพิ่มเติม โปรดดูเอกสารต่อไปนี้

ที่อยู่กระดาษ:

สตาร์ทอัพที่มีชื่อเสียงที่สุดในพื้นที่นี้น่าจะเป็น Adept ซึ่งก่อตั้งโดยผู้ร่วมเขียน Transformer สองคนและอดีตรองประธาน OpenAI และระดมทุนได้เกือบ 500 ล้านดอลลาร์จนถึงปัจจุบัน เมื่อปีที่แล้ว พวกเขาสาธิตวิธีที่ตัวแทนสามารถท่องอินเทอร์เน็ตและเพิ่มบัญชีใหม่ไปยัง Salesforce ได้อย่างไร

, ระยะเวลา 03:30 น

8. การเรียนรู้ที่ได้รับการปรับปรุงจากความชอบของมนุษย์

RLHF ย่อมาจาก Reinforcement Learning from Human Preferences คงไม่น่าแปลกใจหากผู้คนพบวิธีอื่นในการฝึกอบรม LLM เนื่องจาก RLHF ยังคงมีปัญหาอีกมากมายให้แก้ไข Chip Huyen ระบุ 3 ประเด็นต่อไปนี้

**จะแสดงความชอบของมนุษย์ในทางคณิตศาสตร์ได้อย่างไร? **

ในปัจจุบัน ความชอบของมนุษย์ถูกกำหนดโดยการเปรียบเทียบ: ผู้อธิบายที่เป็นมนุษย์จะกำหนดว่าการตอบสนอง A ดีกว่าการตอบสนอง B หรือไม่ แต่อย่าพิจารณาว่าการตอบสนอง A ดีกว่าการตอบสนอง B มากน้อยเพียงใด

**ความชอบของมนุษย์คืออะไร? **

Anthropic วัดคุณภาพการตอบสนองของโมเดลตามแกน 3 ประการ ได้แก่ ความมีประโยชน์ ความซื่อสัตย์ และความไร้เดียงสา

ที่อยู่กระดาษ:

DeepMind ยังพยายามสร้างคำตอบที่ตรงใจคนส่วนใหญ่ด้วย ดูเอกสารด้านล่างนี้

ที่อยู่กระดาษ:

แต่เพื่อให้ชัดเจน เราต้องการ AI ที่ยืนหยัดได้ หรือ AI ทั่วไปที่หลีกเลี่ยงหัวข้อที่อาจก่อให้เกิดข้อขัดแย้ง

**ความชอบของใครคือความชอบของ “คน”? **

เมื่อพิจารณาถึงความแตกต่างในด้านวัฒนธรรม ศาสนา ฯลฯ จึงมีความท้าทายมากมายในการได้รับข้อมูลการฝึกอบรมที่เป็นตัวแทนผู้ใช้ที่มีศักยภาพทั้งหมดอย่างเพียงพอ

ตัวอย่างเช่น ในข้อมูล InstructGPT ของ OpenAI ผู้ติดป้ายกำกับส่วนใหญ่เป็นชาวฟิลิปปินส์และบังคลาเทศ ซึ่งอาจทำให้เกิดการเบี่ยงเบนบางประการเนื่องจากความแตกต่างทางภูมิศาสตร์

แหล่งที่มา:

ชุมชนการวิจัยก็กำลังดำเนินการเรื่องนี้เช่นกัน แต่ยังคงมีอคติด้านข้อมูลอยู่ ตัวอย่างเช่น ในการกระจายข้อมูลประชากรของชุดข้อมูล OpenAssistant ผู้ตอบแบบสอบถาม 201 รายจาก 222 ราย (90.5%) เป็นชาย

9. ปรับปรุงประสิทธิภาพของอินเทอร์เฟซการแชท

ตั้งแต่ ChatGPT ก็มีการอภิปรายกันมากมายว่าการแชทเหมาะสมกับงานต่างๆ หรือไม่ ตัวอย่างการสนทนาเหล่านี้:

ภาษาธรรมชาติคือ UI ที่ขี้เกียจ
เหตุใดแชทบอทจึงไม่ใช่อนาคต:
คำถามประเภทใดที่ต้องใช้บทสนทนาในการตอบ?
อินเทอร์เฟซการแชท AI อาจกลายเป็นอินเทอร์เฟซผู้ใช้หลักสำหรับการอ่านเอกสาร:
โต้ตอบกับ LLM ด้วยการแชทน้อยที่สุด:

อย่างไรก็ตาม การสนทนาเหล่านี้ไม่ใช่เรื่องใหม่ หลายประเทศโดยเฉพาะในเอเชียใช้การแชทเป็นอินเทอร์เฟซสำหรับซูเปอร์แอปมาประมาณทศวรรษแล้ว

*แชทเป็นอินเทอร์เฟซทั่วไปสำหรับแอปจีน

ในปี 2016 เมื่อหลายคนคิดว่าแอปต่างๆ ตายไปแล้วและแชทบอทคืออนาคต การสนทนาก็เริ่มตึงเครียดอีกครั้ง:

เกี่ยวกับอินเทอร์เฟซการแชท:
เทรนด์แชทบอทถือเป็นความเข้าใจผิดครั้งใหญ่หรือไม่:
บอทจะไม่แทนที่แอป แอปที่ดีกว่าจะ:

Chip Huyen กล่าวว่าเขาชอบอินเทอร์เฟซการแชทมากด้วยเหตุผลดังต่อไปนี้:

Chat เป็นอินเทอร์เฟซที่ทุกคนสามารถเรียนรู้การใช้งานได้อย่างรวดเร็ว แม้กระทั่งผู้ที่ไม่เคยใช้คอมพิวเตอร์หรืออินเทอร์เน็ตมาก่อน
ไม่มีอุปสรรคในอินเทอร์เฟซการแชท แม้ว่าคุณจะรีบ แต่คุณสามารถใช้เสียงแทนข้อความได้
แชทยังเป็นอินเทอร์เฟซที่ทรงพลังมาก คุณสามารถส่งคำขอใด ๆ ถึงมันได้ แม้ว่าการตอบกลับจะไม่ดี แต่มันก็จะตอบกลับ

อย่างไรก็ตาม Chip Huyen คิดว่าอินเทอร์เฟซการแชทยังมีพื้นที่ให้ปรับปรุงในบางด้าน เขามีข้อเสนอแนะดังต่อไปนี้

หลายข้อความต่อรอบ

ปัจจุบันคิดว่าสามารถส่งข้อความได้เพียงข้อความเดียวต่อรอบ แต่นั่นไม่ใช่วิธีที่ผู้คนส่งข้อความในชีวิตจริง โดยปกติแล้ว จำเป็นต้องมีข้อมูลหลายส่วนเพื่อทำให้แนวคิดของแต่ละบุคคลสมบูรณ์ เนื่องจากจำเป็นต้องแทรกข้อมูลที่แตกต่างกัน (เช่น รูปภาพ สถานที่ ลิงก์) ในกระบวนการ และผู้ใช้อาจพลาดบางสิ่งบางอย่างในข้อมูลก่อนหน้านี้ หรือเพียงแค่ไม่ได้ ต้องการรวมทุกอย่าง เขียนเป็นย่อหน้ายาว

การป้อนข้อมูลต่อเนื่องหลายรูปแบบ

ในขอบเขตของแอปพลิเคชันหลายรูปแบบ ความพยายามส่วนใหญ่ถูกใช้ไปกับการสร้างแบบจำลองที่ดีขึ้น และใช้เวลาเพียงเล็กน้อยในการสร้างอินเทอร์เฟซที่ดีขึ้น ในกรณีของแชทบอท NeVA ของ Nvidia อาจมีช่องว่างในการปรับปรุงประสบการณ์ผู้ใช้

ที่อยู่:

รวม Generative AI เข้ากับเวิร์กโฟลว์

Linus Lee อธิบายเรื่องนี้ได้ดีในการบรรยายของเขาเรื่อง "อินเทอร์เฟซที่สร้างโดย AI นอกเหนือจากการแชท" ตัวอย่างเช่น หากคุณต้องการถามคำถามเกี่ยวกับคอลัมน์ในแผนภูมิที่คุณกำลังทำอยู่ คุณควรชี้ไปที่คอลัมน์นั้นแล้วถามได้เลย

ที่อยู่วิดีโอ:

การแก้ไขและการลบข้อมูล

เป็นเรื่องที่ควรค่าแก่การพิจารณาว่าการแก้ไขหรือลบการป้อนข้อมูลของผู้ใช้สามารถเปลี่ยนขั้นตอนการสนทนาด้วยแชทบอตได้อย่างไร

10. การสร้าง LLM สำหรับภาษาที่ไม่ใช่ภาษาอังกฤษ

LLM ในปัจจุบันสำหรับภาษาอังกฤษเป็นภาษาแรกไม่สามารถปรับขนาดให้เข้ากับภาษาอื่นได้ดีนักในแง่ของประสิทธิภาพ เวลาแฝง และความเร็ว เนื้อหาที่เกี่ยวข้องสามารถอ่านบทความต่อไปนี้:

ที่อยู่กระดาษ:

ที่อยู่บทความ:

Chip Huyen กล่าวว่าผู้อ่านบทความนี้ในยุคแรกๆ หลายคนบอกเขาว่าพวกเขาคิดว่าไม่ควรรวมทิศทางนี้ด้วยเหตุผลสองประการ

นี่ไม่ใช่คำถามวิจัยมากเท่ากับคำถามด้านลอจิสติกส์ เรารู้อยู่แล้วว่าต้องทำอย่างไร แค่ต้องการใครสักคนมาลงทุนเงินและพลังงานซึ่งไม่เป็นความจริงเลย ภาษาส่วนใหญ่ถือเป็นภาษาที่มีทรัพยากรต่ำ เช่น มีข้อมูลคุณภาพสูงน้อยกว่าภาษาอังกฤษหรือจีนมาก ดังนั้นจึงอาจต้องใช้เทคนิคที่แตกต่างกันในการฝึกโมเดลภาษาขนาดใหญ่ ดูบทความต่อไปนี้:

ที่อยู่กระดาษ:

คนที่มองโลกในแง่ร้ายคิดว่าหลายภาษาจะหมดไปในอนาคต และอินเทอร์เน็ตในอนาคตจะประกอบด้วยสองภาษา คือ อังกฤษและจีน

ผลกระทบของเครื่องมือ AI เช่น การแปลด้วยเครื่องและแชทบอท ต่อการเรียนรู้ภาษายังไม่ชัดเจน ไม่ว่าพวกเขาช่วยให้ผู้คนเรียนรู้ภาษาใหม่เร็วขึ้นหรือขจัดความจำเป็นในการเรียนรู้ภาษาใหม่ทั้งหมดหรือไม่ก็ตาม

สรุป

ปัญหาที่กล่าวถึงในบทความนี้ยังมีระดับความยากที่แตกต่างกัน เช่น ปัญหาสุดท้าย หากคุณสามารถหาทรัพยากรและเวลาได้เพียงพอ ก็สามารถสร้าง LLM สำหรับภาษาที่ไม่ใช่ภาษาอังกฤษได้

ปัญหาแรกๆ ประการหนึ่งคือการลดภาพหลอน ซึ่งจะยากกว่ามาก เพราะภาพหลอนเป็นเพียง LLM ที่ทำสิ่งที่น่าจะเป็นไปได้

ปัญหาที่สี่คือการทำให้ LLM เร็วขึ้นและถูกลง และสิ่งนี้จะไม่ได้รับการแก้ไขอย่างสมบูรณ์ มีความคืบหน้าบางประการในด้านนี้ และจะมีความก้าวหน้ามากขึ้นในอนาคต แต่เราจะไม่ปรับปรุงเพื่อความสมบูรณ์แบบ

ประเด็นที่ห้าและหกคือสถาปัตยกรรมใหม่และฮาร์ดแวร์ใหม่ซึ่งมีความท้าทายมาก แต่ก็หลีกเลี่ยงไม่ได้เมื่อเวลาผ่านไป เนื่องจากความสัมพันธ์ทางชีวภาพระหว่างสถาปัตยกรรมและฮาร์ดแวร์ โดยที่สถาปัตยกรรมใหม่จำเป็นต้องได้รับการปรับให้เหมาะสมสำหรับฮาร์ดแวร์ที่ใช้งานทั่วไป และฮาร์ดแวร์จำเป็นต้องรองรับสถาปัตยกรรมที่ใช้งานทั่วไป ปัญหานี้จึงอาจแก้ไขได้โดยบริษัทเดียวกัน

นอกจากนี้ยังมีปัญหาที่ไม่สามารถแก้ไขได้ด้วยความรู้ด้านเทคนิคเพียงอย่างเดียว ตัวอย่างเช่น ปัญหาที่แปดของการปรับปรุงวิธีการเรียนรู้จากความชอบของมนุษย์อาจเป็นปัญหาด้านนโยบายมากกว่าปัญหาทางเทคนิค เมื่อพูดถึงคำถามที่เก้า การปรับปรุงประสิทธิภาพของอินเทอร์เฟซ นี่เป็นเหมือนปัญหาประสบการณ์ผู้ใช้มากกว่า และจำเป็นต้องมีผู้คนจำนวนมากที่ไม่มีพื้นฐานด้านเทคนิคเพื่อแก้ไขปัญหานี้ร่วมกัน

หากคุณต้องการมองปัญหาเหล่านี้จากมุมอื่น Chip Huyen แนะนำให้อ่านบทความต่อไปนี้

ที่อยู่กระดาษ:

ดูต้นฉบับ

เนื้อหานี้มีสำหรับการอ้างอิงเท่านั้น ไม่ใช่การชักชวนหรือข้อเสนอ ไม่มีคำแนะนำด้านการลงทุน ภาษี หรือกฎหมาย ดูข้อจำกัดความรับผิดชอบสำหรับการเปิดเผยความเสี่ยงเพิ่มเติม

1ถูกใจ

รางวัล
1
แสดงความคิดเห็น
แชร์

แสดงความคิดเห็น

0/400

ไม่มีความคิดเห็น

หัวข้อถ่ายทอดสด
#BTC#
207k โพสต์
#PI#
152k โพสต์
#ETH#
131k โพสต์
4#GateioInto11#
78k โพสต์
5#ContentStar#
65k โพสต์
6#BOME#
60k โพสต์
7#GT#
59k โพสต์
8#DOGE#
55k โพสต์
9#MAGA#
52k โพสต์
10#SLERF#
51k โพสต์

ปักหมุด

แผนผังเว็บไซต์