สินค้าคงคลังของตัวแทนอัตโนมัติของ AI ครอบคลุมการก่อสร้าง การใช้งาน และการประเมินผล ภาพรวม 32 หน้าโดย Wen Jirong จาก Gaoling ของสภาประชาชนแห่งชาติ

2023-08-28 06:23:21

ผู้เรียบเรียง: Du Wei, Chen Ping

บทความนี้นำเสนอข้อมูลเบื้องต้นที่ครอบคลุมเกี่ยวกับการก่อสร้าง การใช้งานที่เป็นไปได้ และการประเมินตัวแทนโดยใช้โมเดลภาษาขนาดใหญ่ (LLM) ซึ่งมีความสำคัญอย่างยิ่งสำหรับความเข้าใจที่ครอบคลุมเกี่ยวกับการพัฒนาสาขานี้ และสำหรับการสร้างแรงบันดาลใจในการวิจัยในอนาคต

แหล่งที่มาของรูปภาพ: สร้างโดย Unbounded AI‌

ในยุค AI ปัจจุบัน เจ้าหน้าที่อัตโนมัติถือเป็นเส้นทางที่มีแนวโน้มไปสู่ปัญญาประดิษฐ์ทั่วไป (AGI) สิ่งที่เรียกว่าตัวแทนอัตโนมัติสามารถทำงานให้เสร็จสิ้นผ่านการวางแผนและคำแนะนำแบบอัตโนมัติ ในกระบวนทัศน์การพัฒนาในช่วงแรก หน้าที่นโยบายที่กำหนดการกระทำของตัวแทนจะถูกครอบงำโดยการวิเคราะห์พฤติกรรม ซึ่งจะค่อยๆ ปรับปรุงในการโต้ตอบกับสภาพแวดล้อม

อย่างไรก็ตาม ในสภาพแวดล้อมโดเมนแบบเปิดที่ไม่มีข้อจำกัด มักจะเป็นเรื่องยากสำหรับตัวแทนอัตโนมัติที่จะดำเนินการด้วยความเชี่ยวชาญระดับมนุษย์

ด้วยความสำเร็จอันยิ่งใหญ่ของโมเดลภาษาขนาดใหญ่ (LLM) ในช่วงไม่กี่ปีที่ผ่านมา โมเดลภาษาดังกล่าวได้แสดงให้เห็นถึงศักยภาพในการบรรลุความฉลาดเหมือนมนุษย์ ดังนั้น ด้วยความสามารถอันทรงพลัง LLM จึงถูกนำมาใช้มากขึ้นเรื่อยๆ ในฐานะผู้ประสานงานหลักในการสร้างตัวแทนอัตโนมัติ และตัวแทน AI ต่างๆ ก็ได้เกิดขึ้นอย่างต่อเนื่อง ตัวแทนเหล่านี้เสนอเส้นทางที่เป็นไปได้ไปสู่ระบบ AI ที่ซับซ้อนและปรับเปลี่ยนได้มากขึ้น โดยการเลียนแบบกระบวนการตัดสินใจที่เหมือนกับมนุษย์

*รายชื่อตัวแทนอัตโนมัติที่ใช้ LLM รวมถึงตัวแทนเครื่องมือ เอเจนต์จำลอง เอเจนต์ทั่วไป และตัวแทนโดเมน *

ในขั้นตอนนี้ เป็นสิ่งสำคัญมากที่ต้องทำการวิเคราะห์แบบองค์รวมของตัวแทนอิสระที่ใช้ LLM ที่เกิดขึ้นใหม่และมีความสำคัญอย่างยิ่งที่จะต้องเข้าใจสถานะการพัฒนาของสาขานี้อย่างถ่องแท้และสร้างแรงบันดาลใจให้กับการวิจัยในอนาคต

ในบทความนี้ นักวิจัยจาก Hillhouse School of Artificial Intelligence แห่งมหาวิทยาลัย Renmin แห่งประเทศจีน ได้ทำการสำรวจตัวแทนอิสระที่ใช้ LLM อย่างครอบคลุม โดยมุ่งเน้นที่การก่อสร้าง การใช้งาน และการประเมินผล 3 ด้าน

ที่อยู่กระดาษ:

สำหรับการสร้างตัวแทน พวกเขาเสนอกรอบการทำงานแบบครบวงจรซึ่งประกอบด้วยสี่ส่วน ได้แก่ โมดูลการกำหนดค่าเพื่อแสดงคุณลักษณะของตัวแทน โมดูลหน่วยความจำเพื่อจัดเก็บข้อมูลประวัติ โมดูลการวางแผนเพื่อกำหนดกลยุทธ์การดำเนินการในอนาคต และการดำเนินการ โมดูลเพื่อดำเนินการตัดสินใจในการวางแผน หลังจากแนะนำโมดูลตัวแทนทั่วไปแล้ว นักวิจัยยังสรุปกลยุทธ์การปรับแต่งที่ใช้กันทั่วไปเพื่อเพิ่มความสามารถในการปรับตัวของตัวแทนให้เข้ากับสถานการณ์การใช้งานที่แตกต่างกัน

จากนั้นนักวิจัยจึงร่างโครงร่างการใช้งานที่เป็นไปได้ของตัวแทนอัตโนมัติ โดยสำรวจว่าสิ่งเหล่านี้จะเป็นประโยชน์ต่อสาขาสังคมศาสตร์ วิทยาศาสตร์ธรรมชาติ และวิศวกรรมศาสตร์ได้อย่างไร ท้ายที่สุด มีการหารือถึงวิธีการประเมินสำหรับตัวแทนอิสระ รวมถึงกลยุทธ์การประเมินแบบอัตนัยและแบบวัตถุประสงค์ รูปด้านล่างแสดงโครงสร้างโดยรวมของบทความ

แหล่งที่มา:

การก่อสร้างตัวแทนอิสระตาม LLM

เพื่อให้ตัวแทนอิสระที่ใช้ LLM มีประสิทธิภาพมากขึ้น มีสองประเด็นที่ต้องพิจารณา: ประการแรก สถาปัตยกรรมประเภทใดที่ควรได้รับการออกแบบเพื่อให้ตัวแทนสามารถใช้ LLM ได้ดีขึ้น ประการที่สอง วิธีการเรียนรู้พารามิเตอร์อย่างมีประสิทธิภาพ

การออกแบบสถาปัตยกรรมตัวแทน: บทความนี้เสนอกรอบงานแบบรวมเพื่อสรุปสถาปัตยกรรมที่เสนอในการศึกษาก่อนหน้านี้ โครงสร้างโดยรวมแสดงในรูปที่ 2 ซึ่งประกอบด้วยโมดูลโปรไฟล์ โมดูลหน่วยความจำ โมดูลการวางแผน และโมดูลการดำเนินการ

โดยสรุป โมดูลการวิเคราะห์มีจุดมุ่งหมายเพื่อระบุบทบาทของตัวแทน หน่วยความจำและโมดูลการวางแผนจะวางตัวแทนในสภาพแวดล้อมแบบไดนามิก ช่วยให้ตัวแทนสามารถเรียกคืนพฤติกรรมในอดีตและวางแผนการดำเนินการในอนาคต การตัดสินใจจะถูกแปลเป็นผลลัพธ์ที่เป็นรูปธรรม ในบรรดาโมดูลเหล่านี้ โมดูลการวิเคราะห์จะส่งผลต่อหน่วยความจำและโมดูลการวางแผน และโมดูลทั้งสามนี้รวมกันจะส่งผลต่อโมดูลการดำเนินการ

โมดูลการวิเคราะห์

ตัวแทนอัตโนมัติดำเนินงานผ่านบทบาทเฉพาะ เช่น โปรแกรมเมอร์ ครู และผู้เชี่ยวชาญด้านโดเมน โมดูลการวิเคราะห์มีจุดมุ่งหมายเพื่อระบุบทบาทของตัวแทน และโดยปกติแล้วข้อมูลนี้จะถูกเขียนลงในอินพุตพร้อมต์เพื่อมีอิทธิพลต่อพฤติกรรม LLM ในงานที่มีอยู่ มีสามกลยุทธ์ที่ใช้กันทั่วไปในการสร้างโปรไฟล์ตัวแทน: วิธีการประดิษฐ์ด้วยมือ วิธีการสร้าง LLM วิธีการจัดตำแหน่งชุดข้อมูล

โมดูลหน่วยความจำ

โมดูลหน่วยความจำมีบทบาทสำคัญในการสร้างเอเจนต์ AI จดจำข้อมูลที่รับรู้จากสภาพแวดล้อมและใช้หน่วยความจำที่บันทึกไว้เพื่ออำนวยความสะดวกในการดำเนินการในอนาคตของตัวแทน โมดูลหน่วยความจำสามารถช่วยให้ตัวแทนสั่งสมประสบการณ์ ตระหนักถึงการพัฒนาตนเอง และทำงานให้สำเร็จในลักษณะที่สอดคล้องกัน สมเหตุสมผล และมีประสิทธิภาพมากขึ้น

โมดูลการวางแผน

เมื่อมนุษย์เผชิญกับงานที่ซับซ้อน อันดับแรกพวกเขาจะแบ่งงานย่อยออกเป็นงานย่อยง่ายๆ ก่อน จากนั้นค่อยแก้ไขงานย่อยแต่ละงานทีละงาน โมดูลการวางแผนช่วยให้ตัวแทนที่ใช้ LLM มีความสามารถในการคิดและการวางแผนที่จำเป็นในการแก้ปัญหางานที่ซับซ้อน ทำให้ตัวแทนมีความครอบคลุม มีประสิทธิภาพ และเชื่อถือได้มากขึ้น บทความนี้นำเสนอโมดูลการวางแผนสองโมดูล: การวางแผนโดยไม่มีคำติชม และการวางแผนพร้อมคำติชม

โมดูลการดำเนินการ

โมดูลการดำเนินการมีจุดมุ่งหมายเพื่อแปลงการตัดสินใจของตัวแทนให้เป็นผลลัพธ์ผลลัพธ์ที่เฉพาะเจาะจง โดยจะโต้ตอบกับสภาพแวดล้อมโดยตรงและกำหนดประสิทธิภาพของตัวแทนในการทำงานให้เสร็จสิ้น ส่วนนี้จะแนะนำจากมุมมองของเป้าหมายการดำเนินการ นโยบาย พื้นที่การดำเนินการ และอิทธิพลของการดำเนินการ

นอกเหนือจาก 4 ส่วนข้างต้นแล้ว บทนี้ยังแนะนำกลยุทธ์การเรียนรู้ของตัวแทน รวมถึงการเรียนรู้จากตัวอย่าง การเรียนรู้จากผลตอบรับด้านสิ่งแวดล้อม และการเรียนรู้จากผลตอบรับของมนุษย์แบบโต้ตอบ

ตารางที่ 1 แสดงรายการความสอดคล้องระหว่างงานก่อนหน้าและอนุกรมวิธานของเรา:

แอปพลิเคชันตัวแทนอัตโนมัติที่ใช้ LLM

บทนี้สำรวจผลกระทบด้านการเปลี่ยนแปลงของตัวแทนอิสระที่ใช้ LLM ในสามสาขาที่แตกต่างกัน: สังคมศาสตร์ วิทยาศาสตร์ธรรมชาติ และวิศวกรรม

ตัวอย่างเช่น ตัวแทนที่ใช้ LLM สามารถใช้ในการออกแบบและเพิ่มประสิทธิภาพโครงสร้างที่ซับซ้อน เช่น อาคาร สะพาน เขื่อน ถนน ฯลฯ ก่อนหน้านี้ นักวิจัยบางคนเสนอกรอบการทำงานเชิงโต้ตอบที่สถาปนิกมนุษย์และตัวแทน AI ทำงานร่วมกันเพื่อสร้างสภาพแวดล้อมเชิงโครงสร้างในการจำลอง 3 มิติ ตัวแทนแบบโต้ตอบสามารถเข้าใจคำสั่งภาษาธรรมชาติ วางโมดูล ขอคำแนะนำ และรวมข้อเสนอแนะของมนุษย์ ซึ่งแสดงให้เห็นถึงศักยภาพของการทำงานร่วมกันระหว่างมนุษย์กับเครื่องจักรในการออกแบบทางวิศวกรรม

ตัวอย่างเช่น ในวิทยาการคอมพิวเตอร์และวิศวกรรมซอฟต์แวร์ เอเจนต์ที่ใช้ LLM เสนอศักยภาพในการเข้ารหัส การทดสอบ การดีบัก และการสร้างเอกสารโดยอัตโนมัติ นักวิจัยบางคนได้เสนอ ChatDev ซึ่งเป็นเฟรมเวิร์กแบบ end-to-end ซึ่งเอเจนต์หลายรายสื่อสารและทำงานร่วมกันผ่านบทสนทนาภาษาธรรมชาติเพื่อทำให้วงจรการพัฒนาซอฟต์แวร์เสร็จสมบูรณ์ ToolBench สามารถใช้สำหรับงานต่างๆ เช่น การเติมโค้ดอัตโนมัติและการแนะนำโค้ด MetaGPT สามารถทำหน้าที่เป็นผู้จัดการผลิตภัณฑ์ สถาปนิก ผู้จัดการโครงการ และวิศวกร ดูแลการสร้างโค้ดภายในและปรับปรุงคุณภาพของโค้ดเอาต์พุตสุดท้าย ฯลฯ

ตารางต่อไปนี้แสดงแอปพลิเคชันตัวแทนของตัวแทนอัตโนมัติที่ใช้ LLM:

การประเมินโดยอิง LLM ของตัวแทนอิสระ

บทความนี้จะแนะนำกลยุทธ์การประเมินที่ใช้กันทั่วไปสองกลยุทธ์: การประเมินแบบอัตนัยและการประเมินตามวัตถุประสงค์

การประเมินเชิงอัตนัยหมายถึงความสามารถของมนุษย์ในการทดสอบตัวแทนที่ใช้ LLM ด้วยวิธีต่างๆ เช่น การโต้ตอบและการให้คะแนน ในกรณีนี้ ผู้ที่เข้าร่วมในการประเมินมักถูกคัดเลือกผ่านแพลตฟอร์มการระดมทุนจากมวลชน และนักวิจัยบางคนเชื่อว่าบุคลากรจากการระดมทุนจากมวลชนไม่เสถียรเนื่องจากความสามารถที่แตกต่างกันของแต่ละบุคคล ดังนั้นจึงใช้คำอธิบายประกอบของผู้เชี่ยวชาญในการประเมินด้วย

นอกจากนี้ ในการศึกษาปัจจุบันบางส่วน เราสามารถใช้ตัวแทน LLM เป็นผู้ประเมินแบบอัตนัยได้ ตัวอย่างเช่น ในการศึกษาของ ChemCrow uatorGPT จะประเมินผลการทดลองโดยการจัดระดับที่พิจารณาทั้งความสำเร็จของงานและความถูกต้องของกระบวนการคิดที่ซ่อนอยู่ อีกตัวอย่างหนึ่งคือ Chat ได้ก่อตั้งทีมผู้ตัดสินหลายตัวแทนที่ใช้ LLM เพื่อประเมินผลลัพธ์การสร้างโมเดลผ่านการถกเถียง

การประเมินตามวัตถุประสงค์มีข้อดีหลายประการเหนือการประเมินแบบอัตนัย ซึ่งหมายถึงการใช้หน่วยวัดเชิงปริมาณเพื่อประเมินความสามารถของตัวแทนอิสระที่ใช้ LLM ส่วนนี้จะทบทวนและสังเคราะห์วิธีการประเมินตามวัตถุประสงค์จากมุมมองของตัวชี้วัด กลยุทธ์ และเกณฑ์มาตรฐาน

เราสามารถรวมทั้งสองวิธีนี้เข้าด้วยกันในระหว่างการประเมินการใช้งาน

ตารางที่ 3 สรุปความสอดคล้องระหว่างงานก่อนหน้ากับกลยุทธ์การประเมินเหล่านี้:

สำหรับข้อมูลเพิ่มเติม โปรดดูเอกสารต้นฉบับ

ดูต้นฉบับ

เนื้อหานี้มีสำหรับการอ้างอิงเท่านั้น ไม่ใช่การชักชวนหรือข้อเสนอ ไม่มีคำแนะนำด้านการลงทุน ภาษี หรือกฎหมาย ดูข้อจำกัดความรับผิดชอบสำหรับการเปิดเผยความเสี่ยงเพิ่มเติม

รางวัล
ถูกใจ
แสดงความคิดเห็น
แชร์

แสดงความคิดเห็น

0/400

ไม่มีความคิดเห็น

หัวข้อถ่ายทอดสด
#BTC#
213k โพสต์
#PI#
169k โพสต์
#ETH#
135k โพสต์
4#GateioInto11#
78k โพสต์
5#ContentStar#
65k โพสต์
6#GT#
60k โพสต์
7#BOME#
60k โพสต์
8#DOGE#
56k โพสต์
9#MAGA#
52k โพสต์
10#SLERF#
51k โพสต์

ปักหมุด

แผนผังเว็บไซต์