**ผู้เรียบเรียง:** Du Wei, Chen Ping> บทความนี้นำเสนอข้อมูลเบื้องต้นที่ครอบคลุมเกี่ยวกับการก่อสร้าง การใช้งานที่เป็นไปได้ และการประเมินตัวแทนโดยใช้โมเดลภาษาขนาดใหญ่ (LLM) ซึ่งมีความสำคัญอย่างยิ่งสำหรับความเข้าใจที่ครอบคลุมเกี่ยวกับการพัฒนาสาขานี้ และสำหรับการสร้างแรงบันดาลใจในการวิจัยในอนาคต แหล่งที่มาของรูปภาพ: สร้างโดย Unbounded AIในยุค AI ปัจจุบัน เจ้าหน้าที่อัตโนมัติถือเป็นเส้นทางที่มีแนวโน้มไปสู่ปัญญาประดิษฐ์ทั่วไป (AGI) สิ่งที่เรียกว่าตัวแทนอัตโนมัติสามารถทำงานให้เสร็จสิ้นผ่านการวางแผนและคำแนะนำแบบอัตโนมัติ ในกระบวนทัศน์การพัฒนาในช่วงแรก หน้าที่นโยบายที่กำหนดการกระทำของตัวแทนจะถูกครอบงำโดยการวิเคราะห์พฤติกรรม ซึ่งจะค่อยๆ ปรับปรุงในการโต้ตอบกับสภาพแวดล้อมอย่างไรก็ตาม ในสภาพแวดล้อมโดเมนแบบเปิดที่ไม่มีข้อจำกัด มักจะเป็นเรื่องยากสำหรับตัวแทนอัตโนมัติที่จะดำเนินการด้วยความเชี่ยวชาญระดับมนุษย์ด้วยความสำเร็จอันยิ่งใหญ่ของโมเดลภาษาขนาดใหญ่ (LLM) ในช่วงไม่กี่ปีที่ผ่านมา โมเดลภาษาดังกล่าวได้แสดงให้เห็นถึงศักยภาพในการบรรลุความฉลาดเหมือนมนุษย์ ดังนั้น ด้วยความสามารถอันทรงพลัง LLM จึงถูกนำมาใช้มากขึ้นเรื่อยๆ ในฐานะผู้ประสานงานหลักในการสร้างตัวแทนอัตโนมัติ และตัวแทน AI ต่างๆ ก็ได้เกิดขึ้นอย่างต่อเนื่อง ตัวแทนเหล่านี้เสนอเส้นทางที่เป็นไปได้ไปสู่ระบบ AI ที่ซับซ้อนและปรับเปลี่ยนได้มากขึ้น โดยการเลียนแบบกระบวนการตัดสินใจที่เหมือนกับมนุษย์ *รายชื่อตัวแทนอัตโนมัติที่ใช้ LLM รวมถึงตัวแทนเครื่องมือ เอเจนต์จำลอง เอเจนต์ทั่วไป และตัวแทนโดเมน *ในขั้นตอนนี้ เป็นสิ่งสำคัญมากที่ต้องทำการวิเคราะห์แบบองค์รวมของตัวแทนอิสระที่ใช้ LLM ที่เกิดขึ้นใหม่และมีความสำคัญอย่างยิ่งที่จะต้องเข้าใจสถานะการพัฒนาของสาขานี้อย่างถ่องแท้และสร้างแรงบันดาลใจให้กับการวิจัยในอนาคตในบทความนี้ นักวิจัยจาก Hillhouse School of Artificial Intelligence แห่งมหาวิทยาลัย Renmin แห่งประเทศจีน ได้ทำการสำรวจตัวแทนอิสระที่ใช้ LLM อย่างครอบคลุม โดยมุ่งเน้นที่การก่อสร้าง การใช้งาน และการประเมินผล 3 ด้าน ที่อยู่กระดาษ:สำหรับการสร้างตัวแทน พวกเขาเสนอกรอบการทำงานแบบครบวงจรซึ่งประกอบด้วยสี่ส่วน ได้แก่ โมดูลการกำหนดค่าเพื่อแสดงคุณลักษณะของตัวแทน โมดูลหน่วยความจำเพื่อจัดเก็บข้อมูลประวัติ โมดูลการวางแผนเพื่อกำหนดกลยุทธ์การดำเนินการในอนาคต และการดำเนินการ โมดูลเพื่อดำเนินการตัดสินใจในการวางแผน หลังจากแนะนำโมดูลตัวแทนทั่วไปแล้ว นักวิจัยยังสรุปกลยุทธ์การปรับแต่งที่ใช้กันทั่วไปเพื่อเพิ่มความสามารถในการปรับตัวของตัวแทนให้เข้ากับสถานการณ์การใช้งานที่แตกต่างกันจากนั้นนักวิจัยจึงร่างโครงร่างการใช้งานที่เป็นไปได้ของตัวแทนอัตโนมัติ โดยสำรวจว่าสิ่งเหล่านี้จะเป็นประโยชน์ต่อสาขาสังคมศาสตร์ วิทยาศาสตร์ธรรมชาติ และวิศวกรรมศาสตร์ได้อย่างไร ท้ายที่สุด มีการหารือถึงวิธีการประเมินสำหรับตัวแทนอิสระ รวมถึงกลยุทธ์การประเมินแบบอัตนัยและแบบวัตถุประสงค์ รูปด้านล่างแสดงโครงสร้างโดยรวมของบทความ *แหล่งที่มา:***การก่อสร้างตัวแทนอิสระตาม LLM**เพื่อให้ตัวแทนอิสระที่ใช้ LLM มีประสิทธิภาพมากขึ้น มีสองประเด็นที่ต้องพิจารณา: ประการแรก สถาปัตยกรรมประเภทใดที่ควรได้รับการออกแบบเพื่อให้ตัวแทนสามารถใช้ LLM ได้ดีขึ้น ประการที่สอง วิธีการเรียนรู้พารามิเตอร์อย่างมีประสิทธิภาพการออกแบบสถาปัตยกรรมตัวแทน: บทความนี้เสนอกรอบงานแบบรวมเพื่อสรุปสถาปัตยกรรมที่เสนอในการศึกษาก่อนหน้านี้ โครงสร้างโดยรวมแสดงในรูปที่ 2 ซึ่งประกอบด้วยโมดูลโปรไฟล์ โมดูลหน่วยความจำ โมดูลการวางแผน และโมดูลการดำเนินการ โดยสรุป โมดูลการวิเคราะห์มีจุดมุ่งหมายเพื่อระบุบทบาทของตัวแทน หน่วยความจำและโมดูลการวางแผนจะวางตัวแทนในสภาพแวดล้อมแบบไดนามิก ช่วยให้ตัวแทนสามารถเรียกคืนพฤติกรรมในอดีตและวางแผนการดำเนินการในอนาคต การตัดสินใจจะถูกแปลเป็นผลลัพธ์ที่เป็นรูปธรรม ในบรรดาโมดูลเหล่านี้ โมดูลการวิเคราะห์จะส่งผลต่อหน่วยความจำและโมดูลการวางแผน และโมดูลทั้งสามนี้รวมกันจะส่งผลต่อโมดูลการดำเนินการ**โมดูลการวิเคราะห์**ตัวแทนอัตโนมัติดำเนินงานผ่านบทบาทเฉพาะ เช่น โปรแกรมเมอร์ ครู และผู้เชี่ยวชาญด้านโดเมน โมดูลการวิเคราะห์มีจุดมุ่งหมายเพื่อระบุบทบาทของตัวแทน และโดยปกติแล้วข้อมูลนี้จะถูกเขียนลงในอินพุตพร้อมต์เพื่อมีอิทธิพลต่อพฤติกรรม LLM ในงานที่มีอยู่ มีสามกลยุทธ์ที่ใช้กันทั่วไปในการสร้างโปรไฟล์ตัวแทน: วิธีการประดิษฐ์ด้วยมือ วิธีการสร้าง LLM วิธีการจัดตำแหน่งชุดข้อมูล**โมดูลหน่วยความจำ**โมดูลหน่วยความจำมีบทบาทสำคัญในการสร้างเอเจนต์ AI จดจำข้อมูลที่รับรู้จากสภาพแวดล้อมและใช้หน่วยความจำที่บันทึกไว้เพื่ออำนวยความสะดวกในการดำเนินการในอนาคตของตัวแทน โมดูลหน่วยความจำสามารถช่วยให้ตัวแทนสั่งสมประสบการณ์ ตระหนักถึงการพัฒนาตนเอง และทำงานให้สำเร็จในลักษณะที่สอดคล้องกัน สมเหตุสมผล และมีประสิทธิภาพมากขึ้น**โมดูลการวางแผน**เมื่อมนุษย์เผชิญกับงานที่ซับซ้อน อันดับแรกพวกเขาจะแบ่งงานย่อยออกเป็นงานย่อยง่ายๆ ก่อน จากนั้นค่อยแก้ไขงานย่อยแต่ละงานทีละงาน โมดูลการวางแผนช่วยให้ตัวแทนที่ใช้ LLM มีความสามารถในการคิดและการวางแผนที่จำเป็นในการแก้ปัญหางานที่ซับซ้อน ทำให้ตัวแทนมีความครอบคลุม มีประสิทธิภาพ และเชื่อถือได้มากขึ้น บทความนี้นำเสนอโมดูลการวางแผนสองโมดูล: การวางแผนโดยไม่มีคำติชม และการวางแผนพร้อมคำติชม**โมดูลการดำเนินการ**โมดูลการดำเนินการมีจุดมุ่งหมายเพื่อแปลงการตัดสินใจของตัวแทนให้เป็นผลลัพธ์ผลลัพธ์ที่เฉพาะเจาะจง โดยจะโต้ตอบกับสภาพแวดล้อมโดยตรงและกำหนดประสิทธิภาพของตัวแทนในการทำงานให้เสร็จสิ้น ส่วนนี้จะแนะนำจากมุมมองของเป้าหมายการดำเนินการ นโยบาย พื้นที่การดำเนินการ และอิทธิพลของการดำเนินการนอกเหนือจาก 4 ส่วนข้างต้นแล้ว บทนี้ยังแนะนำกลยุทธ์การเรียนรู้ของตัวแทน รวมถึงการเรียนรู้จากตัวอย่าง การเรียนรู้จากผลตอบรับด้านสิ่งแวดล้อม และการเรียนรู้จากผลตอบรับของมนุษย์แบบโต้ตอบตารางที่ 1 แสดงรายการความสอดคล้องระหว่างงานก่อนหน้าและอนุกรมวิธานของเรา: **แอปพลิเคชันตัวแทนอัตโนมัติที่ใช้ LLM**บทนี้สำรวจผลกระทบด้านการเปลี่ยนแปลงของตัวแทนอิสระที่ใช้ LLM ในสามสาขาที่แตกต่างกัน: สังคมศาสตร์ วิทยาศาสตร์ธรรมชาติ และวิศวกรรม ตัวอย่างเช่น ตัวแทนที่ใช้ LLM สามารถใช้ในการออกแบบและเพิ่มประสิทธิภาพโครงสร้างที่ซับซ้อน เช่น อาคาร สะพาน เขื่อน ถนน ฯลฯ ก่อนหน้านี้ นักวิจัยบางคนเสนอกรอบการทำงานเชิงโต้ตอบที่สถาปนิกมนุษย์และตัวแทน AI ทำงานร่วมกันเพื่อสร้างสภาพแวดล้อมเชิงโครงสร้างในการจำลอง 3 มิติ ตัวแทนแบบโต้ตอบสามารถเข้าใจคำสั่งภาษาธรรมชาติ วางโมดูล ขอคำแนะนำ และรวมข้อเสนอแนะของมนุษย์ ซึ่งแสดงให้เห็นถึงศักยภาพของการทำงานร่วมกันระหว่างมนุษย์กับเครื่องจักรในการออกแบบทางวิศวกรรมตัวอย่างเช่น ในวิทยาการคอมพิวเตอร์และวิศวกรรมซอฟต์แวร์ เอเจนต์ที่ใช้ LLM เสนอศักยภาพในการเข้ารหัส การทดสอบ การดีบัก และการสร้างเอกสารโดยอัตโนมัติ นักวิจัยบางคนได้เสนอ ChatDev ซึ่งเป็นเฟรมเวิร์กแบบ end-to-end ซึ่งเอเจนต์หลายรายสื่อสารและทำงานร่วมกันผ่านบทสนทนาภาษาธรรมชาติเพื่อทำให้วงจรการพัฒนาซอฟต์แวร์เสร็จสมบูรณ์ ToolBench สามารถใช้สำหรับงานต่างๆ เช่น การเติมโค้ดอัตโนมัติและการแนะนำโค้ด MetaGPT สามารถทำหน้าที่เป็นผู้จัดการผลิตภัณฑ์ สถาปนิก ผู้จัดการโครงการ และวิศวกร ดูแลการสร้างโค้ดภายในและปรับปรุงคุณภาพของโค้ดเอาต์พุตสุดท้าย ฯลฯตารางต่อไปนี้แสดงแอปพลิเคชันตัวแทนของตัวแทนอัตโนมัติที่ใช้ LLM: **การประเมินโดยอิง LLM ของตัวแทนอิสระ**บทความนี้จะแนะนำกลยุทธ์การประเมินที่ใช้กันทั่วไปสองกลยุทธ์: การประเมินแบบอัตนัยและการประเมินตามวัตถุประสงค์การประเมินเชิงอัตนัยหมายถึงความสามารถของมนุษย์ในการทดสอบตัวแทนที่ใช้ LLM ด้วยวิธีต่างๆ เช่น การโต้ตอบและการให้คะแนน ในกรณีนี้ ผู้ที่เข้าร่วมในการประเมินมักถูกคัดเลือกผ่านแพลตฟอร์มการระดมทุนจากมวลชน และนักวิจัยบางคนเชื่อว่าบุคลากรจากการระดมทุนจากมวลชนไม่เสถียรเนื่องจากความสามารถที่แตกต่างกันของแต่ละบุคคล ดังนั้นจึงใช้คำอธิบายประกอบของผู้เชี่ยวชาญในการประเมินด้วยนอกจากนี้ ในการศึกษาปัจจุบันบางส่วน เราสามารถใช้ตัวแทน LLM เป็นผู้ประเมินแบบอัตนัยได้ ตัวอย่างเช่น ในการศึกษาของ ChemCrow uatorGPT จะประเมินผลการทดลองโดยการจัดระดับที่พิจารณาทั้งความสำเร็จของงานและความถูกต้องของกระบวนการคิดที่ซ่อนอยู่ อีกตัวอย่างหนึ่งคือ Chat ได้ก่อตั้งทีมผู้ตัดสินหลายตัวแทนที่ใช้ LLM เพื่อประเมินผลลัพธ์การสร้างโมเดลผ่านการถกเถียงการประเมินตามวัตถุประสงค์มีข้อดีหลายประการเหนือการประเมินแบบอัตนัย ซึ่งหมายถึงการใช้หน่วยวัดเชิงปริมาณเพื่อประเมินความสามารถของตัวแทนอิสระที่ใช้ LLM ส่วนนี้จะทบทวนและสังเคราะห์วิธีการประเมินตามวัตถุประสงค์จากมุมมองของตัวชี้วัด กลยุทธ์ และเกณฑ์มาตรฐานเราสามารถรวมทั้งสองวิธีนี้เข้าด้วยกันในระหว่างการประเมินการใช้งานตารางที่ 3 สรุปความสอดคล้องระหว่างงานก่อนหน้ากับกลยุทธ์การประเมินเหล่านี้: สำหรับข้อมูลเพิ่มเติม โปรดดูเอกสารต้นฉบับ
สินค้าคงคลังของตัวแทนอัตโนมัติของ AI ครอบคลุมการก่อสร้าง การใช้งาน และการประเมินผล ภาพรวม 32 หน้าโดย Wen Jirong จาก Gaoling ของสภาประชาชนแห่งชาติ
ผู้เรียบเรียง: Du Wei, Chen Ping
ในยุค AI ปัจจุบัน เจ้าหน้าที่อัตโนมัติถือเป็นเส้นทางที่มีแนวโน้มไปสู่ปัญญาประดิษฐ์ทั่วไป (AGI) สิ่งที่เรียกว่าตัวแทนอัตโนมัติสามารถทำงานให้เสร็จสิ้นผ่านการวางแผนและคำแนะนำแบบอัตโนมัติ ในกระบวนทัศน์การพัฒนาในช่วงแรก หน้าที่นโยบายที่กำหนดการกระทำของตัวแทนจะถูกครอบงำโดยการวิเคราะห์พฤติกรรม ซึ่งจะค่อยๆ ปรับปรุงในการโต้ตอบกับสภาพแวดล้อม
อย่างไรก็ตาม ในสภาพแวดล้อมโดเมนแบบเปิดที่ไม่มีข้อจำกัด มักจะเป็นเรื่องยากสำหรับตัวแทนอัตโนมัติที่จะดำเนินการด้วยความเชี่ยวชาญระดับมนุษย์
ด้วยความสำเร็จอันยิ่งใหญ่ของโมเดลภาษาขนาดใหญ่ (LLM) ในช่วงไม่กี่ปีที่ผ่านมา โมเดลภาษาดังกล่าวได้แสดงให้เห็นถึงศักยภาพในการบรรลุความฉลาดเหมือนมนุษย์ ดังนั้น ด้วยความสามารถอันทรงพลัง LLM จึงถูกนำมาใช้มากขึ้นเรื่อยๆ ในฐานะผู้ประสานงานหลักในการสร้างตัวแทนอัตโนมัติ และตัวแทน AI ต่างๆ ก็ได้เกิดขึ้นอย่างต่อเนื่อง ตัวแทนเหล่านี้เสนอเส้นทางที่เป็นไปได้ไปสู่ระบบ AI ที่ซับซ้อนและปรับเปลี่ยนได้มากขึ้น โดยการเลียนแบบกระบวนการตัดสินใจที่เหมือนกับมนุษย์
ในขั้นตอนนี้ เป็นสิ่งสำคัญมากที่ต้องทำการวิเคราะห์แบบองค์รวมของตัวแทนอิสระที่ใช้ LLM ที่เกิดขึ้นใหม่และมีความสำคัญอย่างยิ่งที่จะต้องเข้าใจสถานะการพัฒนาของสาขานี้อย่างถ่องแท้และสร้างแรงบันดาลใจให้กับการวิจัยในอนาคต
ในบทความนี้ นักวิจัยจาก Hillhouse School of Artificial Intelligence แห่งมหาวิทยาลัย Renmin แห่งประเทศจีน ได้ทำการสำรวจตัวแทนอิสระที่ใช้ LLM อย่างครอบคลุม โดยมุ่งเน้นที่การก่อสร้าง การใช้งาน และการประเมินผล 3 ด้าน
สำหรับการสร้างตัวแทน พวกเขาเสนอกรอบการทำงานแบบครบวงจรซึ่งประกอบด้วยสี่ส่วน ได้แก่ โมดูลการกำหนดค่าเพื่อแสดงคุณลักษณะของตัวแทน โมดูลหน่วยความจำเพื่อจัดเก็บข้อมูลประวัติ โมดูลการวางแผนเพื่อกำหนดกลยุทธ์การดำเนินการในอนาคต และการดำเนินการ โมดูลเพื่อดำเนินการตัดสินใจในการวางแผน หลังจากแนะนำโมดูลตัวแทนทั่วไปแล้ว นักวิจัยยังสรุปกลยุทธ์การปรับแต่งที่ใช้กันทั่วไปเพื่อเพิ่มความสามารถในการปรับตัวของตัวแทนให้เข้ากับสถานการณ์การใช้งานที่แตกต่างกัน
จากนั้นนักวิจัยจึงร่างโครงร่างการใช้งานที่เป็นไปได้ของตัวแทนอัตโนมัติ โดยสำรวจว่าสิ่งเหล่านี้จะเป็นประโยชน์ต่อสาขาสังคมศาสตร์ วิทยาศาสตร์ธรรมชาติ และวิศวกรรมศาสตร์ได้อย่างไร ท้ายที่สุด มีการหารือถึงวิธีการประเมินสำหรับตัวแทนอิสระ รวมถึงกลยุทธ์การประเมินแบบอัตนัยและแบบวัตถุประสงค์ รูปด้านล่างแสดงโครงสร้างโดยรวมของบทความ
การก่อสร้างตัวแทนอิสระตาม LLM
เพื่อให้ตัวแทนอิสระที่ใช้ LLM มีประสิทธิภาพมากขึ้น มีสองประเด็นที่ต้องพิจารณา: ประการแรก สถาปัตยกรรมประเภทใดที่ควรได้รับการออกแบบเพื่อให้ตัวแทนสามารถใช้ LLM ได้ดีขึ้น ประการที่สอง วิธีการเรียนรู้พารามิเตอร์อย่างมีประสิทธิภาพ
การออกแบบสถาปัตยกรรมตัวแทน: บทความนี้เสนอกรอบงานแบบรวมเพื่อสรุปสถาปัตยกรรมที่เสนอในการศึกษาก่อนหน้านี้ โครงสร้างโดยรวมแสดงในรูปที่ 2 ซึ่งประกอบด้วยโมดูลโปรไฟล์ โมดูลหน่วยความจำ โมดูลการวางแผน และโมดูลการดำเนินการ
โมดูลการวิเคราะห์
ตัวแทนอัตโนมัติดำเนินงานผ่านบทบาทเฉพาะ เช่น โปรแกรมเมอร์ ครู และผู้เชี่ยวชาญด้านโดเมน โมดูลการวิเคราะห์มีจุดมุ่งหมายเพื่อระบุบทบาทของตัวแทน และโดยปกติแล้วข้อมูลนี้จะถูกเขียนลงในอินพุตพร้อมต์เพื่อมีอิทธิพลต่อพฤติกรรม LLM ในงานที่มีอยู่ มีสามกลยุทธ์ที่ใช้กันทั่วไปในการสร้างโปรไฟล์ตัวแทน: วิธีการประดิษฐ์ด้วยมือ วิธีการสร้าง LLM วิธีการจัดตำแหน่งชุดข้อมูล
โมดูลหน่วยความจำ
โมดูลหน่วยความจำมีบทบาทสำคัญในการสร้างเอเจนต์ AI จดจำข้อมูลที่รับรู้จากสภาพแวดล้อมและใช้หน่วยความจำที่บันทึกไว้เพื่ออำนวยความสะดวกในการดำเนินการในอนาคตของตัวแทน โมดูลหน่วยความจำสามารถช่วยให้ตัวแทนสั่งสมประสบการณ์ ตระหนักถึงการพัฒนาตนเอง และทำงานให้สำเร็จในลักษณะที่สอดคล้องกัน สมเหตุสมผล และมีประสิทธิภาพมากขึ้น
โมดูลการวางแผน
เมื่อมนุษย์เผชิญกับงานที่ซับซ้อน อันดับแรกพวกเขาจะแบ่งงานย่อยออกเป็นงานย่อยง่ายๆ ก่อน จากนั้นค่อยแก้ไขงานย่อยแต่ละงานทีละงาน โมดูลการวางแผนช่วยให้ตัวแทนที่ใช้ LLM มีความสามารถในการคิดและการวางแผนที่จำเป็นในการแก้ปัญหางานที่ซับซ้อน ทำให้ตัวแทนมีความครอบคลุม มีประสิทธิภาพ และเชื่อถือได้มากขึ้น บทความนี้นำเสนอโมดูลการวางแผนสองโมดูล: การวางแผนโดยไม่มีคำติชม และการวางแผนพร้อมคำติชม
โมดูลการดำเนินการ
โมดูลการดำเนินการมีจุดมุ่งหมายเพื่อแปลงการตัดสินใจของตัวแทนให้เป็นผลลัพธ์ผลลัพธ์ที่เฉพาะเจาะจง โดยจะโต้ตอบกับสภาพแวดล้อมโดยตรงและกำหนดประสิทธิภาพของตัวแทนในการทำงานให้เสร็จสิ้น ส่วนนี้จะแนะนำจากมุมมองของเป้าหมายการดำเนินการ นโยบาย พื้นที่การดำเนินการ และอิทธิพลของการดำเนินการ
นอกเหนือจาก 4 ส่วนข้างต้นแล้ว บทนี้ยังแนะนำกลยุทธ์การเรียนรู้ของตัวแทน รวมถึงการเรียนรู้จากตัวอย่าง การเรียนรู้จากผลตอบรับด้านสิ่งแวดล้อม และการเรียนรู้จากผลตอบรับของมนุษย์แบบโต้ตอบ
ตารางที่ 1 แสดงรายการความสอดคล้องระหว่างงานก่อนหน้าและอนุกรมวิธานของเรา:
บทนี้สำรวจผลกระทบด้านการเปลี่ยนแปลงของตัวแทนอิสระที่ใช้ LLM ในสามสาขาที่แตกต่างกัน: สังคมศาสตร์ วิทยาศาสตร์ธรรมชาติ และวิศวกรรม
ตัวอย่างเช่น ในวิทยาการคอมพิวเตอร์และวิศวกรรมซอฟต์แวร์ เอเจนต์ที่ใช้ LLM เสนอศักยภาพในการเข้ารหัส การทดสอบ การดีบัก และการสร้างเอกสารโดยอัตโนมัติ นักวิจัยบางคนได้เสนอ ChatDev ซึ่งเป็นเฟรมเวิร์กแบบ end-to-end ซึ่งเอเจนต์หลายรายสื่อสารและทำงานร่วมกันผ่านบทสนทนาภาษาธรรมชาติเพื่อทำให้วงจรการพัฒนาซอฟต์แวร์เสร็จสมบูรณ์ ToolBench สามารถใช้สำหรับงานต่างๆ เช่น การเติมโค้ดอัตโนมัติและการแนะนำโค้ด MetaGPT สามารถทำหน้าที่เป็นผู้จัดการผลิตภัณฑ์ สถาปนิก ผู้จัดการโครงการ และวิศวกร ดูแลการสร้างโค้ดภายในและปรับปรุงคุณภาพของโค้ดเอาต์พุตสุดท้าย ฯลฯ
ตารางต่อไปนี้แสดงแอปพลิเคชันตัวแทนของตัวแทนอัตโนมัติที่ใช้ LLM:
บทความนี้จะแนะนำกลยุทธ์การประเมินที่ใช้กันทั่วไปสองกลยุทธ์: การประเมินแบบอัตนัยและการประเมินตามวัตถุประสงค์
การประเมินเชิงอัตนัยหมายถึงความสามารถของมนุษย์ในการทดสอบตัวแทนที่ใช้ LLM ด้วยวิธีต่างๆ เช่น การโต้ตอบและการให้คะแนน ในกรณีนี้ ผู้ที่เข้าร่วมในการประเมินมักถูกคัดเลือกผ่านแพลตฟอร์มการระดมทุนจากมวลชน และนักวิจัยบางคนเชื่อว่าบุคลากรจากการระดมทุนจากมวลชนไม่เสถียรเนื่องจากความสามารถที่แตกต่างกันของแต่ละบุคคล ดังนั้นจึงใช้คำอธิบายประกอบของผู้เชี่ยวชาญในการประเมินด้วย
นอกจากนี้ ในการศึกษาปัจจุบันบางส่วน เราสามารถใช้ตัวแทน LLM เป็นผู้ประเมินแบบอัตนัยได้ ตัวอย่างเช่น ในการศึกษาของ ChemCrow uatorGPT จะประเมินผลการทดลองโดยการจัดระดับที่พิจารณาทั้งความสำเร็จของงานและความถูกต้องของกระบวนการคิดที่ซ่อนอยู่ อีกตัวอย่างหนึ่งคือ Chat ได้ก่อตั้งทีมผู้ตัดสินหลายตัวแทนที่ใช้ LLM เพื่อประเมินผลลัพธ์การสร้างโมเดลผ่านการถกเถียง
การประเมินตามวัตถุประสงค์มีข้อดีหลายประการเหนือการประเมินแบบอัตนัย ซึ่งหมายถึงการใช้หน่วยวัดเชิงปริมาณเพื่อประเมินความสามารถของตัวแทนอิสระที่ใช้ LLM ส่วนนี้จะทบทวนและสังเคราะห์วิธีการประเมินตามวัตถุประสงค์จากมุมมองของตัวชี้วัด กลยุทธ์ และเกณฑ์มาตรฐาน
เราสามารถรวมทั้งสองวิธีนี้เข้าด้วยกันในระหว่างการประเมินการใช้งาน
ตารางที่ 3 สรุปความสอดคล้องระหว่างงานก่อนหน้ากับกลยุทธ์การประเมินเหล่านี้: