การใช้ภาษาวรรณศิลป์จีนและการสนทนากับ AI ช่วยประหยัดโทเค็นได้ไหม? ภาพหน้าจอเดียวจุดชนวนการถกเถียง วิศวกร: ที่จริงแล้ว การใช้ภาษาอังกฤษต่างหากคือทางที่ถูกต้อง

ChainNewsAbmedia

「用文言,可減 token 乎?」——ประโยคนี้พร้อมกับ Claude Haiku 4.5 ตอบกลับเป็น文言文ว่า「可也。文言較為簡潔,用詞凝練,確能減損 token 之耗損」ได้สร้างความสนใจในสังคมออนไลน์และกระตุ้นการอภิปรายทางเทคนิคที่จริงจังและน่าสนใจ

ตรรกะของคำถามนี้

โดยสัญชาตญาณแล้ว,文言文จะมีความกระชับมากกว่า白話文——「蝶」เพียงตัวเดียว,ใน白話文ต้องพูดว่า「蝴蝶」;「可」เพียงตัวเดียว,ใน白話文ต้องพูดว่า「可以」ถ้าหากนับตัวอักษรแต่ละตัวเป็น token,ในทางทฤษฎี文言文สามารถประหยัด token ได้จริง ๆ Grok ก็ได้ตอบกลับในกระทู้ด้วย文言文ยืนยันคำกล่าวนี้

การโต้แย้งจากวิศวกร:tokenizer เป็นกุญแจสำคัญ

อย่างไรก็ตาม,วิศวกรหลายคนได้ชี้ให้เห็นถึงรายละเอียดทางเทคนิคที่มักถูกมองข้าม——token ไม่เท่ากับจำนวนตัวอักษร Tokenizer ของโมเดลตะวันตกอย่าง OpenAI ถูกปรับแต่งมาเพื่อภาษาอังกฤษ,เมื่อจัดการกับภาษาจีน,ตัวอักษรจีนหนึ่งตัวมักจะต้องใช้ 1-2 token,และตัวอักษร繁體字บางครั้งต้องใช้ token มากกว่าตัวอักษร簡體字 กล่าวคือ,「可」และ「可以」ในบางโมเดลอาจเป็น 2 token ทั้งคู่,แม้ว่าจำนวนตัวอักษรจะน้อยลง,token อาจไม่ลดลง

ข้อสรุปหลังการทดลองคือ:โมเดลสหรัฐฯ ใช้ภาษาอังกฤษประหยัดที่สุด,โมเดลจีนใช้ภาษาจีนสมัยใหม่ประหยัดที่สุด,เนื้อหาที่เหมือนกันใช้โมเดลในประเทศค่าใช้จ่าย token ภาษา中文อาจถูกกว่าภาษาอังกฤษประมาณ 20%

การค้นพบอีกอย่างที่น่าสนใจ:文言文อาจถูก「ข้ามกำแพง」ได้ง่ายกว่า

ในการอภิปรายมีการสังเกตที่น่าสนใจอีกอย่าง——โมเดล LLM กระแสหลักแทบไม่มีการตั้งการป้องกันสำหรับ文言文,การตั้งคำถามด้วย文言文จึงง่ายกว่าที่จะหลีกเลี่ยงข้อจำกัดด้านความปลอดภัย,แม้กระทั่งสามารถดึงข้อมูลที่โมเดลปกติจะปฏิเสธการตอบกลับได้ กล่าวกันว่ามีเอกสาร ICML หรือ ICLR บันทึกปรากฏการณ์นี้ไว้

ปัญหาคุณภาพของการเชื่อมโยงความคิดใน文言文

การโต้แย้งอีกอย่างมาจากประสบการณ์การใช้งานจริง:「ใช้文言文คิดเชื่อมโยงจะทำให้คุณภาพลดลง,เชื่อมโยงความคิดปกติสามารถตอบถูก,แต่เชื่อมโยงความคิดด้วย文言文จะผิดพลาด」เหตุผลก็ง่าย:ข้อมูลการฝึกของ LLM ส่วนใหญ่เป็นภาษาอังกฤษสมัยใหม่และภาษาจีนสมัยใหม่,ข้อมูล文言文มีไม่ถึงหนึ่งในสิบ,ให้มันคิดด้วย文言文ก็เหมือนให้มันใช้ภาษาไม่คุ้นเคยในการให้เหตุผล,อัตราการเกิดภาพหลอนจึงย่อมเพิ่มขึ้นทั้งสองทาง

ข้อสรุป:เป็น meme ที่ดี ไม่ใช่กลยุทธ์ทางวิศวกรรมที่ดี

ผลลัพธ์ของการอภิปรายคือ:สำหรับโมเดลตะวันตก,การใช้ภาษาอังกฤษคือวิธีที่ประหยัด token จริง ๆ;สำหรับโมเดลในประเทศ,ภาษาจีนสมัยใหม่มีความเสถียรกว่า文言文 ผลกระทบในการ「ประหยัด token」ของ文言文ในระดับ tokenizer นั้นอาจถูกชดเชย,กลับนำมาซึ่งความเสี่ยงในการลดคุณภาพการให้เหตุผล อย่างไรก็ตาม,ภาพหน้าจอนี้ได้บรรลุเป้าหมายอีกประการหนึ่ง:ทำให้ปัญหาต้นทุน AI ที่น่าเบื่อกลายเป็นการอภิปรายที่น่าสนใจที่ทุกคนสามารถมีส่วนร่วมได้

บทความนี้ ใช้文言文และ AI สนทนาสามารถประหยัด Token ได้ไหม?ภาพหน้าจอหนึ่งได้จุดชนวนการอภิปราย,วิศวกร:จริง ๆ แล้วการใช้ภาษาอังกฤษ才是王道 ปรากฏครั้งแรกใน 链新闻 ABMedia

news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น