ผลลัพธ์ 6 ปี รวบรวมข้อมูลมากกว่า 2 ล้านครั้ง ขอรับเพียง 1 หยวน? โมเดล AI ถูกกล่าวหาว่า "ขโมย" ข้อมูล คำตอบล่าสุดของ Xueersi

เรียบเรียง: เจิ้ง ลี่หยวน

ขายโดย: CSDN (ID: CSDNnews)

เมื่อเดือนที่แล้ว Xueersi เปิดเผยว่าขณะนี้บริษัทกำลังพัฒนาแบบจำลองทางคณิตศาสตร์ขนาดใหญ่ของตัวเองอย่าง MathGPT ซึ่งมุ่งเป้าไปที่ผู้ที่ชื่นชอบคณิตศาสตร์ทั่วโลกและสถาบันการวิจัยทางวิทยาศาสตร์ และสร้างขึ้นโดยใช้อัลกอริทึมการแก้ปัญหาและการบรรยายในสาขาคณิตศาสตร์เป็นแกนหลัก

ในเวลานั้นหลายคนรู้สึกว่า ChatGPT เวอร์ชัน "นักเรียนวิทยาศาสตร์" กำลังจะมาในที่สุด

โดยไม่คาดคิด ก่อนที่ MathGPT จะเปิดตัวจริง "เรื่องอื้อฉาว" เกี่ยวกับเรื่องนี้ก็เกิดขึ้นก่อน เมื่อวันอังคารที่ผ่านมา Bishen Composition App กล่าวหาว่า Xueersi เข้าถึงและแคชข้อมูลมากถึง 2.58 ล้านข้อมูลบนเซิร์ฟเวอร์ผ่านเทคโนโลยี "โปรแกรมรวบรวมข้อมูล" อย่างผิดกฎหมาย ครั้ง ถึง พัฒนาผลิตภัณฑ์ใหม่ของ "ผู้ช่วย AI การจัดองค์ประกอบ" ของ MathGPT

ผลลัพธ์ 6 ปี รวบรวมข้อมูลมากกว่า 2 ล้านครั้งในช่วงสุดสัปดาห์

หนึ่งในตัวเอกของเหตุการณ์นี้คือ Bishen Composition เป็นแพลตฟอร์มการศึกษาการประพันธ์เพลงระดับ K12 (ระดับอนุบาลถึงเกรด 12) ที่ก่อตั้งขึ้นในเดือนธันวาคม 2017 ซึ่งเป็นของ Beijing Yiyilianghua Technology Co., Ltd.

ในเวลานั้น ตลาด AI ได้รับความนิยมน้อยกว่าตอนนี้มาก แต่ด้วยคุณสมบัติ "การใช้เทคโนโลยีปัญญาประดิษฐ์เพื่อช่วยนักเขียนพัฒนาทักษะการเขียน" ในเดือนมกราคม 2018 Bishen Composition ได้รับเงินหลายล้านหยวนในรอบเริ่มต้น การจัดหาเงินทุนจาก ZhenFund ในเดือนกรกฎาคม 2019 เสร็จสิ้นการจัดหาเงินทุนหลายล้านครั้ง

ตามข้อมูลอย่างเป็นทางการ Pen God Composition ออนไลน์มาหกปีแล้วและได้รับการส่งเรียงความมากกว่า 300,000 รายการและชอบและแสดงความคิดเห็นมากกว่า 400,000 รายการทุกเดือน มันสะสมสื่อการเรียบเรียงหลายล้านรายการและแก้ไขบทความมากกว่า 30,000 รายการต่อเดือน

ด้วยการกำเนิดของ ChatGPT เมื่อปลายปีที่แล้ว Shiji Tianhong หนึ่งในนักลงทุนของ Penshen เคยกล่าวว่า "Penshen" และ ChatGPT มีเทคโนโลยีเดียวกัน และทั้งคู่ใช้อัลกอริทึมล่าสุดที่ใช้ Transformer เป็นชั้นล่างสุดของ โมเดลเอไอ Song Jiawei ผู้ก่อตั้ง Bishen Composition ยังแนะนำด้วยว่า: "ปัจจุบันหนึ่งจังหวะและสองจังหวะมีมากกว่า 60% ของทีมเป็นบุคลากรด้านเทคนิค R&D ก่อนที่จะก่อตั้งบริษัท ทีมงานได้ก่อตั้งบริษัท NLP มันได้รับการปลูกฝัง เป็นเวลาหลายปี."

ดังนั้น โดยรวมแล้ว โมเดลอัลกอริทึมของ Penshen Composition จึงได้รับการพัฒนาและฝึกอบรมด้วยตนเองโดยบริษัท และข้อมูลขนาดใหญ่ของแพลตฟอร์มก็มาจากการสะสมของตัวเอง

เนื่องจากการสั่งสมทางเทคนิคและความสำเร็จที่โดดเด่นในการเขียน Bishen Composition และ Xueersi จึงบรรลุความร่วมมือเมื่อ 3 ปีก่อน โดยได้เซ็นสัญญากับแอปเครื่องมือการเรียนรู้ของ Xueersi "Tipai Pai" ซึ่งรับผิดชอบหลักในการให้บริการค้นหาเนื้อหาการเรียบเรียง

ในฐานะหุ้นส่วน Bishen Composition ของสัปดาห์นี้ระบุว่า: ในวันที่ 13 เมษายน มีบางอย่างที่เราไม่คาดคิดเกิดขึ้น ความสำเร็จ 6 ปีของทีมเราตั้งแต่ก่อตั้งบริษัทสำเร็จโดย "Xueersi" ซึ่งร่วมมือมาหลายปีในเวลาเพียง ช่วงเวลาสั้น ๆ มีการรวบรวมข้อมูลมากกว่าสองล้านครั้งในหนึ่งสัปดาห์!

อุทธรณ์: ชดเชย 1 หยวน ขอโทษสาธารณะ และลบข้อมูล

เมื่อพิจารณาจากแถลงการณ์ Weibo อย่างเป็นทางการของ Penshen Composition บริษัทไม่มีกลไกการรักษาความปลอดภัยข้อมูลที่สมบูรณ์ และไม่ได้ตั้งค่าการป้องกันทั้งหมดสำหรับ "พันธมิตร" Xueersi ซึ่งทำให้ Santi Yunlian (Xueersi) บริษัทในเครือ) ใช้ประโยชน์จากความไว้วางใจนี้ นั่นคือ: โดยไม่ได้รับอนุญาตจาก Pen God Composition APP ตั้งแต่วันที่ 13 เมษายนถึง 17 เมษายน 2023 เข้าถึงและแคชเซิร์ฟเวอร์ Pen God Composition APP อย่างผิดกฎหมายผ่านเทคโนโลยี "ซอฟต์แวร์รวบรวมข้อมูล" ข้อมูลสูงถึง 2.58 ล้านครั้ง

ในเรื่องนี้ Bishen Composition อ้างว่าพฤติกรรมนี้ละเมิดเงื่อนไขของสัญญาระหว่างทั้งสองฝ่าย และยังละเมิดมาตรา 32 ของ "กฎหมายคุ้มครองข้อมูล" "องค์กรหรือบุคคลใด ๆ จะต้องรวบรวมข้อมูลในลักษณะที่ถูกต้องตามกฎหมายและเหมาะสม และจะ ไม่ขโมยหรือใช้วิธีการอื่นในการรวบรวมข้อมูล "การได้รับข้อมูลอย่างผิดกฎหมาย" ได้ละเมิดสิทธิ์ข้อมูลและผลประโยชน์ของ Bishenzuowen APP อย่างร้ายแรง

หลังจากนั้น Penshen Composition ขอให้ Xueersi ตรวจสอบ และอีกฝ่ายยอมรับโดยตรงว่ากลุ่มอัลกอริทึมของพวกเขากำลังรวบรวมข้อมูลและนำไปใช้เพื่อการใช้งานของตนเอง ดังนั้น Penshen Composition จึงส่งจดหมายของทนายความแต่ไม่ได้รับคำตอบที่เป็นสาระสำคัญจากอีกฝ่าย ในเวลานี้ MathGPT โมเดล AI ของ Xueersi กำลังจะเปิดตัวผลิตภัณฑ์ใหม่ "Composition AI Assistant"

"ในฐานะบริษัทที่เล็กกว่า 'Xueersi' มาก เราจึงไม่มีทางเลือกอื่นนอกจากปกป้องสิทธิ์ของเราผ่านช่องทางกฎหมาย" การโจรกรรมข้อมูลแบบจำลองขนาดใหญ่ของ AI] เป็นแบบอย่างในการตัดสิน ดังนั้นจึงทำได้เพียง "ดำเนินการขั้นตอนแรกนี้อย่างกล้าหาญ"

สำหรับการอุทธรณ์ของ Penshen Composition นั้น จริงๆ แล้วไม่ได้ขอค่าชดเชยจำนวนมาก ฉันแค่ต้องการให้ Xueersi จ่ายค่าชดเชย 1 หยวน ขอโทษต่อสาธารณะ และลบข้อมูลที่รวบรวมไว้

ในเรื่องนี้ Bishen Composition อธิบายว่า: "ข้อมูลมีค่า แต่การทำงานหนักของเรานั้นประเมินค่าไม่ได้ การเรียกร้องเงิน 1 หยวนเป็นเพราะความยุติธรรมและความยุติธรรมไม่สามารถวัดได้ด้วยเงิน เราหวังว่าจะบอกสังคมว่าพฤติกรรมนี้ไม่ถูกต้องผ่าน การดำเนินคดี การพัฒนาอุตสาหกรรมปัญญาประดิษฐ์ขึ้นอยู่กับการสร้างสรรค์ร่วมกันมากกว่าการละโมบและลอกเลียนแบบความสำเร็จของผู้อื่น"

เป็นความจริงดังที่องค์ประกอบของเทพเจ้าแห่งปากกากล่าวไว้ ปริมาณของมันไม่มาก ดังนั้นข้อความนี้จึงไม่ดึงดูดความสนใจมากนัก แต่มีเพียงความคิดเห็นไม่กี่ความคิดเห็นที่ประณามพฤติกรรมการเรียนรู้และการคิด

การตอบสนองของ Xueersi: ทั้งหมดเป็นไปตามข้อกำหนดของสัญญา

หลังจากมีรายงานจากหลายสื่อ เหตุการณ์นี้ก็ค่อยๆ ปะทุขึ้น ดังนั้น Weibo อย่างเป็นทางการของ Xueersi จึงโพสต์ตอบกลับเมื่อคืนนี้ว่า:

ประการแรก MathGPT เป็นแบบจำลองขนาดใหญ่ที่พัฒนาขึ้นเองโดยเน้นที่สาขาคณิตศาสตร์โดยไม่มีข้อมูลที่เกี่ยวข้องกับการจัดองค์ประกอบ ประการที่สอง ขณะนี้ "Composition AI Assistant" อยู่ระหว่างการพัฒนาและยังไม่ได้เผยแพร่ บริการนี้ไม่ได้ใช้งาน ข้อมูลใด ๆ จากองค์ประกอบ Penshen

อย่างไรก็ตาม Bishen Composition อ้างว่ามีการรวบรวมข้อมูลมากกว่า 2 ล้านครั้ง Xueersi ชี้ให้เห็นว่าสัญญาระบุไว้อย่างชัดเจนว่า "เป็นข้อตกลงสัญญาระหว่างทั้งสองฝ่ายขอบเขตความร่วมมือตามปกติ".

ในตอนท้ายของการตอบสนอง Xueersi เน้นย้ำว่า "เคารพสิทธิ์ในทรัพย์สินทางปัญญาเสมอและให้ความสำคัญอย่างยิ่งต่อการคุ้มครองทรัพย์สินทางปัญญา" และการดำเนินการทั้งหมดจะดำเนินการอย่างเคร่งครัดตามสัญญา แต่: "คำแถลงสาธารณะของ Penshen Composition ได้แล้ว ทำให้ชื่อเสียงของแบรนด์ Xueersi เสียหาย เราจะขอสงวนสิทธิ์ในการรับผิดชอบต่อการละเมิดชื่อเสียง"

ปัญหาลิขสิทธิ์ของข้อมูลการฝึกอบรม AI

เมื่อพิจารณาจากแถลงการณ์ปัจจุบันของทั้งสองฝ่าย ข้อพิพาทนี้ยังไม่ได้ข้อสรุปขั้นสุดท้าย แต่ก็ยังเผยให้เห็นจุดบอดที่มองข้ามได้ง่ายแต่มีความสำคัญมากในการแข่งขันแบบจำลองขนาดใหญ่ของ AI ที่ร้อนแรงมากขึ้นเมื่อเร็ว ๆ นี้: ข้อมูลการฝึกอบรม AI ปัญหาลิขสิทธิ์

ในความเป็นจริง Reddit ซึ่งเป็น "Tieba เวอร์ชั่นอเมริกา" ที่สร้างกระแสฮือฮาบนอินเทอร์เน็ตเมื่อเร็วๆ นี้ ตัดสินใจบังคับจ่ายค่าธรรมเนียม API ด้วยเหตุผลนี้

ในช่วงไม่กี่ปีที่ผ่านมา เนื้อหาแชทที่เผยแพร่บน Reddit ได้กลายเป็นเนื้อหาสำหรับบริษัทต่างๆ เช่น Google, OpenAI และ Microsoft ในการฝึกอบรมโมเดลขนาดใหญ่ของ AI เพื่อพัฒนาผลิตภัณฑ์ AI เชิงสร้างสรรค์ เช่น ChatGPT ด้วยความนิยมของเครื่องมือ AI ดังกล่าว ผู้ก่อตั้งและซีอีโอของ Reddit กล่าวว่า "คลังข้อมูลของ Reddit มีค่ามาก แต่เราไม่ต้องการให้เนื้อหานี้แก่บริษัทยักษ์ใหญ่บางแห่งฟรี"

หลังจากที่ Reddit เป็นผู้นำในการขอให้ยักษ์ใหญ่ด้านเทคโนโลยีจ่ายเงินสำหรับการใช้ข้อมูล Stack Overflow ซึ่งเป็นเว็บไซต์คำถามและคำตอบด้านไอทีที่มีชื่อเสียงก็ประกาศแผนการเรียกเก็บเงินจากนักพัฒนา AI รายใหญ่สำหรับการเข้าถึงข้อมูลตั้งแต่กลางปีนี้ (LLM ) การพัฒนาผลงานที่ทำจะต้องได้รับการชดเชยด้วย”

นอกจากไซต์ขนาดใหญ่เช่น Reddit และ Stack Overflow แล้ว แม้แต่ในแวดวงนักพัฒนาโปรแกรมเมอร์บางคนยังประกาศว่าพวกเขาจะละทิ้ง GitHub เนื่องจากการละเมิดลิขสิทธิ์โค้ดของ Copilot:

ไม่ต้องสงสัยเลยว่าในกระบวนการทำให้โมเดลขนาดใหญ่ของ AI ฉลาดขึ้น ข้อมูลการฝึกอบรมจำนวนมากเป็นสิ่งจำเป็น แต่จากมุมมองปัจจุบัน OpenAI ซึ่งเป็น "ไก่ทอดยอดนิยม" ในแวดวง AI ในปัจจุบัน ไม่มีปัญหาด้านลิขสิทธิ์มากนัก สำหรับข้อมูลการฝึกอบรม ทางออกที่ดี

อย่างไรก็ตาม ด้วยความก้าวหน้าเพิ่มเติมของ AI ที่กำลังบูม ปัญหานี้จะต้องได้รับการแก้ไขอย่างแน่นอน ดังที่ Chen Zhong ศาสตราจารย์แห่งคณะวิทยาการคอมพิวเตอร์แห่งมหาวิทยาลัยปักกิ่งกล่าวว่า “บางทีในช่วงแรกของการวิจัยและพัฒนา ผู้คนไม่สนใจแหล่งที่มาของข้อมูล แต่เมื่อคุณสร้างผลประโยชน์ทางเศรษฐกิจมหาศาล แบบจำลองเศรษฐกิจแบบดั้งเดิม และระบบกฎหมายจะจำกัดการวิจัยและพัฒนาของคุณ พฤติกรรม"

แล้วคุณคิดอย่างไรเกี่ยวกับประเด็นนี้?

ลิงค์อ้างอิง:

ดูต้นฉบับ
เนื้อหานี้มีสำหรับการอ้างอิงเท่านั้น ไม่ใช่การชักชวนหรือข้อเสนอ ไม่มีคำแนะนำด้านการลงทุน ภาษี หรือกฎหมาย ดูข้อจำกัดความรับผิดชอบสำหรับการเปิดเผยความเสี่ยงเพิ่มเติม
  • รางวัล
  • แสดงความคิดเห็น
  • แชร์
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น
  • ปักหมุด