Hasil 6 tahun, merangkak 2 juta+ kali, hanya mengklaim 1 yuan? Model AI itu dituduh "mencuri" data, tanggapan terbaru Xueersi

Question

Pengaturan: Zheng LiyuanDijual oleh: CSDN (ID: CSDNnews)Bulan lalu, Xueersi mengungkapkan bahwa saat ini sedang mengembangkan model matematika besar MathGPT sendiri, yang ditujukan untuk penggemar matematika global dan lembaga penelitian ilmiah, dan dibangun dengan algoritma pemecahan masalah dan kuliah di bidang matematika sebagai intinya.Saat itu, banyak orang yang merasa bahwa ChatGPT versi "mahasiswa sains" akhirnya hadir.Tanpa diduga, sebelum MathGPT benar-benar diluncurkan, "skandal" tentang hal itu pecah lebih dulu: Selasa ini, Aplikasi Komposisi Bishen menuduh Xueersi secara ilegal mengakses dan menyimpan data servernya sebanyak 2,58 juta orang melalui teknologi "perayap". mengembangkan produk baru "asisten AI komposisi" MathGPT.## **Hasil 6 tahun, dirayapi lebih dari 2 juta kali di akhir pekan**Salah satu protagonis dari insiden ini, Komposisi Bishen, adalah platform pendidikan komposisi K12 (pendidikan dari taman kanak-kanak hingga kelas 12) yang didirikan pada Desember 2017, yang berafiliasi dengan Beijing Yiyilianghua Technology Co., Ltd.Pada saat itu, pasar AI jauh kurang populer daripada sekarang, tetapi dengan fitur "menggunakan teknologi kecerdasan buatan untuk membantu penulis meningkatkan keterampilan menulis mereka", pada Januari 2018, Komposisi Bishen menerima beberapa juta yuan dalam putaran awal. pembiayaan dari ZhenFund Pada Juli 2019, itu menyelesaikan putaran pembiayaan jutaan malaikat.Menurut informasi resmi, Komposisi Penshen telah online selama enam tahun, dan telah menerima lebih dari 300.000 kiriman esai dan lebih dari 400.000 suka dan komentar setiap bulan. Ini telah mengumpulkan jutaan bahan komposisi dan mengoreksi lebih dari 30.000 esai per bulan. .Dengan lahirnya ChatGPT pada akhir tahun lalu, Shiji Tianhong, salah satu investor Penshen, pernah mengatakan bahwa "Penshen" dan ChatGPT memiliki teknologi yang sama, dan keduanya mengadopsi algoritma terbaru berdasarkan Transformer sebagai lapisan bawahnya. model AI. Song Jiawei, pendiri Komposisi Bishen, juga memperkenalkan: "Satu pukulan dan dua pukulan saat ini memiliki lebih dari 60% tim sebagai personel R&D teknis. Sebelum pendirian perusahaan, tim telah mendirikan perusahaan NLP. Itu telah dibudidayakan bertahun-tahun."Oleh karena itu, secara keseluruhan, model algoritme Komposisi Penshen dikembangkan dan dilatih sendiri oleh perusahaan, dan data besar platformnya berasal dari akumulasinya sendiri.Karena akumulasi teknis dan pencapaian luar biasa dalam menulis, Komposisi Bishen dan Xueersi mencapai kerja sama tiga tahun lalu: menandatangani kontrak dengan aplikasi alat pembelajaran Xueersi "Tipai Pai", yang terutama bertanggung jawab untuk menyediakan layanan kueri materi komposisi.Sebagai mitra, Komposisi Bishen minggu ini menyatakan: Pada 13 April, sesuatu yang tidak kami harapkan terjadi. Prestasi enam tahun tim kami sejak berdirinya perusahaan dicapai oleh "Xueersi" yang telah bekerja sama selama bertahun-tahun hanya dalam satu waktu singkat. Lebih dari dua juta penjelajahan dalam satu akhir pekan!## **Banding: kompensasi 1 yuan, permintaan maaf publik, dan penghapusan data**Dilihat dari pernyataan Weibo resmi Komposisi Penshen, itu tidak memiliki mekanisme keamanan data yang lengkap, dan belum mengatur semua tindakan pencegahan untuk "mitranya" Xueersi, yang menyebabkan Anak Perusahaan Santi Yunlian (Xueersi) memanfaatkan kepercayaan ini , yaitu: tanpa otorisasi APP Komposisi Pen God, dari 13 April hingga 17 April 2023, akses dan cache server APP Komposisi Pen God secara ilegal melalui teknologi "perayap" Data hingga 2,58 juta kali.Dalam hal ini, Komposisi Bishen mengklaim bahwa perilaku ini melanggar ketentuan kontrak antara kedua belah pihak, dan bahkan melanggar Pasal 32 "Hukum Perlindungan Data" "Organisasi atau individu mana pun harus mengumpulkan data dengan cara yang sah dan benar, dan harus tidak mencuri atau menggunakan metode lain untuk mengumpulkan data." Memperoleh data secara ilegal” telah secara serius melanggar hak dan kepentingan data APP Bishenzuowen.Setelah itu, Komposisi Penshen meminta Xueersi untuk verifikasi, dan pihak lain langsung mengakui bahwa grup algoritme mereka sedang merayapi data dan menggunakannya untuk penggunaan mereka sendiri. Oleh karena itu, Komposisi Penshen mengirimkan surat pengacara, tetapi tidak mendapat balasan yang substantif dari pihak lain.Saat ini, model AI MathGPT Xueersi akan meluncurkan produk baru "Asisten AI Komposisi"."Sebagai perusahaan yang jauh lebih kecil dari 'Xueersi', kami tidak punya pilihan selain melindungi hak-hak kami melalui jalur hukum." Pencurian data model besar AI] preseden penilaian, sehingga hanya dapat "mengambil langkah pertama ini dengan berani".Adapun daya tarik Komposisi Penshen, sebenarnya tidak meminta kompensasi dalam jumlah besar: Saya hanya ingin Xueersi membayar kompensasi 1 yuan, meminta maaf secara terbuka dan menghapus data yang dirayapi.Dalam hal ini, Komposisi Bishen menjelaskan: "Data berharga, tetapi kerja keras kami bahkan lebih tak ternilai harganya. Tuntutan 1 yuan adalah karena keadilan dan keadilan tidak dapat diukur dengan uang. Kami berharap dapat memberi tahu masyarakat bahwa perilaku ini salah melalui litigasi. Perkembangan industri kecerdasan buatan bergantung pada kreasi bersama daripada mengingini dan menjiplak pencapaian orang lain."![](https://img.gateio.im/social/moments-bab2147faf-be0be09278-dd1a6f-62a40f) Memang benar seperti yang dikatakan dewa pena, volumenya tidak besar, sehingga pernyataan ini tidak menarik banyak perhatian, tetapi hanya sedikit komentar yang mengutuk perilaku belajar dan berpikir.## **Tanggapan Xueersi: Semua memenuhi persyaratan kontrak**Setelah diberitakan oleh banyak media, kejadian ini berangsur-angsur mereda, sehingga Weibo resmi Xueersi juga memposting tanggapannya tadi malam:> Pertama-tama, MathGPT adalah model besar yang dikembangkan sendiri yang berfokus pada bidang matematika, tanpa data terkait komposisi apa pun; kedua, "Asisten AI Komposisi" saat ini sedang dikembangkan dan belum dirilis. Layanan ini tidak menggunakan data apa pun dari Komposisi Penshen.![](https://img.gateio.im/social/moments-bab2147faf-f1f40067e4-dd1a6f-62a40f) Namun, Komposisi Bishen mengklaim bahwa lebih dari 2 juta kali data telah dirayapi.Xueersi menunjukkan bahwa kontrak dengan jelas menyatakan bahwa "jumlah panggilan yang termasuk dalam biaya jaminan bulanan ada di urutan jutaan", dan antarmuka yang dipanggilnya "termasuk dalam perjanjian kontrak antara kedua pihak. lingkup kerja sama yang normal".Di akhir tanggapan, Xueersi menekankan bahwa "selalu menghormati hak kekayaan intelektual dan sangat mementingkan perlindungan kekayaan intelektual", dan semua tindakan dilakukan secara ketat sesuai dengan kontrak. , kami akan berhak untuk mengejar pelanggaran reputasinya tanggung jawab."## **Masalah hak cipta data pelatihan AI**Dilihat dari pernyataan kedua belah pihak saat ini, perselisihan ini belum dapat menarik kesimpulan akhir, tetapi juga mengungkapkan titik buta yang mudah diabaikan tetapi sangat penting dalam persaingan model skala besar AI yang semakin panas baru-baru ini: data pelatihan AI. masalah.Nyatanya, Reddit, "Tieba versi AS" yang baru-baru ini membuat banyak keributan di Internet, memutuskan untuk memaksakan biaya API karena alasan ini.Dalam beberapa tahun terakhir, konten obrolan yang dipublikasikan di Reddit telah menjadi bahan bagi perusahaan seperti Google, OpenAI, dan Microsoft untuk melatih model besar AI untuk mengembangkan produk AI generatif seperti ChatGPT. Dengan popularitas alat AI semacam itu, pendiri dan CEO Reddit berkata: "Korpus data Reddit sangat berharga, tetapi kami tidak ingin memberikan konten ini ke beberapa perusahaan raksasa secara gratis."Setelah Reddit memimpin dalam meminta raksasa teknologi untuk membayar penggunaan data, Stack Overflow, situs web tanya jawab TI yang terkenal, juga mengumumkan rencana untuk membebankan biaya kepada pengembang AI besar untuk akses data mulai pertengahan tahun ini. (LLM ) pembangunan, kontribusi yang diberikan juga harus dikompensasi.”Selain situs besar seperti Reddit dan Stack Overflow, bahkan di kalangan pengembang, beberapa programmer juga mengumumkan bahwa mereka akan meninggalkan GitHub karena dugaan pelanggaran hak cipta kode Copilot:![](https://img.gateio.im/social/moments-bab2147faf-1d59f27860-dd1a6f-62a40f)  ![](https://img.gateio.im/social/moments-bab2147faf-ee27c3535c-dd1a6f-62a40f) Tidak diragukan lagi, dalam proses membuat model besar AI menjadi lebih pintar, data pelatihan yang masif sangat penting, tetapi dari sudut pandang saat ini, OpenAI, "ayam goreng populer" di bidang AI saat ini, tidak memiliki banyak masalah hak cipta. untuk data pelatihan. solusi yang bagus.Namun, dengan semakin majunya ledakan AI, masalah ini pasti akan teratasi. Seperti yang dikatakan Chen Zhong, seorang profesor di Sekolah Ilmu Komputer Universitas Peking, mengatakan: “Mungkin pada tahap awal penelitian dan pengembangan, orang tidak peduli dengan sumber data, tetapi ketika Anda menghasilkan manfaat ekonomi yang besar, model ekonomi tradisional dan sistem hukum akan membatasi penelitian dan pengembangan Anda. Perilaku."Jadi apa pendapat Anda tentang masalah ini?Tautan referensi: