6 yıllık sonuçlar, 2 milyondan fazla kez tarandı, yalnızca 1 yuan mı talep edildi? AI modeli, Xueersi'nin son yanıtı olan verileri "çalmakla" suçlandı

Question

Düzenleme: Zheng LiyuanSatıcı: CSDN (ID: CSDNnews)Geçen ay Xueersi, küresel matematik meraklılarını ve bilimsel araştırma kurumlarını hedefleyen ve matematik alanında temel olarak problem çözme ve ders verme algoritmaları ile inşa edilen kendi büyük matematiksel modeli MathGPT'yi geliştirmekte olduğunu açıkladı.O zamanlar birçok kişi ChatGPT'nin "bilim öğrencileri" versiyonunun nihayet geleceğini hissetti.Beklenmedik bir şekilde, MathGPT fiilen başlatılmadan önce, bununla ilgili "skandal" ilk olarak patlak verdi: Bu Salı günü, Bishen Kompozisyon Uygulaması, Xueersi'yi "paletli" teknolojisi aracılığıyla 2,58 milyon kadar kişinin sunucu verilerine yasa dışı bir şekilde erişmek ve önbelleğe almakla suçladı. MathGPT'nin yeni ürünü olan "kompozisyon AI asistanı"nı geliştirin.## **6 yıllık sonuçlar, bir haftasonunda 2 milyondan fazla kez tarandı**Bu olayın baş aktörlerinden biri olan Bishen Composition, Beijing Yiyilianghua Technology Co., Ltd.'ye bağlı, Aralık 2017'de kurulmuş bir K12 (anaokulundan 12. sınıfa kadar eğitim) kompozisyon eğitim platformudur.O zamanlar, AI pazarı şu an olduğundan çok daha az popülerdi, ancak "yazarların yazma becerilerini geliştirmelerine yardımcı olmak için yapay zeka teknolojisini kullanma" özelliğiyle, Bishen Composition, Ocak 2018'de tohum turunda birkaç milyon yuan aldı. ZhenFund'dan finansman Temmuz 2019'da, multi-milyonluk bir melek finansman turunu tamamladı.Resmi bilgilere göre, Pen God Composition altı yıldır çevrimiçi ve her ay 300.000'den fazla makale gönderimi ve 400.000'den fazla beğeni ve yorum aldı. Milyonlarca kompozisyon materyali biriktirdi ve ayda 30.000'den fazla makaleyi düzeltti.Geçen yılın sonunda ChatGPT'nin doğuşuyla, Penshen'in yatırımcılarından biri olan Shiji Tianhong, bir keresinde "Penshen" ve ChatGPT'nin aynı teknolojiye sahip olduğunu ve her ikisinin de en alt katman olarak Transformer'a dayalı en son algoritmayı benimsediğini söylemişti. AI modeli. Bishen Composition'ın kurucusu Song Jiawei de şunları söyledi: "Tek vuruş ve iki vuruş şu anda teknik Ar-Ge personeli olarak ekibin %60'ından fazlasına sahip. Şirket kurulmadan önce ekip NLP şirketleri kurmuştu. yıllarca."Bu nedenle, genel olarak Penshen Composition'ın algoritma modeli, şirket tarafından kendi geliştirdiği ve eğittiği ve platformunun büyük verisi kendi birikiminden geliyor.Bishen Composition ve Xueersi, teknik birikimi ve yazma alanındaki dikkate değer başarıları nedeniyle üç yıl önce bir işbirliğine ulaştı: Xueersi'nin ağırlıklı olarak kompozisyon materyali sorgulama hizmetleri sağlamaktan sorumlu olan öğrenme aracı uygulaması "Tipai Pai" ile bir sözleşme imzaladı.Bir ortak olarak, bu haftaki Bishen Kompozisyonu şunları söyledi: 13 Nisan'da beklemediğimiz bir şey oldu. Ekibimizin şirketin kuruluşundan bu yana altı yıllık başarıları, uzun yıllar işbirliği yapan "Xueersi" tarafından sadece bir anda elde edildi. kısa süre Bir hafta sonunda iki milyondan fazla tarama!## **İtiraz: 1 yuan tazminat, genel özür ve veri silme**Penshen Composition'ın resmi Weibo açıklamasına bakılırsa, tam bir veri güvenliği mekanizmasına sahip değil ve "ortakları" Xueersi için tüm önlemleri almamış, bu da Santi Yunlian (Xueersi) İştiraklerinin bu güvenden faydalanmasına yol açmıştır. , yani: Pen God Composition APP'nin izni olmadan, 13 Nisan - 17 Nisan 2023 tarihleri arasında, Pen God Composition APP sunucusuna "paletli" teknoloji aracılığıyla yasa dışı bir şekilde erişin ve önbelleğe alın Veriler 2,58 milyon defaya kadar çıkıyor.Bu bağlamda Bishen Composition, bu davranışın iki taraf arasındaki sözleşme şartlarına aykırı olduğunu ve hatta “Kişisel Verilerin Korunması Kanunu”nun 32. maddesini ihlal ettiğini ileri sürmektedir. Veri toplamak için başka yöntemler çalmamalı veya kullanmamalıdır." "Yasadışı olarak veri elde etme" Bishenzuowen APP'nin veri haklarını ve çıkarlarını ciddi şekilde ihlal etmiştir.Daha sonra Penshen Composition, Xueersi'den doğrulama istedi ve diğer taraf, algoritma gruplarının verileri taradığını ve kendi kullanımları için kullandığını doğrudan kabul etti. Bu nedenle Penshen Composition bir avukat mektubu gönderdi, ancak karşı taraftan somut bir yanıt alamadı.Şu anda, Xueersi'nin AI modeli MathGPT yeni bir ürün olan "Composition AI Assistant"ı piyasaya sürmek üzere."'Xueersi'den çok daha küçük bir şirket olarak, haklarımızı yasal kanallar aracılığıyla korumaktan başka seçeneğimiz yok." AI büyük model veri hırsızlığı] yargı emsali, bu nedenle yalnızca "bu ilk adımı cesurca atabilir".Penshen Composition'ın itirazına gelince, aslında büyük miktarda tazminat talep etmiyor: Ben sadece Xueersi'nin tazminat olarak 1 yuan ödemesini, herkesin önünde özür dilemesini ve taranan verileri silmesini istiyorum.Bishen Kompozisyon bu konuda şunları söyledi: "Veri değerlidir, ancak bizim sıkı çalışmamız daha da paha biçilemez. 1 yuan iddiası, çünkü adalet ve adalet parayla ölçülemez. Topluma bu davranışın yanlış olduğunu aracılığıyla anlatmayı umuyoruz. Yapay zeka endüstrisinin gelişimi, başkalarının başarılarına göz dikmek ve onları çalmak yerine birlikte yaratmaya dayanır."![](https://img.gateio.im/social/moments-bab2147faf-be0be09278-dd1a6f-62a40f) Kalem tanrısının kompozisyonunun dediği gibi, hacminin büyük olmadığı doğrudur, bu nedenle bu ifade pek dikkat çekmedi, ancak yalnızca birkaç yorum öğrenme ve düşünme davranışını kınadı.## **Xueersi Yanıtı: Hepsi sözleşme gereksinimlerini karşılıyor**Birçok medya tarafından bildirildikten sonra, bu olay yavaş yavaş mayalandı, bu yüzden Xueersi'nin resmi Weibo'su da dün gece buna bir yanıt gönderdi:> Öncelikle MathGPT, kompozisyonla ilgili herhangi bir veri içermeyen, matematik alanına odaklanan, kendi geliştirdiği büyük bir modeldir, ikincisi, "Composition AI Assistant" şu anda geliştirilme aşamasındadır ve henüz piyasaya sürülmemiştir. Penshen Bileşiminden herhangi bir veri.![](https://img.gateio.im/social/moments-bab2147faf-f1f40067e4-dd1a6f-62a40f) Ancak Bishen Composition, 2 milyondan fazla verinin tarandığını iddia etti.Xueersi, sözleşmede "aylık garantili ücrete dahil olan arama sayısının milyon mertebesinde olduğunu" açıkça belirttiğine ve çağırdığı arayüze dikkat çekti. "iki taraf arasındaki sözleşme sözleşmesine aittir. işbirliğinin normal kapsamı".Yanıtın sonunda Xueersi, "fikri mülkiyet haklarına her zaman saygı duyduğunu ve fikri mülkiyet korumasına büyük önem verdiğini" ve tüm eylemlerin kesinlikle sözleşmeye uygun olarak gerçekleştirildiğini vurguladı, ancak: "Penshen Composition'ın kamuoyu açıklaması zaten Xueersi'nin marka itibarına zarar verdi. , itibar ihlali sorumluluğunu takip etme hakkımızı saklı tutacağız."## **AI eğitim verilerinin telif hakkı sorunu**Her iki tarafın yaptığı mevcut açıklamalara bakılırsa, bu tartışma henüz nihai bir sonuca varamıyor, ancak aynı zamanda kolayca gözden kaçan ancak son zamanlarda giderek kızışan büyük ölçekli yapay zeka model yarışmasında çok önemli olan bir kör noktayı da ortaya koyuyor: AI eğitim verileri. sorun.Hatta son zamanlarda internette çok ses getiren "Tieba'nın ABD versiyonu" Reddit, bu nedenle API ücretlerini zorlama kararı aldı.Son yıllarda Reddit'te yayınlanan sohbet içeriği, ChatGPT gibi üretken AI ürünleri geliştirmek için AI büyük modellerini eğitmek üzere Google, OpenAI ve Microsoft gibi şirketlerin materyali haline geldi. Bu tür AI araçlarının popülaritesi ile Reddit kurucusu ve CEO'su, "Reddit'in veri külliyatı çok değerli, ancak bu içeriği bazı dev şirketlere ücretsiz olarak sağlamak istemiyoruz" dedi.Reddit'in teknoloji devlerinden veri kullanımı için ödeme yapmalarını istemede başı çekmesinin ardından, tanınmış bir BT soru-cevap sitesi olan Stack Overflow da bu yılın ortasından itibaren büyük yapay zeka geliştiricilerinden veri erişimi için ücret almayı planladığını duyurdu. ) geliştirme, yapılan katkı da tazmin edilmelidir.”Reddit ve Stack Overflow gibi büyük sitelerin yanı sıra, geliştirici çevrelerinde bile bazı programcılar, Copilot'un iddia edilen kod telif hakkı ihlali nedeniyle GitHub'ı bırakacaklarını da duyurdular:![](https://img.gateio.im/social/moments-bab2147faf-1d59f27860-dd1a6f-62a40f)  ![](https://img.gateio.im/social/moments-bab2147faf-ee27c3535c-dd1a6f-62a40f) Kuşkusuz, AI büyük modellerini daha akıllı hale getirme sürecinde, büyük eğitim verileri gereklidir, ancak mevcut bakış açısından, bugün AI alanında "popüler kızarmış tavuk" olan OpenAI, çok fazla telif hakkı sorununa sahip değildir. eğitim verileri için iyi bir çözüm.Bununla birlikte, AI patlamasının daha da ilerlemesi ile bu sorunun çözülmesi kaçınılmazdır. Pekin Üniversitesi Bilgisayar Bilimleri Okulu'nda profesör olan Chen Zhong'un dediği gibi: "Belki araştırma ve geliştirmenin ilk aşamalarında, insanlar veri kaynağını umursamıyor, ancak çok büyük ekonomik faydalar elde ettiğinizde, geleneksel ekonomik model ve hukuk sistemi araştırma ve geliştirmenizi kısıtlayacaktır. Davranış."Peki bu konu hakkında ne düşünüyorsunuz?Referans bağlantısı: