Kết quả 6 năm, thu thập dữ liệu hơn 2 triệu lần, chỉ yêu cầu 1 nhân dân tệ? Mô hình AI bị tố "ăn cắp" dữ liệu, phản hồi mới nhất của Xueersi

Question

Sắp xếp: Zheng LiyuanĐược bán bởi: CSDN (ID: CSDNnews)Tháng trước, Xueersi tiết lộ rằng họ hiện đang phát triển mô hình toán học lớn MathGPT của riêng mình, nhằm vào những người đam mê toán học toàn cầu và các tổ chức nghiên cứu khoa học, đồng thời được xây dựng với cốt lõi là các thuật toán giải quyết vấn đề và bài giảng trong lĩnh vực toán học.Vào thời điểm đó, nhiều người cảm thấy rằng phiên bản "sinh viên khoa học" của ChatGPT cuối cùng cũng ra mắt.Thật bất ngờ, trước khi MathGPT thực sự ra đời, “scandal” về nó đã nổ ra trước: Thứ Ba tuần này, Bishen Composition App đã cáo buộc Xueersi truy cập và lưu trữ trái phép tới 2,58 triệu dữ liệu trên máy chủ của mình thông qua công nghệ “trình thu thập dữ liệu”. phát triển sản phẩm mới “trợ lý AI soạn bài” của MathGPT.## **6 năm kết quả, được thu thập dữ liệu hơn 2 triệu lần trong một ngày cuối tuần**Một trong những nhân vật chính của sự cố này, Bishen Composition, là một nền tảng giáo dục sáng tác K12 (giáo dục từ mẫu giáo đến lớp 12) được thành lập vào tháng 12 năm 2017, được liên kết với Beijing Yiyilianghua Technology Co., Ltd.Vào thời điểm đó, thị trường AI còn kém phổ biến hơn nhiều so với bây giờ, nhưng với tính năng "sử dụng công nghệ trí tuệ nhân tạo để giúp người viết cải thiện kỹ năng viết", vào tháng 1 năm 2018, Bishen Composition đã nhận được vài triệu nhân dân tệ trong vòng hạt giống. tài trợ từ ZhenFund.Vào tháng 7 năm 2019, nó đã hoàn thành một vòng tài trợ thiên thần trị giá hàng triệu đô la.Theo thông tin chính thức, Pen God Composition đã hoạt động trực tuyến được sáu năm và đã nhận được hơn 300.000 bài luận gửi và hơn 400.000 lượt thích và bình luận hàng tháng, nó đã tích lũy hàng triệu tài liệu sáng tác và sửa chữa hơn 30.000 bài luận mỗi tháng .Với sự ra đời của ChatGPT vào cuối năm ngoái, Shiji Tianhong, một trong những nhà đầu tư của Penshen, đã từng nói rằng "Penshen" và ChatGPT có cùng một công nghệ và cả hai đều áp dụng thuật toán mới nhất dựa trên Transformer làm lớp dưới cùng của mô hình AI. Song Jiawei, người sáng lập Bishen Composition, cũng giới thiệu: "One Stroke và Two Strokes hiện có hơn 60% đội ngũ là nhân viên R&D kỹ thuật. Trước khi thành lập công ty, nhóm đã thành lập các công ty NLP. Nó đã được trau dồi trong nhiều năm.”Do đó, về tổng thể, mô hình thuật toán của Penshen Composition do công ty tự phát triển và đào tạo, và dữ liệu lớn của nền tảng của nó đến từ sự tích lũy của chính nó.Vì sự tích lũy kỹ thuật và những thành tựu đáng kể trong việc viết lách, Bishen Composition và Xueersi đã đạt được sự hợp tác ba năm trước: nó đã ký hợp đồng với ứng dụng công cụ học tập "Tipai Pai" của Xueersi, chịu trách nhiệm chính trong việc cung cấp dịch vụ truy vấn tài liệu sáng tác.Với tư cách là một đối tác, Bishen Composition tuần này cho biết: Vào ngày 13 tháng 4, một điều mà chúng tôi không mong đợi đã xảy ra. Thành tích sáu năm của nhóm chúng tôi kể từ khi thành lập công ty là do "Xueersi" đã hợp tác trong nhiều năm chỉ trong một khoảng thời gian ngắn. Hơn hai triệu lượt thu thập thông tin trong một ngày cuối tuần!## **Kháng cáo: bồi thường 1 nhân dân tệ, xin lỗi công khai và xóa dữ liệu**Xét từ tuyên bố chính thức trên Weibo của Penshen Composition, nó không có cơ chế bảo mật dữ liệu hoàn chỉnh và không thiết lập mọi biện pháp phòng ngừa cho “đối tác” Xueersi, dẫn đến việc Công ty con của Santi Yunlian (Xueersi) lợi dụng sự tin tưởng này. , nghĩa là: không có sự cho phép của Pen God Composition APP, từ ngày 13 tháng 4 đến ngày 17 tháng 4 năm 2023, truy cập và lưu trữ bất hợp pháp máy chủ Pen God Composition APP thông qua công nghệ "trình thu thập thông tin" Dữ liệu lên tới 2,58 triệu lần.Về vấn đề này, Bishen Composition cho rằng hành vi này vi phạm các điều khoản trong hợp đồng giữa hai bên, thậm chí vi phạm Điều 32 của "Luật bảo vệ dữ liệu" "Mọi tổ chức hoặc cá nhân phải thu thập dữ liệu một cách hợp pháp và đúng đắn, và sẽ không ăn cắp hoặc sử dụng các phương pháp khác để thu thập dữ liệu." Việc lấy dữ liệu bất hợp pháp” đã vi phạm nghiêm trọng quyền và lợi ích dữ liệu của Bishenzuowen APP.Sau đó, Penshen Composition đã yêu cầu Xueersi xác minh và bên kia đã trực tiếp thừa nhận rằng nhóm thuật toán của họ đang thu thập dữ liệu và sử dụng dữ liệu đó cho mục đích riêng của họ. Vì vậy, Penshen Composition đã gửi thư luật sư nhưng không nhận được hồi âm xác thực từ bên kia, lúc này mô hình AI MathGPT của Xueersi chuẩn bị ra mắt sản phẩm mới "Trợ lý AI Composition"."Là một công ty nhỏ hơn nhiều so với 'Xueersi', chúng tôi không có lựa chọn nào khác ngoài việc bảo vệ quyền của mình thông qua các kênh hợp pháp." Tiền lệ đánh cắp dữ liệu mô hình lớn AI], vì vậy nó chỉ có thể "thực hiện bước đầu tiên một cách dũng cảm".Đối với kháng cáo của Penshen Composition, thực tế không phải là yêu cầu số tiền bồi thường lớn: Tôi chỉ muốn Xueersi bồi thường 1 nhân dân tệ, xin lỗi công khai và xóa dữ liệu đã thu thập.Về vấn đề này, Bishen Composition giải thích: "Dữ liệu rất có giá trị, nhưng công việc khó khăn của chúng tôi thậm chí còn vô giá hơn. Yêu cầu bồi thường 1 nhân dân tệ là vì sự công bằng và công lý không thể đo lường bằng tiền. Chúng tôi hy vọng có thể nói với xã hội rằng hành vi này là sai trái thông qua kiện tụng. Sự phát triển của ngành trí tuệ nhân tạo dựa trên sự đồng sáng tạo hơn là thèm muốn và ăn cắp thành quả của người khác."![](https://img.gateio.im/social/moments-bab2147faf-be0be09278-dd1a6f-62a40f) Đúng là như sáng tác của cây bút thần đã nói, dung lượng của nó không lớn nên câu nói này không thu hút được nhiều sự quan tâm mà chỉ lác đác vài bình luận lên án hành vi học đòi, suy diễn.## **Phản hồi của Xueersi: Tất cả đều đáp ứng các yêu cầu của hợp đồng**Sau khi được nhiều phương tiện truyền thông đưa tin, sự việc này dần lên men, vì vậy Weibo chính thức của Xueersi cũng đã đăng phản hồi về việc này vào tối hôm qua:> Thứ nhất, MathGPT là một mô hình lớn tự phát triển tập trung vào lĩnh vực toán học, không có bất kỳ dữ liệu nào liên quan đến thành phần, thứ hai, "Trợ lý AI thành phần" hiện đang được phát triển và chưa được phát hành. Dịch vụ này không sử dụng bất kỳ dữ liệu nào từ Penshen Composition.![](https://img.gateio.im/social/moments-bab2147faf-f1f40067e4-dd1a6f-62a40f) Tuy nhiên, Bishen Composition tuyên bố rằng hơn 2 triệu lần dữ liệu đã được thu thập, Xueersi chỉ ra rằng hợp đồng đã nêu rõ rằng "số lượng cuộc gọi bao gồm trong phí bảo đảm hàng tháng là hàng triệu" và giao diện mà nó gọi "thuộc hợp đồng thỏa thuận giữa hai bên. phạm vi hợp tác bình thường".Cuối phản hồi, Xueersi nhấn mạnh rằng họ "luôn tôn trọng quyền sở hữu trí tuệ và coi trọng việc bảo vệ quyền sở hữu trí tuệ", và mọi hành động đều được thực hiện nghiêm túc theo hợp đồng. , chúng tôi sẽ bảo lưu quyền theo đuổi hành vi vi phạm danh tiếng của mình trách nhiệm."## **Vấn đề bản quyền đối với dữ liệu đào tạo AI**Xét từ những tuyên bố hiện tại của cả hai bên, tranh chấp này vẫn chưa thể đưa ra kết luận cuối cùng, nhưng nó cũng bộc lộ một điểm mù dễ bị bỏ qua nhưng lại rất quan trọng trong cuộc cạnh tranh mô hình AI quy mô lớn đang ngày càng nóng bỏng gần đây: dữ liệu đào tạo AI. vấn đề.Trên thực tế, Reddit, "tieba phiên bản Mỹ" đang gây ồn ào trên Internet gần đây, đã quyết định buộc phí API vì lý do này.Trong những năm gần đây, nội dung trò chuyện được xuất bản trên Reddit đã trở thành tài liệu để các công ty như Google, OpenAI và Microsoft đào tạo các mô hình AI lớn để phát triển các sản phẩm AI tổng quát như ChatGPT. Với sự phổ biến của các công cụ AI như vậy, người sáng lập kiêm CEO của Reddit cho biết: "Khối dữ liệu của Reddit rất có giá trị, nhưng chúng tôi không muốn cung cấp miễn phí nội dung này cho một số công ty khổng lồ".Sau khi Reddit đi đầu trong việc yêu cầu các đại gia công nghệ trả phí sử dụng dữ liệu, Stack Overflow, trang web hỏi đáp CNTT nổi tiếng, cũng công bố kế hoạch thu phí truy cập dữ liệu của các nhà phát triển AI lớn từ giữa năm nay. ) phát triển thì đóng góp cũng phải được đền bù.”Ngoài các trang lớn như Reddit và Stack Overflow, ngay cả trong giới lập trình viên, một số lập trình viên cũng tuyên bố sẽ từ bỏ GitHub vì cáo buộc vi phạm bản quyền code của Copilot:![](https://img.gateio.im/social/moments-bab2147faf-1d59f27860-dd1a6f-62a40f)  ![](https://img.gateio.im/social/moments-bab2147faf-ee27c3535c-dd1a6f-62a40f) Không còn nghi ngờ gì nữa, trong quá trình làm cho các mô hình AI lớn thông minh hơn, dữ liệu đào tạo khổng lồ là điều cần thiết, nhưng theo quan điểm hiện tại, OpenAI, "gà rán nổi tiếng" trong lĩnh vực AI hiện nay, không gặp nhiều vấn đề về bản quyền cho dữ liệu đào tạo.giải pháp tốt.Tuy nhiên, với sự tiến bộ hơn nữa của sự bùng nổ AI, vấn đề này chắc chắn sẽ được giải quyết. Như Chen Zhong, giáo sư tại Trường Khoa học Máy tính của Đại học Bắc Kinh, cho biết: “Có thể trong giai đoạn đầu nghiên cứu và phát triển, mọi người không quan tâm đến nguồn dữ liệu, nhưng khi bạn tạo ra lợi ích kinh tế khổng lồ, mô hình kinh tế truyền thống và hệ thống pháp luật sẽ hạn chế nghiên cứu và phát triển của bạn. Hành vi."Vậy bạn nghĩ sao về vấn đề này?Liên kết tham khảo: