6 anos de resultados, rastreados mais de 2 milhões de vezes, reivindicam apenas 1 yuan? O modelo de IA foi acusado de "roubar" dados, a última resposta de Xueersi

Question

Arranjo: Zheng LiyuanVendido por: CSDN (ID: CSDNnews)No mês passado, Xueersi revelou que está atualmente desenvolvendo seu próprio grande modelo matemático MathGPT, que é voltado para entusiastas globais de matemática e instituições de pesquisa científica, e é construído com algoritmos de resolução de problemas e palestras no campo da matemática como núcleo.Naquela época, muitas pessoas sentiram que a versão "estudantes de ciências" do ChatGPT estava finalmente chegando.Inesperadamente, o "escândalo" sobre o MathGPT estourou antes mesmo de seu lançamento: nesta terça-feira, o Bishen Composition App acusou Xueersi de acessar e armazenar em cache ilegalmente até 2,58 milhões de dados em seu servidor por meio da tecnologia "crawler" vezes, para desenvolver MathGPT's novo produto "assistente de AI de composição".## **6 anos de resultados, rastreados mais de 2 milhões de vezes em um fim de semana**Um dos protagonistas deste incidente, Bishen Composition, é uma plataforma de educação de composição K12 (educação do jardim de infância ao 12º ano) estabelecida em dezembro de 2017, que é afiliada à Beijing Yiyilianghua Technology Co., Ltd.Naquela época, o mercado de IA era muito menos popular do que agora, mas com sua característica de "usar a tecnologia de inteligência artificial para ajudar os escritores a melhorar suas habilidades de escrita", em janeiro de 2018, a Bishen Composition recebeu vários milhões de yuans na rodada inicial financiamento do ZhenFund. Em julho de 2019, concluiu uma rodada de financiamento de vários milhões de anjos.De acordo com informações oficiais, Pen God Composition está online há seis anos e recebeu mais de 300.000 envios de redações e mais de 400.000 curtidas e comentários todos os meses. Acumulou milhões de materiais de composição e corrigiu mais de 30.000 redações por mês. .Com o nascimento do ChatGPT no final do ano passado, Shiji Tianhong, um dos investidores da Penshen, disse uma vez que "Penshen" e ChatGPT têm a mesma tecnologia e ambos adotam o algoritmo mais recente baseado no Transformer como a camada inferior do modelo de IA. Song Jiawei, o fundador da Bishen Composition, também apresentou: "Um golpe e dois golpes atualmente têm mais de 60% da equipe como pessoal técnico de P&D. Antes do estabelecimento da empresa, a equipe fundou empresas de PNL. Tem sido cultivada por muitos anos."Portanto, em geral, o modelo de algoritmo da Penshen Composition é autodesenvolvido e treinado pela empresa, e o big data de sua plataforma vem de seu próprio acúmulo.Por causa de seu acúmulo técnico e conquistas notáveis na escrita, Bishen Composition e Xueersi chegaram a uma cooperação há três anos: assinaram um contrato com o aplicativo de ferramenta de aprendizado de Xueersi "Tipai Pai", que é o principal responsável por fornecer serviços de consulta de material de composição.Como parceiro, o Bishen Composition desta semana declarou: Em 13 de abril, algo que não esperávamos aconteceu. As conquistas de seis anos de nossa equipe desde o estabelecimento da empresa foram alcançadas por "Xueersi", que cooperaram por muitos anos em apenas um curto período de tempo. Mais de dois milhões de rastreamentos em um fim de semana!## **Apelação: compensação de 1 yuan, pedido público de desculpas e exclusão de dados**A julgar pela declaração oficial do Weibo da Penshen Composition, ela não possui um mecanismo de segurança de dados completo e não estabeleceu todas as precauções para seus "parceiros" Xueersi, o que levou as subsidiárias Santi Yunlian (Xueersi) a aproveitar essa confiança , ou seja: sem a autorização do APP Pen God Composition, de 13 a 17 de abril de 2023, acessar ilegalmente e armazenar em cache o servidor do APP Pen God Composition por meio da tecnologia "crawler" Os dados são de até 2,58 milhões de vezes.A este respeito, a Bishen Composition alega que este comportamento viola os termos do contrato entre as duas partes, e até mesmo viola o artigo 32 da "Lei de Proteção de Dados" "Qualquer organização ou indivíduo deve coletar dados de forma legal e adequada, e deve não roube ou use outros métodos para coletar dados." Obtenção ilegal de dados" violou gravemente os direitos de dados e interesses do aplicativo Bishenzuowen.Posteriormente, a Penshen Composition pediu verificação a Xueersi, e a outra parte admitiu diretamente que seu grupo de algoritmos estava rastreando os dados e usando-os para seu próprio uso. Portanto, Penshen Composition enviou uma carta do advogado, mas não obteve uma resposta substantiva da outra parte.No momento, o modelo de AI MathGPT de Xueersi está prestes a lançar um novo produto "Composition AI Assistant"."Como uma empresa muito menor do que 'Xueersi', não temos escolha a não ser proteger nossos direitos por meio de canais legais." AI grande modelo de roubo de dados] precedente de julgamento, portanto, só pode "dar este primeiro passo bravamente".Quanto ao apelo da Penshen Composition, na verdade não está pedindo uma grande quantia de compensação: eu só quero que Xueersi pague 1 yuan em compensação, peça desculpas publicamente e exclua os dados rastreados.A esse respeito, Bishen Composition explicou: "Os dados são valiosos, mas nosso trabalho árduo é ainda mais inestimável. A reivindicação de 1 yuan é porque a imparcialidade e a justiça não podem ser medidas por dinheiro. Esperamos dizer à sociedade que esse comportamento é errado por meio de litígio. O desenvolvimento da indústria de inteligência artificial depende da co-criação, em vez de cobiçar e plagiar as conquistas dos outros."![](https://img.gateio.im/social/moments-bab2147faf-be0be09278-dd1a6f-62a40f) É verdade que, como dizia a composição do deus da caneta, seu volume não é grande, então essa afirmação não chamou muita atenção, mas os poucos comentários condenaram o comportamento de aprender e pensar.## **Resposta Xueersi: Todos atendem aos requisitos do contrato**Depois de ser relatado por muitos meios de comunicação, este incidente fermentou gradualmente, então o Weibo oficial de Xueersi também postou uma resposta a isso ontem à noite:> Em primeiro lugar, MathGPT é um grande modelo autodesenvolvido com foco no campo da matemática, sem quaisquer dados relacionados à composição; em segundo lugar, "Composition AI Assistant" está atualmente em desenvolvimento e ainda não foi lançado. Este serviço não usa quaisquer dados da Penshen Composition.![](https://img.gateio.im/social/moments-bab2147faf-f1f40067e4-dd1a6f-62a40f) No entanto, a Bishen Composition afirmou que mais de 2 milhões de vezes os dados foram rastreados. Xueersi apontou que o contrato afirmava claramente que "o número de chamadas incluídas na taxa mensal garantida é da ordem de milhões", e a interface que ele chama "pertence ao acordo contratual entre as duas partes. o escopo normal de cooperação".Ao final da resposta, Xueersi enfatizou que "sempre respeita os direitos de propriedade intelectual e atribui grande importância à proteção da propriedade intelectual", e todas as ações são executadas estritamente de acordo com o contrato. , reservaremos o direito de perseguir sua violação de reputação responsabilidade."## **Problema de direitos autorais dos dados de treinamento de IA**A julgar pelas declarações atuais feitas por ambas as partes, esta disputa ainda não chegou a uma conclusão final, mas também revela um ponto cego que é facilmente esquecido, mas muito importante na recente competição de modelos de IA em grande escala: dados de treinamento de IA. Problema de direitos autorais.Na verdade, o Reddit, a "versão americana do Tieba" que tem feito muito barulho na Internet recentemente, decidiu forçar taxas de API por esse motivo.Nos últimos anos, o conteúdo do bate-papo publicado no Reddit tornou-se o material para empresas como Google, OpenAI e Microsoft treinarem grandes modelos de IA para desenvolver produtos generativos de IA, como o ChatGPT. Com a popularidade de tais ferramentas de IA, o fundador e CEO do Reddit disse: "O corpus de dados do Reddit é muito valioso, mas não queremos fornecer esse conteúdo gratuitamente para algumas empresas gigantes".Depois que o Reddit assumiu a liderança em pedir aos gigantes da tecnologia que pagassem pelo uso de dados, o Stack Overflow, um conhecido site de perguntas e respostas de TI, também anunciou planos de cobrar de grandes desenvolvedores de IA pelo acesso a dados a partir de meados deste ano. (LLM ) desenvolvimento, a contribuição feita também deve ser compensada.”Além de grandes sites como Reddit e Stack Overflow, mesmo no círculo de desenvolvedores, alguns programadores também anunciaram que abandonariam o GitHub por causa da suposta violação de direitos autorais do código do Copilot:![](https://img.gateio.im/social/moments-bab2147faf-1d59f27860-dd1a6f-62a40f)  ![](https://img.gateio.im/social/moments-bab2147faf-ee27c3535c-dd1a6f-62a40f) Sem dúvida, no processo de tornar modelos grandes de IA mais inteligentes, dados de treinamento maciços são essenciais, mas do ponto de vista atual, OpenAI, o "popular frango frito" no campo de IA hoje, não tem muitos problemas de direitos autorais para dados de treinamento. Boa solução.No entanto, com o avanço do boom da IA, esse problema certamente será resolvido. Como disse Chen Zhong, professor da Escola de Ciência da Computação da Universidade de Pequim: “Talvez nos estágios iniciais de pesquisa e desenvolvimento, as pessoas não se importem com a fonte dos dados, mas quando você gera enormes benefícios econômicos, o modelo econômico tradicional e o sistema legal restringirá sua pesquisa e desenvolvimento. Comportamento."Então, o que você acha sobre esta questão?Link de referência: