O GitHub anunciou que, a partir de 24 de abril, passará a usar por padrão os dados dos utilizadores do Copilot para treinar modelos de IA

MarsBitNews · 2026-03-26T01:52:11+00:00

O GitHub atualizará a política de repositórios a partir de 2026, utilizando dados de interação de utilizadores para treinar modelos de IA, o que gerou discussões entre programadores sobre repositórios privados e direitos de dados. Esta medida visa melhorar a precisão das sugestões de código, indicando uma transformação do GitHub para um ecossistema de treino de IA em circuito fechado, refletindo a importância que a indústria atribui aos dados privados.

MarsBitNews

2026-03-26 01:52:11

Geração de resumo em curso

O GitHub anunciou recentemente que, a partir de 24 de abril de 2026, irá atualizar a sua política de repositórios de código, com planos de utilizar dados de interação dos utilizadores para treinar os seus modelos de IA. A recolha de dados abrangerá utilizadores do Copilot Free, Pro e Pro+, incluindo entradas e saídas do modelo, trechos de código, informações de contexto, estrutura do repositório e registos de interações de chat.

O diretor de produto do GitHub, Mario Rodriguez, afirmou que a introdução de dados de interação visa melhorar a precisão e a segurança das sugestões de código do modelo, e que testes prévios com dados internos da Microsoft já aumentaram significativamente a taxa de aceitação das sugestões. É importante notar que a política adota um mecanismo de “inscrição prévia”, pelo qual os utilizadores afetados precisam aceder manualmente às configurações de privacidade para desativar as opções relevantes, o que gerou um amplo debate na comunidade de desenvolvedores sobre a definição de repositórios privados e a propriedade dos dados.

Atualmente, utilizadores do Copilot Business, Enterprise e da versão educativa, sujeitos a contratos específicos, não serão afetados por esta mudança. O GitHub destacou na sua comunicação que esta medida está alinhada com práticas comuns de grandes empresas como Anthropic, JetBrains e Microsoft. No entanto, incluir código de repositórios privados no conjunto de treino desafia, na prática, os limites do conceito tradicional de “privacidade”, mesmo que o objetivo declarado seja otimizar o fluxo de trabalho de desenvolvimento.

Do ponto de vista da indústria, à medida que os dados de código de domínio público de alta qualidade se tornam escassos, os principais fornecedores de IA aceleram a exploração de dados de interação privada e outros “dados profundos” para obter vantagens no desempenho dos modelos. Esta mudança de política não só indica uma inclinação do GitHub de uma plataforma de hospedagem de código open source para um ecossistema de treino de IA mais fechado, mas também marca uma nova fase na disputa por conformidade de dados e evolução dos modelos no campo das ferramentas de desenvolvimento de IA.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.