O caos invisível: Como atributos de produto inconsistentes sabotam o comércio eletrónico em grande escala

Quando os retalhistas falam em escalabilidade, pensam em motores de busca, inventário em tempo real e otimização do checkout. Estes são problemas visíveis. Mas abaixo repousa um mais persistente: valores de atributos que simplesmente não combinam. Nos catálogos de produtos reais, estes valores raramente são consistentes. Estão formatados de forma diferente, semanticamente ambíguos ou simplesmente incorretos. E quando multiplicados por milhões de produtos, de um pequeno incômodo torna-se um desastre sistémico.

O problema: Pequeno isoladamente, grande na escala

Vamos a exemplos concretos:

  • Tamanho: “XL”, “Small”, “12cm”, “Large”, “M”, “S” — tudo misturado
  • Cor: “RAL 3020”, “Crimson”, “Red”, “Dark Red” — às vezes padrões, às vezes linguagem coloquial
  • Material: “Steel”, “Carbon Steel”, “Stainless”, “Stainless Steel” — redundante e pouco claro

Cada um destes exemplos parece inofensivo isoladamente. Mas assim que trabalha com mais de 3 milhões de SKUs, cada um com dezenas de atributos, surge um problema real:

  • Os filtros comportam-se de forma imprevisível
  • Os motores de busca perdem relevância
  • A pesquisa do cliente torna-se frustrante
  • As equipas atolam-se na limpeza manual de dados

Este é o sofrimento silencioso que se esconde por trás de quase todo grande catálogo de e-commerce.

A abordagem: IA com limites, não algoritmos de caos

Não queria uma caixa preta que ordena coisas misteriosas e ninguém entende. Em vez disso, foquei numa pipeline híbrida que:

  • permanece explicável
  • funciona de forma previsível
  • realmente escala
  • pode ser controlada por humanos

O resultado: IA que pensa de forma inteligente, mas sempre de forma transparente.

A arquitetura: Jobs offline em vez de loucura em tempo real

Todo o processamento de atributos ocorre em segundo plano—não em tempo real. Isto não foi uma solução de emergência, mas uma decisão de design estratégica.

Pipelines em tempo real parecem atraentes, mas levam a:

  • atrasos imprevisíveis
  • picos de computação caros
  • dependências frágeis
  • caos operacional

Jobs offline oferecem:

  • throughput massivo (grandes volumes de dados sem sobrecarregar sistemas ao vivo)
  • tolerância a falhas (falhas nunca atingem clientes)
  • controlo de custos (cálculos em períodos de baixo tráfego)
  • consistência (atualizações atômicas e previsíveis)

A separação entre sistemas orientados ao cliente e processamento de dados é crucial nesta escala.

O processo: De lixo a dados limpos

Antes de a IA trabalhar nos dados, há uma etapa crítica de limpeza:

  • remover espaços em branco
  • eliminar valores vazios
  • remover duplicados
  • formatar o contexto de categorias como strings limpas

Isto garante que o LLM trabalhe com entradas limpas. O princípio é simples: lixo entra, lixo sai. Pequenos erros nesta escala levam a grandes problemas mais tarde.

O serviço LLM: Mais inteligente que apenas ordenar

O LLM não funciona de forma estúpida, alfabeticamente. Ele pensa de forma contextual.

Recebe:

  • valores de atributos limpos
  • breadcrumbs de categorias
  • metadados de atributos

Com este contexto, o modelo entende:

  • Que “Spannung” em ferramentas elétricas é numérico
  • Que “Tamanho” em vestuário segue uma progressão conhecida
  • Que “Cor” pode seguir padrões RAL
  • Que “Material” tem relações semânticas

E devolve:

  • valores ordenados
  • nomes de atributos refinados
  • uma decisão: ordenação determinística ou orientada por IA

Isto permite lidar com diferentes tipos de atributos, sem precisar codificar cada categoria individualmente.

Fallbacks determinísticos: Nem tudo precisa de IA

Muitos atributos funcionam melhor sem inteligência artificial:

  • intervalos numéricos (5cm, 12cm, 20cm ordenam-se por si próprios)
  • valores baseados em unidades
  • quantidades simples

Estes oferecem:

  • processamento mais rápido
  • ordenação previsível
  • custos menores
  • zero ambiguidade

A pipeline reconhece automaticamente estes casos e usa lógica determinística. Assim, mantém-se eficiente e evita chamadas desnecessárias ao LLM.

Homem vs Máquina: Controlo duplo

Retalhistas precisaram de controlo sobre atributos críticos. Por isso, cada categoria pode ser marcada como:

  • LLM_SORT — o modelo decide
  • MANUAL_SORT — os retalhistas definem a ordem

Este sistema distribui o trabalho: a IA faz a maior parte, os humanos tomam as decisões finais. Também gera confiança, pois as equipas podem desativar o modelo quando necessário.

A infraestrutura: Simples, central, escalável

Todos os resultados vão diretamente para uma base de dados MongoDB—o único armazenamento operacional para:

  • valores de atributos ordenados
  • nomes de atributos refinados
  • tags de categorias
  • ordem de classificação específica do produto

Facilita verificar alterações, sobrescrever valores, reprocessar categorias e sincronizar com outros sistemas.

A integração na pesquisa: Onde a qualidade se revela

Após a ordenação, os valores alimentam dois ativos de pesquisa:

  • Elasticsearch para pesquisa por palavras-chave
  • Vespa para pesquisa semântica e baseada em vetores

Assim garante-se:

  • filtros aparecem em ordem lógica
  • páginas de produto mostram atributos consistentes
  • os motores de busca classificam com maior precisão
  • os clientes navegam mais facilmente pelas categorias

Aqui, na pesquisa, a boa ordenação de atributos torna-se visível.

Os resultados: Do caos à clareza

Atributo Valores brutos Saída ordenada
Tamanho XL, Small, 12cm, Large, M, S Small, M, Large, XL, 12cm
Cor RAL 3020, Crimson, Red, Dark Red Red, Dark Red, Crimson, RAL 3020 (
Material Steel, Carbon Steel, Stainless, Stainless Steel Steel, Stainless Steel, Carbon Steel
Numérico 5cm, 12cm, 2cm, 20cm 2cm, 5cm, 12cm, 20cm

Os efeitos foram mensuráveis:

  • ordenação consistente em mais de 3M+ SKUs
  • sequências numéricas previsíveis
  • controlo total pelos retalhistas via tagging
  • filtros mais intuitivos e páginas mais limpas
  • melhor relevância na pesquisa
  • maior conversão de clientes

Lições principais

  1. Híbrido supera IA pura: limites são essenciais na escalabilidade
  2. Contexto é ouro: melhora drasticamente a precisão do modelo
  3. Processamento offline é obrigatório: para throughput e fiabilidade
  4. Controlo humano gera confiança: mecanismos de sobrescrição não são bugs, são features
  5. Entradas limpas são a base: sem atalhos na limpeza de dados

Ordenar valores de atributos parece trivial, mas torna-se um verdadeiro desafio com milhões de produtos. Combinando inteligência do LLM com regras claras e controlo humano, cria-se um sistema que transforma o caos invisível numa clareza escalável.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar

Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)