无形的混乱:不一致的产品属性如何大规模破坏电子商务

当零售商谈论扩展时,他们想到的是搜索引擎、实时库存和结账优化。这些都是可见的问题。但在其下隐藏着更顽固的问题:属性值根本不匹配。在真实的产品目录中,这些值很少保持一致。它们的格式各异,语义多义,或者简单地存在错误。而当你将这些问题乘以数百万的产品,每个产品都带有数十个属性时,一个小小的烦恼就会演变成系统性的灾难。

问题:微不足道,规模却野心勃勃

举几个具体例子:

  • 尺寸:“XL”、“Small”、“12cm”、“Large”、“M”、“S”——全都混在一起
  • 颜色:“RAL 3020”、“Crimson”、“Red”、“Dark Red”——部分是标准,部分是口语
  • 材质:“Steel”、“Carbon Steel”、“Stainless”、“Stainless Steel”——冗余且不清楚

这些例子单独看似无害,但一旦你处理超过300万SKU,每个带有数十个属性,就会出现真正的问题:

  • 过滤器表现不可预测
  • 搜索引擎相关性下降
  • 客户搜索变成挫折
  • 团队陷入手动数据清理

这就是几乎每个大型电商目录背后沉默的痛苦。

方法:用引导而非混乱算法的AI

我不想要一个神秘的黑盒解决方案,能神奇地排序却没人理解。相反,我追求一个混合管道,它:

  • 保持可解释性
  • 具有可预见性
  • 真正可扩展
  • 人类可控

结果:AI能智能思考,但始终保持透明。

架构:离线任务而非实时疯狂

所有属性处理都在后台进行——不是实时的。这不是临时方案,而是一个战略性设计决策

实时管道听起来诱人,但会导致:

  • 无法预料的延迟
  • 高昂的计算峰值
  • 脆弱的依赖关系
  • 操作混乱

相反,离线任务提供:

  • 大规模吞吐 (海量数据无需实时系统负载)
  • 容错能力 (故障永不影响客户)
  • 成本控制 (在流量低谷时进行计算)
  • 一致性 (原子性、可预见的更新)

将面向客户的系统与数据处理分离,在如此庞大的规模下至关重要。

流程:从垃圾到干净数据

在AI处理数据之前,有一个关键的清洗步骤

  • 去除空白字符
  • 删除空值
  • 移除重复
  • 将类别上下文格式化为干净的字符串

这确保LLM使用干净的输入。原则很简单:**垃圾进,垃圾出。**在这个规模下的小错误,日后会引发巨大问题。

LLM服务:比排序更智能

LLM不是机械地按字母排序。它会考虑上下文。

它接收:

  • 清洗后的属性值
  • 类别面包屑
  • 属性元数据

在这些上下文中,模型理解:

  • “电压”在电动工具中是数值型
  • “尺寸”在服装中遵循已知的递进关系
  • “颜色”可能遵循RAL标准
  • “材质”具有语义关系

它返回:

  • 排序后的值
  • 优化的属性名
  • 一个决定:确定性排序或由AI驱动的排序

这使得处理不同类型的属性成为可能,无需为每个类别单独编码。

确定性回退:不是所有都需要AI

许多属性无需人工智能:

  • 数值范围 (5cm、12cm、20cm自动排序)
  • 基于单位的值
  • 简单的数量

这些属性可以实现:

  • 更快的处理速度
  • 可预见的排序
  • 更低的成本
  • 无歧义

管道会自动识别这些情况,采用确定性逻辑。这保持了系统的高效,避免了不必要的LLM调用。

人机双控:双重控制

零售商需要对关键属性保持控制。因此,每个类别可以标记为:

  • LLM_SORT——模型决定
  • MANUAL_SORT——由商家定义顺序

这个系统分配工作:AI处理大部分,人工做最终决定。也增强了信任,团队可以在需要时禁用模型。

基础设施:简单、集中、可扩展

所有结果都直接存入MongoDB——唯一的操作存储,用于:

  • 排序的属性值
  • 优化的属性名
  • 类别标签
  • 产品特定的排序顺序

这样便于检查变更、覆盖值、重新处理类别、与其他系统同步。

搜索集成:质量的体现

排序后,值会流入两个搜索资产:

  • Elasticsearch用于关键词搜索
  • Vespa用于语义和向量搜索

确保:

  • 过滤器按逻辑顺序出现
  • 产品页面显示一致的属性
  • 搜索引擎排名更精准
  • 客户更容易在类别中导航

在这里,良好的属性排序变得一目了然。

结果:从混乱到清晰

属性 原始值 排序输出
尺寸 XL, Small, 12cm, Large, M, S Small, M, Large, XL, 12cm
颜色 RAL 3020, Crimson, Red, Dark Red Red, Dark Red, Crimson, RAL 3020
材质 Steel, Carbon Steel, Stainless, Stainless Steel Steel, Stainless Steel, Carbon Steel
数值 5cm, 12cm, 2cm, 20cm 2cm, 5cm, 12cm, 20cm

效果是显而易见的:

  • 超过300万SKU的排序一致性
  • 数值序列可预期
  • 商家通过标签保持完全控制
  • 过滤更直观,页面更整洁
  • 搜索相关性提升
  • 客户转化率提高

核心经验

  1. 混合优于纯AI:引导原则在扩展中至关重要
  2. 上下文就是黄金:极大提升模型准确性
  3. 离线处理更优:确保吞吐量和可靠性
  4. 人工控制建立信任:覆盖机制不是缺陷,是特性
  5. 干净输入是基础:数据清洗绝不可省略

对属性值进行排序看似简单,但在数百万产品中却是巨大挑战。结合LLM智能、明确规则和人工控制,打造出一个将无形混乱转化为可扩展清晰的系统。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)