工业界推荐系统实践:特征

先埋坑,慢慢填。

1.特征的种类

从数据格式来讲,一般有以下三种:

  • 类别特征:例如用户的操作系统类型,[iOS, Android, other ]
  • 数值特征:商品的价格:1000
  • 序列特征:用户的点击序列,例如商品 item_id 的点击序列: [12212, 2323232, 2323232]

从场景划分角度来讲,一般可以分为:

  • context feature:用户和场景进行交互产生的一些特征
  • user feature :用户特征
  • item feature:商品特征

从时效性角度来讲,也可以划分为:

  • 长期特征:相对长期的固定属性,例如用户的性别
  • 短期特征:
  • 实时特征:用户几分钟内点击的商品序列

2.特征预处理

  • 如何对特征进行处理?
  • 是否需要进行归一化?
  • 特征如何进行 embedding?

3.特征对应模型

  • 如何根据特征的量级、种类和分布等选择合适的模型?