基于强化学习的推荐系统概述

公司成果:

论文:

应用场景:

一般用于连续翻页的多轮交互场景

优缺点:

缺点

强化学习训练不稳定、难以收敛、学习效率低、要求海量训练数据

优点

  • exploit与explore问题,对已知信息合理利用的基础上进行适当探索,提升用户体验
  • cold start 问题