推荐系统与强化学习

2018年12月2日　　来源：微软亚洲研究院　作者：　提供人：tipattab0......

研究热点3：推荐系统与强化学习

通过融合深度学习与知识图谱技术，推荐系统的性能取得了大幅的提升。然而，多数的推荐系统仍是以一步到位的方式建立的。它们有着类似的搭建方式，即在充分获取用户历史数据的前提下，设计并训练特定的监督模型，从而得到用户对于不同物品的喜好程度。这些训练好的模型在部署上线后可以为特定用户识别出最具吸引力的物品，为其做出个性化推荐。在此，人们往往假设用户数据已充分获取，且其行为会在较长时间之内保持稳定，使得上述过程中所建立的推荐模型得以应付实际中的需求。然而对于诸多现实场景，例如电子商务或者在线新闻平台，用户与推荐系统之间往往会发生持续密切的交互行为。在这一过程中，用户的反馈将弥补可能的数据缺失，同时有力地揭示其当前的行为特征，从而为系统进行更加精准的个性化推荐提供重要的依据。

强化学习为解决这个问题提供了有力支持。依照用户的行为特征，我们将涉及到的推荐场景划分为静态与动态，并分别对其进行讨论。

静态场景下的强化推荐

在静态场景之下，用户的行为特征在与系统的交互过程中保持稳定不变。对于这一场景，一类有代表性的工作是基于上下文多臂老虎机（contextual multi-armed bandit）的推荐系统，它的发展为克服推荐场景中的冷启动问题提供了行之有效的解决方案。在许多现实应用中，用户的历史行为往往服从特定的长尾分布，即大多数用户仅仅产生规模有限的历史数据，而极少的用户则会生成较为充足的历史数据。这一现象所带来的数据稀疏问题使得传统模型在很多时候难以得到令人满意的实际效果。

为此，一个直接的应对方法是对用户行为进行主动式的探索，即通过对用户发起大量尝试性的推荐，以充分的获得其行为数据，从而保障推荐系统的可用性。然而不幸的是，这一简单的做法势必引发极大的探索开销，使得它在现实中并不具备可行性。为使主动式探索具备可行的效用开销，人们尝试借助多臂老虎机问题所带来的启发。多臂老虎机问题旨在于“探索-利用”间做出最优的权衡，为此诸多经典算法，被相继提出。尽管不同的算法有着不同的实施机制，它们的设计都本着一个共同的原则。

具体说来，系统在作出推荐的时候会综合考虑物品的推荐效用以及累积尝试。较高的推荐效用预示着较低的探索开销，而较低的累积尝试则表明较高的不确定性。为此，不同的算法都会设计特定的整合机制，使得同时具备较高推荐效用与不确定性物品可以得到优先尝试。

动态场景下的强化推荐

在多臂老虎机的设定场景下，用户的实时特征被假设为固定不变的，因此算法并未涉及用户行为发生动态迁移的情况。然而对于诸多现实中的推荐场景，用户行为往往会在交互过程中不断变化。这就要求推荐系统依照用户反馈精确估计其状态发展，并为之制定优化的推荐策略。具体来讲，一个理想的推荐系统应满足如下双方面的属性。一方面，推荐决策需要充分基于用户过往的反馈数据；另一方面，推荐系统需要优化整个交互过程之中的全局收益。强化学习为实现上述目标提供了有力的技术支持。

在强化学习的框架之下，推荐系统被视作一个智能体（agent），用户当前的行为特征被抽象成为状态（state），待推荐的对象（如候选新闻）则被当做动作（action）。在每次推荐交互中，系统依据用户的状态，选择合适的动作，以最大化特定的长效目标（如点击总数或停留时长）。推荐系统与用户交互过程中所产生的行为数据被组织成为经验（experience），用以记录相应动作产生的奖励（reward）以及状态转移（state-transition）。基于不断积累的经验，强化学习算法得出策略（policy），用以指导特定状态下最优的动作选取。

我们近期将强化学习成功应用于必应个性化新闻推荐（《DRN: A Deep Reinforcement Learning Framework for News Recommendation》，WWW 2018）。得益于算法的序列化决策能力及其对长效目标的优化，强化学习必将服务于更为广泛的现实场景，从而极大地改善推荐系统的用户感知与个性化能力。

强化推荐的机遇与挑战

强化学习推荐算法尚有诸多富有挑战性的问题亟待解决。

现行主流的深度强化学习算法都试图避开对环境的建模，而直接进行策略学习（即model-free）。这就要求海量的经验数据以获取最优的推荐策略。然而，推荐场景下的可获取的交互数据往往规模有限且奖励信号稀疏（reward-sparsity），这就使得简单地套用既有算法难以取得令人满意的实际效果。如何运用有限的用户交互得到有效的决策模型将是算法进一步提升的主要方向。

此外，现实中人们往往需要对不同推荐场景进行独立的策略学习。不同场景下的策略互不相同，这就使得人们不得不花费大量精力以对每个场景都进行充分的数据采集。同时，由于不具备通用性，既有策略难以迅速适应新的推荐场景。面对这些挑战，人们需要尽可能的提出通用策略的学习机制，以打通算法在不同推荐场景间的壁垒，并增强其在变化场景中的鲁棒性。

个性化推荐 / 强化学习

如涉及版权，请著作权人与本网站联系，删除或支付费用事宜。