全国免费电话:
400-123-4567

ope资讯

ope体育OPE综述笔记

  最近在调研强化学习评估相关的知识,发现一篇2019年出的综述论文,个人感觉值得推荐。

  IPS(逆倾向得分),即重要性采样的方法,其核心思想是通过目标策略和行为策略之间的重要抽样比率来重新加权历史数据中的奖励。IPS方法产生一致性且无偏的估计,但方差大。对于long-horizon情况,重要性权重会不稳定。代表方法:IS , Per-Decision IS, WISope体育,Per-Decision WIS等。

  Model based:从历史数据中直接估计状态转移概率、奖励函数、终止态等,然后再计算目标策略的价值。

  Hybrid methods 是结合了DM和IPS的方法,是一种无偏估计的方法,且方ope体育差较IPS方法小。代表方法:Dope体育R。

  MAGIC:思路是前j个step采用重要性采样,j+1开始采用DM(已经不是单纯的DM,而是加入重要性采样的DM),公式后2项是为了缩小方差用的,论文中有给出证明ope体育,此处忽略。

  由本文的实验结果Table2可知:1)IPS类方法中,PDWIS效果最优。2)DM类方法中,FQE表现好,具有较高的数据效率。Q^{\pi}(\lambda)在数据充足的情况下表现好,但是在复杂的领域,计算开销昂贵。IH在long horizon 和在表格设置中存在高度策略不匹配的情况下较有竞争力。在基于像素的域中,为IH选择一个好的核函数并非易事,IH的性能可能会低于其他DM。3)HM类方法ope资讯,HM的表现高估依赖于其中的DM方法。MAGIC+FQE 以及 ope体育MAGIC+Q^{\pi}(\lambda)两个组合表现较好。

Copyright © 2018-2024 ope体育-官网入口 版权所有  xml地图  网站地图  备案号:

地址:天朝天堂路99号 电话:400-123-4567 传真:+86-123-4567

手机:138-1234-5678 联系人:张生