引导型策略搜索强化学习算法

引导型策略搜索强化学习算法

技术类型 : 专利

专利所属地 :中国

公开号 :CN201610299987.0

技术成熟度 :正在研发

转让方式 :技术转让

交易价格:面议

应用领域 : 学前教育

技术领域 :集成电路设计技术

联系咨询
成果概况
简介
本发明涉及一种引导型策略搜索强化学习算法,首先选择引导型学习样本,然后利用所选样本对目标函数进行梯度估计,根据策略更新原则更新参数,直到收敛为止。本发明通过重构目标函数,大大降低了因使用重要采样技术而降低算法稳定性能及收敛率的问题。本发明定义了对于强化学习而言的引导型高质量学习样本,通过该引导型学习样本的使用,能够更准确的进行策略搜索,从而避免情况较坏的局部最优。
专利基本信息
专利名称 引导型策略搜索强化学习算法
专利状态 其他 公开号 CN201610299987.0
申请号 CN105955930A 专利申请日期 2016-05-06
专利授权日期 0001-01-01 专利权届满日 -
专利所属地 中国 专利类型 实用新型
发明人 天津科技大学
权利人 赵婷婷,杨巨成,赵希,陈亚瑞,房珊珊
专利摘要 本发明涉及一种引导型策略搜索强化学习算法,首先选择引导型学习样本,然后利用所选样本对目标函数进行梯度估计,根据策略更新原则更新参数,直到收敛为止。本发明通过重构目标函数,大大降低了因使用重要采样技术而降低算法稳定性能及收敛率的问题。本发明定义了对于强化学习而言的引导型高质量学习样本,通过该引导型学习样本的使用,能够更准确的进行策略搜索,从而避免情况较坏的局部最优。