一种基于潜在动作表示空间的强化学习策略学习方法

一种基于潜在动作表示空间的强化学习策略学习方法

技术类型 : 专利

专利所属地 :中国

公开号 :CN201910410199.8

技术成熟度 :正在研发

转让方式 :技术转让

交易价格:面议

应用领域 : 通用仪器仪表制造

技术领域 :科学分析仪器/检测仪器

联系咨询
成果概况
简介
样本利用率及学习效率是深度强化学习在实际应用中的一个重要瓶颈问题。面对真实世界,为了快速、准确地得到通用的策略,本发明提出一种基于潜在动作表示空间的强化学习策略学习方法,该方法在动作的潜在空间学习策略,再把动作表示映射到真实的动作空间:所述方法中的策略就是一个从状态到动作表示的映射,可减小策略学习的搜索空间,提高策略学习效率;所述方法中动作的表示可选择成熟的监督学习进行离线学习,可进一步提高学习速度、提高稳定性。此外,只要所采取动作的特征相似,即使面对与训练策略不同的任务,可以使学成的策略在少量学习样本的精调下泛化到当前执行任务的动作空间中,极大地提高了策略表达的泛化能力。
专利基本信息
专利名称 一种基于潜在动作表示空间的强化学习策略学习方法
专利状态 其他 公开号 CN201910410199.8
申请号 CN111950691A 专利申请日期 2019-05-15
专利授权日期 0001-01-01 专利权届满日 -
专利所属地 中国 专利类型 实用新型
发明人 天津科技大学
权利人 赵婷婷,王雨芯,陈亚瑞,杨巨成,王嫄,任德华
专利摘要 样本利用率及学习效率是深度强化学习在实际应用中的一个重要瓶颈问题。面对真实世界,为了快速、准确地得到通用的策略,本发明提出一种基于潜在动作表示空间的强化学习策略学习方法,该方法在动作的潜在空间学习策略,再把动作表示映射到真实的动作空间:所述方法中的策略就是一个从状态到动作表示的映射,可减小策略学习的搜索空间,提高策略学习效率;所述方法中动作的表示可选择成熟的监督学习进行离线学习,可进一步提高学习速度、提高稳定性。此外,只要所采取动作的特征相似,即使面对与训练策略不同的任务,可以使学成的策略在少量学习样本的精调下泛化到当前执行任务的动作空间中,极大地提高了策略表达的泛化能力。