一种基于环境预测模型的强化学习方法-机器人技术-天津科技大学成果转化服务平台

科技成果转化服务平台>

当前位置：首页 >科技成果列表>科技成果详细

一种基于环境预测模型的强化学习方法

技术类型： 专利

专利所属地：中国

公开号：CN201910410196.4

技术成熟度：正在研发

转让方式：技术转让

交易价格：面议

应用领域： 数字内容服务

技术领域：机器人

联系咨询

成果概况专利基本信息相关成果推荐

成果概况

简介

本发明涉及一种基于环境预测模型的强化学习方法,其收集环境的真实状态动作转移样本数据；构造环境表示模型即变分自编码器网络模型；训练变分自编码器网络模型直至收敛；在隐空间构建环境预测模型,该网络模型为递归神经网络模型；结合历史数据训练递归神经网络模型直至收敛,在潜在空间生成可预测未来状态的表示,并将递归型神经网络自身的隐状态表示为智能体对于自身行动所引发的环境变化的预测。本发明在深度神经网络中的变分自编码器及递归型神经网络相结合的基础上进行改良,生成虚拟环境数据训练智能体,并把从中学会的策略迁移到真实环境之中。该模型的设计摆脱了深度强化学习在实际应用中对大量学习样本的要求,生成数据的多样性可从一定程度上解决深度强化学习模型存在对其所训练数据过度拟合的问题。

专利基本信息

专利名称	一种基于环境预测模型的强化学习方法
专利状态	其他	公开号	CN201910410196.4
申请号	CN111950722A	专利申请日期	2019-05-15
专利授权日期	0001-01-01	专利权届满日	-
专利所属地	中国	专利类型	实用新型
发明人	天津科技大学
权利人	赵婷婷,宋亚静,杨巨成,赵青,任德华,王嫄
专利摘要	本发明涉及一种基于环境预测模型的强化学习方法,其收集环境的真实状态动作转移样本数据；构造环境表示模型即变分自编码器网络模型；训练变分自编码器网络模型直至收敛；在隐空间构建环境预测模型,该网络模型为递归神经网络模型；结合历史数据训练递归神经网络模型直至收敛,在潜在空间生成可预测未来状态的表示,并将递归型神经网络自身的隐状态表示为智能体对于自身行动所引发的环境变化的预测。本发明在深度神经网络中的变分自编码器及递归型神经网络相结合的基础上进行改良,生成虚拟环境数据训练智能体,并把从中学会的策略迁移到真实环境之中。该模型的设计摆脱了深度强化学习在实际应用中对大量学习样本的要求,生成数据的多样性可从一定程度上解决深度强化学习模型存在对其所训练数据过度拟合的问题。

一种基于环境预测模型的强化学习方法

乳酸菌抑菌剂—安泰乐

药用“三酶”联产工艺