一种基于元强化学习的文本生成方法

一种基于元强化学习的文本生成方法

技术类型 : 专利

专利所属地 :中国

公开号 :CN202010156433.1

技术成熟度 :正在研发

转让方式 :技术转让

交易价格:面议

应用领域 : 通用仪器仪表制造

技术领域 :系统仿真与自动化技术

联系咨询
成果概况
简介
本发明涉及一种基于元强化学习的文本生成方法,其技术特点是:收集不同类型的文本数据作为不同任务的划分;收集文本数据中随机采取某一任务的数据;采用处理序列数据的递归型神经网络构造文本生成模型;生成K条文本轨迹;利用文本生成轨迹对文本生成模型进行少次策略梯度更新,得到更新后的文本生成模型;生成新的文本轨迹;在多个任务上分别对文本生成模型进行更新并采样,得到文本生成轨迹的表现误差;对原始文本生成模型参数进行二次梯度更新训练至收敛。本发明在强化学习利用递归神经网络进行文本生成的基础上进行改良,利用元强化学习训练智能体,将在多个任务上学习到的经验迁移到目标任务中,可快速实现不同场景或语境下的文本生成。
专利基本信息
专利名称 一种基于元强化学习的文本生成方法
专利状态 授权 公开号 CN202010156433.1
申请号 CN111476020A 专利申请日期 2020-03-09
专利授权日期 2023-07-25 专利权届满日 2043-07-25
专利所属地 中国 专利类型 发明
发明人 天津科技大学;
权利人 赵婷婷,宋亚静,王嫄,任德华,杨巨成
专利摘要 本发明涉及一种基于元强化学习的文本生成方法,其技术特点是:收集不同类型的文本数据作为不同任务的划分;收集文本数据中随机采取某一任务的数据;采用处理序列数据的递归型神经网络构造文本生成模型;生成K条文本轨迹;利用文本生成轨迹对文本生成模型进行少次策略梯度更新,得到更新后的文本生成模型;生成新的文本轨迹;在多个任务上分别对文本生成模型进行更新并采样,得到文本生成轨迹的表现误差;对原始文本生成模型参数进行二次梯度更新训练至收敛。本发明在强化学习利用递归神经网络进行文本生成的基础上进行改良,利用元强化学习训练智能体,将在多个任务上学习到的经验迁移到目标任务中,可快速实现不同场景或语境下的文本生成。