文档表示方法及装置

文档表示方法及装置

技术类型 : 专利

专利所属地 :中国

公开号 :CN201810592419.9

技术成熟度 :正在研发

转让方式 :技术转让

交易价格:面议

应用领域 : 数字内容服务

技术领域 :认证授权技术

联系咨询
成果概况
简介
本发明实施例公开了一种文档表示方法及装置,其中,所述方法包括:对文档进行初始化,以得到所述文档的初始向量表示;将所述初始向量输入训练完成后的文档表示模型,所述文档表示模型包括:生成器生成网络,用于根据潜在噪声分布生成模拟噪声数据样本;和判别器神经网络,用于输出输入量是否来自真实数据样本的概率值;根据所述判别器神经网络的隐层输出得到文档表示向量。够使得不同词序的文档拥有不同的文档向量,克服了基于词和话题的模型会丢失词序的不足,其次通过使用两个神经网络相互博弈进而学习到准确的文档特征,从而得到更准确的文档表示。
专利基本信息
专利名称 文档表示方法及装置
专利状态 其他 公开号 CN201810592419.9
申请号 CN108829675A 专利申请日期 2018-06-11
专利授权日期 0001-01-01 专利权届满日 -
专利所属地 中国 专利类型 实用新型
发明人 天津科技大学
权利人 马永军,李亚军,汪睿
专利摘要 本发明实施例公开了一种文档表示方法及装置,其中,所述方法包括:对文档进行初始化,以得到所述文档的初始向量表示;将所述初始向量输入训练完成后的文档表示模型,所述文档表示模型包括:生成器生成网络,用于根据潜在噪声分布生成模拟噪声数据样本;和判别器神经网络,用于输出输入量是否来自真实数据样本的概率值;根据所述判别器神经网络的隐层输出得到文档表示向量。够使得不同词序的文档拥有不同的文档向量,克服了基于词和话题的模型会丢失词序的不足,其次通过使用两个神经网络相互博弈进而学习到准确的文档特征,从而得到更准确的文档表示。