基于互约束主题模型的半结构短文本集中子话题发现方法

基于互约束主题模型的半结构短文本集中子话题发现方法

技术类型 : 专利

专利所属地 :中国

公开号 :CN201710484399.9

技术成熟度 :正在研发

转让方式 :技术转让

交易价格:面议

应用领域 : 通用仪器仪表制造

技术领域 :生物与新医药

联系咨询
成果概况
简介
本发明涉及一种基于互约束主题模型的半结构短文本集中子话题发现方法,其主要技术特点是:对含话题标签的短文本集合进行数据清洗;按照种子话题标签抽取出针对某一话题的含指定种子话题标签的短文本;对清洗后的数据进行输入文件生成;将输入文件输入至互约束主题模型中进行模型训练;得到集合中话题标签的语义向量表示、所在文本的平均语义向量表示以及话题标签所在文本的词汇向量表示;将三个向量表示依次接连起来作为一个话题标签的完整语义表示;使用Kmeans聚类方法进行聚类,将聚类得到的类别的质心作为子话题输出。本发明设计合理,其采用互约束潜在主题建模,解决了现有半结构短文本主题语义建模技术面临的高稀疏和高噪音的问题。
专利基本信息
专利名称 基于互约束主题模型的半结构短文本集中子话题发现方法
专利状态 其他 公开号 CN201710484399.9
申请号 - 专利申请日期 2017-06-23
专利授权日期 2020-05-19 专利权届满日 2040-05-19
专利所属地 中国 专利类型 发明
发明人 天津科技大学
权利人 王嫄, 星辰, 杨巨成
专利摘要 本发明涉及一种基于互约束主题模型的半结构短文本集中子话题发现方法,其主要技术特点是:对含话题标签的短文本集合进行数据清洗;按照种子话题标签抽取出针对某一话题的含指定种子话题标签的短文本;对清洗后的数据进行输入文件生成;将输入文件输入至互约束主题模型中进行模型训练;得到集合中话题标签的语义向量表示、所在文本的平均语义向量表示以及话题标签所在文本的词汇向量表示;将三个向量表示依次接连起来作为一个话题标签的完整语义表示;使用Kmeans聚类方法进行聚类,将聚类得到的类别的质心作为子话题输出。本发明设计合理,其采用互约束潜在主题建模,解决了现有半结构短文本主题语义建模技术面临的高稀疏和高噪音的问题。