一种医学文档专业词汇自动化标注方法

一种医学文档专业词汇自动化标注方法

技术类型 : 专利

专利所属地 :中国

公开号 :CN201910265223.3

技术成熟度 :正在研发

转让方式 :技术转让

交易价格:面议

应用领域 : 研究和试验发展

技术领域 :其他

联系咨询
成果概况
简介
本发明涉及一种医学文档专业词汇自动化标注方法,包括:对输入的医学文档进行数据预处理,得到预处理后的医学文档文本;获取词的字母级特征向量、单词级特征向量、语言特征向量并进行融合,作为词的编码向量;将分词后的医学文档文本的词标注分类得到标注数据集;对每一个词输出一个多维向量作为词的空间表示;获取增强后的标注数据集;进行训练建模,并最终输出标注结果。本发明设计合理,其采用半监督学习算法对大量未标注数据进行标注,成功地克服了现有医疗行业标注数据过少的缺陷,有效地提高了模型能够使用的数据量,并大幅提升算法对于关键词和专业词汇的标注准确率,可广泛用于医疗文献处理中。
专利基本信息
专利名称 一种医学文档专业词汇自动化标注方法
专利状态 其他 公开号 CN201910265223.3
申请号 - 专利申请日期 2019-04-03
专利授权日期 2022-10-04 专利权届满日 2032-10-04
专利所属地 中国 专利类型 实用新型
发明人 天津科技大学
权利人 王嫄,高铭,王栋,赵婷婷,赵青,陈亚瑞,史艳翠,孔娜,王洁
专利摘要 本发明涉及一种医学文档专业词汇自动化标注方法,包括:对输入的医学文档进行数据预处理,得到预处理后的医学文档文本;获取词的字母级特征向量、单词级特征向量、语言特征向量并进行融合,作为词的编码向量;将分词后的医学文档文本的词标注分类得到标注数据集;对每一个词输出一个多维向量作为词的空间表示;获取增强后的标注数据集;进行训练建模,并最终输出标注结果。本发明设计合理,其采用半监督学习算法对大量未标注数据进行标注,成功地克服了现有医疗行业标注数据过少的缺陷,有效地提高了模型能够使用的数据量,并大幅提升算法对于关键词和专业词汇的标注准确率,可广泛用于医疗文献处理中。