技术类型 : 专利
专利所属地 :中国
公开号 :CN201910265223.3
技术成熟度 :正在研发
转让方式 :技术转让
交易价格:面议
应用领域 : 研究和试验发展
技术领域 :其他
专利名称 | 一种医学文档专业词汇自动化标注方法 | ||
专利状态 | 其他 | 公开号 | CN201910265223.3 |
申请号 | - | 专利申请日期 | 2019-04-03 |
专利授权日期 | 2022-10-04 | 专利权届满日 | 2032-10-04 |
专利所属地 | 中国 | 专利类型 | 实用新型 |
发明人 | 天津科技大学 | ||
权利人 | 王嫄,高铭,王栋,赵婷婷,赵青,陈亚瑞,史艳翠,孔娜,王洁 | ||
专利摘要 | 本发明涉及一种医学文档专业词汇自动化标注方法,包括:对输入的医学文档进行数据预处理,得到预处理后的医学文档文本;获取词的字母级特征向量、单词级特征向量、语言特征向量并进行融合,作为词的编码向量;将分词后的医学文档文本的词标注分类得到标注数据集;对每一个词输出一个多维向量作为词的空间表示;获取增强后的标注数据集;进行训练建模,并最终输出标注结果。本发明设计合理,其采用半监督学习算法对大量未标注数据进行标注,成功地克服了现有医疗行业标注数据过少的缺陷,有效地提高了模型能够使用的数据量,并大幅提升算法对于关键词和专业词汇的标注准确率,可广泛用于医疗文献处理中。 |