Electronic health record (EHR) systems are used extensively throughout the healthcare domain. However, data interchangeability between EHR systems is limited due to the use of different coding standards across systems. Existing methods of mapping coding standards based on manual human experts mapping, dictionary mapping, symbolic NLP and classification are unscalable and cannot accommodate large scale EHR datasets. In this work, we present Text2Node, a cross-domain mapping system capable of mapping medical phrases to concepts in a large taxonomy (such as SNOMED CT). The system is designed to generalize from a limited set of training samples and map phrases to elements of the taxonomy that are not covered by training data. As a result, our system is scalable, robust to wording variants between coding systems and can output highly relevant concepts when no exact concept exists in the target taxonomy. Text2Node operates in three main stages: first, the lexicon is mapped to word embeddings; second, the taxonomy is vectorized using node embeddings; and finally, the mapping function is trained to connect the two embedding spaces. We compared multiple algorithms and architectures for each stage of the training, including GloVe and FastText word embeddings, CNN and Bi-LSTM mapping functions, and node2vec for node embeddings. We confirmed the robustness and generalisation properties of Text2Node by mapping ICD-9-CM Diagnosis phrases to SNOMED CT and by zero-shot training at comparable accuracy. This system is a novel methodological contribution to the task of normalizing and linking phrases to a taxonomy, advancing data interchangeability in healthcare. When applied, the system can use electronic health records to generate an embedding that incorporates taxonomical medical knowledge to improve clinical predictive models.


翻译:电子健康记录(EHR)系统在医疗领域被广泛使用。然而,由于不同系统采用不同的编码标准,EHR系统间的数据互操作性受到限制。现有基于人工专家映射、词典映射、符号自然语言处理和分类的编码标准映射方法难以扩展,无法适应大规模EHR数据集。本研究提出Text2Node,一种能够将医学术语映射到大型分类体系(如SNOMED CT)概念的跨领域映射系统。该系统设计为从有限训练样本中泛化,并将短语映射到训练数据未覆盖的分类体系元素。因此,我们的系统具有可扩展性,对编码系统间的措辞变体具有鲁棒性,且在目标分类体系中无精确匹配概念时能输出高度相关概念。Text2Node包含三个主要阶段:首先将词汇表映射为词向量;其次使用节点向量化技术将分类体系向量化;最后训练映射函数以连接两个向量空间。我们比较了训练各阶段的多种算法与架构,包括GloVe和FastText词向量、CNN和Bi-LSTM映射函数以及node2vec节点向量化方法。通过将ICD-9-CM诊断短语映射到SNOMED CT,并以零样本训练达到可比精度,验证了Text2Node的鲁棒性与泛化特性。该系统为短语标准化和分类体系链接任务提供了新颖的方法学贡献,推动了医疗数据互操作性发展。实际应用时,该系统可利用电子健康记录生成融合分类体系医学知识的向量表示,以改进临床预测模型。

0
下载
关闭预览

相关内容

AAAI 2022 | ProtGNN:自解释图神经网络
专知会员服务
40+阅读 · 2022年2月28日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
LibRec 每周算法:DeepFM
LibRec智能推荐
14+阅读 · 2017年11月6日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关资讯
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
LibRec 每周算法:DeepFM
LibRec智能推荐
14+阅读 · 2017年11月6日
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员