跨多个异构数据源的实体对齐

2019 年 3 月 13 日 FCS

点击上方蓝字

关注我们

       实体对齐旨在识别现实世界中不同数据源间的相同实体。跨异构数据源识别相同的实体在众多研究领域都至关重要,比如数据清理、数据集成、信息检索和机器学习研究领域。对大型数据集来说,实体对齐过程往往涉及两个甚至多个数据源的所有元组,不仅计算开销十分昂贵,而且需要能够处理异构实体属性。本文中,我们提出了一种非监督的方法:EnAli,用于匹配两个或多个异构数据源中的相同实体。EnAli基于概率生成模型,利用指数族整合异构实体属性,处理缺失值,并利用局部敏感哈希结构降低候选集数量以加速对齐过程。即使没有任何已知的标注数据,EnAli依然能保持较高的精度和效率。我们在相同数据集,不同副本的“自匹配”实验中测试了EnAli的实体识别性能,并在三个真实的数据源上测试了实体对齐的性能和效率,实验结果表明,我们提出的方法优于对比方法。

文章精要

请长按下方二维码识别,阅读该文。

相关内容推荐:

面向多目标事务数据发布的多维泛化 2018 12(6):1241-1254

利用局部计算的整体性子图匹配 2018 12(5):966-983

FCS 12(1) 文章 | 处理大规模索引中的查询偏斜:一种基于视图的方法

FCS 12(1) 文章 | 伪相关反馈的强度Pareto适应度分配:在MEDLINE中的应用



Frontiers of Computer Science



Frontiers of Computer Science (FCS)是由教育部主管、高等教育出版社和北京航空航天大学共同主办、SpringerNature 公司海外发行的英文学术期刊。本刊于 2007 年创刊,双月刊,全球发行。主要刊登计算机科学领域具有创新性的综述论文、研究论文等。本刊主编为周志华教授,共同主编为熊璋教授。编委会及青年 AE 团队由国内外知名学者及优秀青年学者组成。本刊被 SCI、Ei、DBLP、INSPEC、SCOPUS 和中国科学引文数据库(CSCD)核心库等收录,为 CCF 推荐期刊;两次入选“中国科技期刊国际影响力提升计划”;入选“第4届中国国际化精品科技期刊”。




长按二维码关注Frontiers of Computer Science公众号


登录查看更多
15

相关内容

实体对齐(Entity Alignment)也被称作实体匹配(Entity Matching),是指对于异构数据源知识库中的各个实体,找出属于现实世界中的同一实体。 实体对齐常用的方法是利用实体的属性信息判定不同源实体是否可进行对齐。
基于统计关系学习的自动数据清洗
FCS
7+阅读 · 2019年3月1日
基于差分隐私的地理社交网络发布
FCS
9+阅读 · 2019年2月22日
FCS 12(1) 文章 | 知识图谱综述
FCS
8+阅读 · 2018年3月12日
Efficiently Embedding Dynamic Knowledge Graphs
Arxiv
14+阅读 · 2019年10月15日
Arxiv
30+阅读 · 2019年3月13日
VIP会员
相关论文
Top
微信扫码咨询专知VIP会员