Functional Dependencies (FDs) define attribute relationships based on syntactic equality, and, when usedin data cleaning, they erroneously label syntactically different but semantically equivalent values as errors. We explore dependency-based data cleaning with Ontology Functional Dependencies(OFDs), which express semantic attribute relationships such as synonyms and is-a hierarchies defined by an ontology. We study the theoretical foundations for OFDs, including sound and complete axioms and a linear-time inference procedure. We then propose an algorithm for discovering OFDs (exact ones and ones that hold with some exceptions) from data that uses the axioms to prune the search space. Towards enabling OFDs as data quality rules in practice, we study the problem of finding minimal repairs to a relation and ontology with respect to a set of OFDs. We demonstrate the effectiveness of our techniques on real datasets, and show that OFDs can significantly reduce the number of false positive errors in data cleaning techniques that rely on traditional FDs.


翻译:功能依赖(FDs) 定义基于同系物平等的属性关系,在使用数据清理时,它们错误地将同系物不同但等同的值贴上错误的标签。我们探索与本体功能依赖性(OFDs)一起进行基于依赖性的数据清理,以表达同义词和本体学界定的等级等语义属性关系;我们研究D的理论基础,包括健全和完整的轴数和线性时间推论程序。我们然后提出一种算法,用于发现数据(除某些例外情况外,持有的)与使用等义词来提取搜索空间的数据的相容性数据。我们设法使OFDs成为实践中的数据质量规则,我们研究找到对一系列ODs关系和理论进行最起码的修复的问题。我们展示了我们在真实数据集方面的技术的有效性,并表明ODs可以大大减少依赖传统FDs的数据清理技术中错误的数量。

0
下载
关闭预览

相关内容

【XAUTOML】可解释自动机器学习,27页ppt
专知会员服务
65+阅读 · 2021年4月23日
迁移学习简明教程,11页ppt
专知会员服务
108+阅读 · 2020年8月4日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
81+阅读 · 2020年7月26日
因果图,Causal Graphs,52页ppt
专知会员服务
250+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
【电子书推荐】Data Science with Python and Dask
专知会员服务
44+阅读 · 2019年6月1日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年7月18日
Arxiv
0+阅读 · 2021年7月15日
Arxiv
5+阅读 · 2019年6月5日
Arxiv
5+阅读 · 2017年11月30日
Arxiv
3+阅读 · 2014年10月9日
VIP会员
相关VIP内容
【XAUTOML】可解释自动机器学习,27页ppt
专知会员服务
65+阅读 · 2021年4月23日
迁移学习简明教程,11页ppt
专知会员服务
108+阅读 · 2020年8月4日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
81+阅读 · 2020年7月26日
因果图,Causal Graphs,52页ppt
专知会员服务
250+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
【电子书推荐】Data Science with Python and Dask
专知会员服务
44+阅读 · 2019年6月1日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员