In many settings, a data curator links records from two files to produce datasets that are shared with secondary analysts. Analysts use the linked files to estimate models of interest, such as regressions. Such two-stage approaches do not necessarily account for uncertainty in model parameters that results from uncertainty in the linkages. Further, they do not leverage the relationships among the study variables in the two files to help determine the linkages. We propose a multiple imputation framework to address these shortcomings. First, we use a bipartite Bayesian record linkage model to generate multiple plausible linked datasets, disregarding the information in the study variables. Second, we presume each linked file has a mixture of true links and false links. We estimate the mixture model using information from the study variables. Through simulation studies under a regression setting, we demonstrate that estimates of the regression model parameters can be more accurate than those based on an analogous two-stage approach. We illustrate the integrated approach using data from the Survey on Household Income and Wealth, examining a regression involving the persistence of income.


翻译:在许多场景中,数据管理者通过链接两个文件中的记录来生成供次级分析师使用的数据集。分析师利用这些链接后的文件估计感兴趣的模型,例如回归模型。此类两阶段方法通常未能充分考虑由链接不确定性导致的模型参数不确定性。此外,这些方法未能利用两个文件中研究变量之间的关联关系来辅助确定链接。我们提出了一个多重插补框架以解决这些缺陷。首先,我们采用二分贝叶斯记录链接模型生成多个可能的链接数据集,此阶段暂不考虑研究变量的信息。其次,我们假设每个链接文件同时包含真实链接与错误链接,并利用研究变量的信息估计该混合模型。通过在回归设定下的模拟研究,我们证明该方法对回归模型参数的估计结果可能比类似的两阶段方法更为准确。我们使用家庭收入与财富调查数据对该集成方法进行了实证说明,分析了收入持续性的回归模型。

0
下载
关闭预览

相关内容

Python图像处理,366页pdf,Image Operators Image Processing in Python
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员