Machine learning models are increasingly used to produce predictions that serve as input data in subsequent statistical analyses. For example, computer vision predictions of economic and environmental indicators based on satellite imagery are used in downstream regressions; similarly, language models are widely used to approximate human ratings and opinions in social science research. However, failure to properly account for errors in the machine learning predictions renders standard statistical procedures invalid. Prior work uses what we call the Predict-Then-Debias estimator to give valid confidence intervals when machine learning algorithms impute missing variables, assuming a small complete sample from the population of interest. We expand the scope by introducing bootstrap confidence intervals that apply when the complete data is a nonuniform (i.e., weighted, stratified, or clustered) sample and to settings where an arbitrary subset of features is imputed. Importantly, the method can be applied to many settings without requiring additional calculations. We prove that these confidence intervals are valid under no assumptions on the quality of the machine learning model and are no wider than the intervals obtained by methods that do not use machine learning predictions.


翻译:机器学习模型越来越多地被用于生成预测结果,这些预测结果随后作为输入数据用于后续的统计分析。例如,基于卫星图像的计算机视觉预测在经济和环境指标方面的应用被用于下游回归分析;类似地,语言模型在社会科学研究中被广泛用于近似人类评分和观点。然而,若未能恰当考虑机器学习预测中的误差,将导致标准统计程序失效。先前研究采用我们称之为“预测后去偏”估计器的方法,在机器学习算法对缺失变量进行插补时提供有效的置信区间,但该方法假设存在一个来自目标总体的较小完整样本。我们通过引入适用于非均匀(即加权、分层或聚类)抽样完整数据场景的Bootstrap置信区间,扩展了该方法的应用范围,并使其适用于任意特征子集被插补的情境。重要的是,该方法无需额外计算即可应用于多种场景。我们证明,这些置信区间在无需对机器学习模型质量作任何假设的前提下保持有效性,且其宽度不超出未使用机器学习预测的方法所获得的区间。

0
下载
关闭预览

相关内容

【WWW2024】博弈论式反事实解释图神经网络
专知会员服务
32+阅读 · 2024年2月17日
【AAAI2023】自适应黎曼空间中的自监督连续图学习
专知会员服务
27+阅读 · 2022年12月2日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员