Assessing journal impact is central to scholarly communication, yet existing open resources rarely capture how collaboration structures and artificial intelligence (AI) research jointly shape venue prestige in biomedicine. We present BioMedJImpact, a large-scale, biomedical-oriented dataset designed to advance journal-level analysis of scientific impact and AI engagement. Built from 1.74 million PubMed Central articles across 2,744 journals, BioMedJImpact integrates bibliometric indicators, collaboration features, and LLM-derived semantic indicators for AI engagement. Specifically, the AI engagement feature is extracted through a reproducible three-stage LLM pipeline that we propose. Using this dataset, we analyze how collaboration intensity and AI engagement jointly influence scientific impact across pre- and post-pandemic periods (2016-2019, 2020-2023). Two consistent trends emerge: journals with higher collaboration intensity, particularly those with larger and more diverse author teams, tend to achieve greater citation impact, and AI engagement has become an increasingly strong correlate of journal prestige, especially in quartile rankings. To further validate the three-stage LLM pipeline we proposed for deriving the AI engagement feature, we conduct human evaluation, confirming substantial agreement in AI relevance detection and consistent subfield classification. Together, these contributions demonstrate that BioMedJImpact serves as both a comprehensive dataset capturing the intersection of biomedicine and AI, and a validated methodological framework enabling scalable, content-aware scientometric analysis of scientific impact and innovation dynamics. Code is available at https://github.com/JonathanWry/BioMedJImpact.


翻译:期刊影响力评估是学术交流的核心,然而现有开放资源很少能捕捉合作结构与人工智能(AI)研究如何共同塑造生物医学领域的期刊声誉。我们提出了BioMedJImpact,这是一个大规模、面向生物医学的数据集,旨在推动期刊层面的科学影响力与AI参与度分析。该数据集基于来自2,744种期刊的174万篇PubMed Central文章构建,整合了文献计量指标、合作特征以及通过大型语言模型(LLM)衍生的AI参与度语义指标。具体而言,AI参与度特征是通过我们提出的可复现的三阶段LLM流程提取的。利用该数据集,我们分析了合作强度与AI参与度如何共同影响疫情前后时期(2016-2019年、2020-2023年)的科学影响力。两个一致趋势显现:合作强度较高的期刊,尤其是那些拥有规模更大、更多样化作者团队的期刊,往往获得更高的引用影响力;AI参与度已成为期刊声誉日益增强的相关因素,尤其在四分位排名中。为进一步验证我们提出的用于提取AI参与度特征的三阶段LLM流程,我们进行了人工评估,确认了在AI相关性检测方面的高度一致性以及稳定的子领域分类。综上,这些贡献表明BioMedJImpact既是一个捕捉生物医学与AI交叉领域的综合性数据集,也是一个经过验证的方法框架,支持对科学影响力与创新动态进行可扩展、内容感知的科学计量分析。代码可在https://github.com/JonathanWry/BioMedJImpact获取。

0
下载
关闭预览

相关内容

国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员