Malicious packages in public registries pose serious threats to software supply chain security. While current software component analysis (SCA) tools rely on databases like OSV and Snyk to detect these threats, these databases suffer from delayed updates and incomplete coverage. However, they miss intelligence from unstructured sources like social media and developer forums, where new threats are often first reported. This delay extends the lifecycle of malicious packages and increases risks for downstream users. To address this, we developed a novel and comprehensive approach to construct a platform IntelliRadar to collect disclosed malicious package names from unstructured web content. Specifically, by exhaustively searching and snowballing the public sources of malicious package names, and incorporating large language models (LLMs) with domain-specialized Least to Most prompts, IntelliRadar ensures comprehensive collection of historical and current disclosed malicious package names from diverse unstructured sources. As a result, we constructed a comprehensive malicious package database containing 34,313 malicious NPM and PyPI package names. Our evaluation shows that IntelliRadar achieves high performance (97.91% precision) on malicious package intelligence extraction. Compared to existing databases, IntelliRadar identifies 7,542 more malicious package names than OSV and 12,684 more than Snyk. Furthermore, 76.6% of NPM components and 70.3% of PyPI components in IntelliRadar were collected earlier than in Snyk's database. IntelliRadar is also more cost-efficient, with a cost of $0.003 per piece of malicious package intelligence and only $7 per month for continuous monitoring. Furthermore, we identified and received confirmation for 1,981 malicious packages in downstream package manager mirror registries through the IntelliRadar.


翻译:公共注册表中的恶意软件包对软件供应链安全构成严重威胁。当前软件组件分析(SCA)工具虽依赖OSV和Snyk等数据库检测此类威胁,但这些数据库存在更新延迟与覆盖不全的问题,且未能纳入社交媒体、开发者论坛等非结构化来源中首次披露新威胁的情报。这种延迟延长了恶意软件包的生命周期,增加了下游用户的风险。为此,我们开发了一种新颖的综合方法,构建了IntelliRadar平台,用于从非结构化网络内容中收集已披露的恶意软件包名称。具体而言,通过穷举搜索和滚雪球式收集恶意软件包名称的公开来源,并结合大语言模型(LLMs)与领域专业化的“从简到繁”提示策略,IntelliRadar确保了从多样非结构化来源中全面收集历史及当前已披露的恶意软件包名称。最终,我们构建了一个包含34,313个恶意NPM和PyPI软件包名称的综合性恶意软件包数据库。评估表明,IntelliRadar在恶意软件包情报提取上实现了高性能(精确率达97.91%)。与现有数据库相比,IntelliRadar比OSV多识别7,542个、比Snyk多识别12,684个恶意软件包名称。此外,IntelliRadar中76.6%的NPM组件和70.3%的PyPI组件收集时间早于Snyk数据库。IntelliRadar还具有更高成本效益,每条恶意软件包情报成本为0.003美元,持续监测每月仅需7美元。基于IntelliRadar,我们还在下游包管理器镜像注册表中识别并确认了1,981个恶意软件包。

0
下载
关闭预览

相关内容

软件(中国大陆及香港用语,台湾作软体,英文:Software)是一系列按照特定顺序组织的计算机数据和指令的集合。一般来讲软件被划分为编程语言、系统软件、应用软件和介于这两者之间的中间件。软件就是程序加文档的集合体。
【KDD2024】针对图提示学习的跨上下文后门攻击
专知会员服务
21+阅读 · 2024年6月15日
《使用静态污点分析检测恶意代码》CMU最新30页slides
专知会员服务
21+阅读 · 2023年10月11日
TheFatRat 一款简易后门工具
黑白之道
35+阅读 · 2019年10月23日
Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具
黑白之道
17+阅读 · 2019年2月27日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员