Failure-inducing inputs play a crucial role in diagnosing and analyzing software bugs. Bug reports typically contain these inputs, which developers extract to facilitate debugging. Since bug reports are written in natural language, prior research has leveraged various Natural Language Processing (NLP) techniques for automated input extraction. With the advent of Large Language Models (LLMs), an important research question arises: how effectively can generative LLMs extract failure-inducing inputs from bug reports? In this paper, we propose LLPut, a technique to empirically evaluate the performance of three open-source generative LLMs -- LLaMA, Qwen, and Qwen-Coder -- in extracting relevant inputs from bug reports. We conduct an experimental evaluation on a dataset of 206 bug reports to assess the accuracy and effectiveness of these models. Our findings provide insights into the capabilities and limitations of generative LLMs in automated bug diagnosis.


翻译:引发故障的输入在软件缺陷的诊断与分析中起着至关重要的作用。缺陷报告通常包含这些输入,开发者会提取它们以辅助调试。由于缺陷报告以自然语言撰写,先前的研究已利用多种自然语言处理技术实现自动化输入提取。随着大语言模型的出现,一个重要研究问题随之产生:生成式大语言模型从缺陷报告中提取引发故障的输入效果如何?本文提出LLPut,一种实证评估三种开源生成式大语言模型——LLaMA、Qwen与Qwen-Coder——从缺陷报告中提取相关输入性能的技术。我们在包含206份缺陷报告的数据集上进行了实验评估,以衡量这些模型的准确性与有效性。我们的研究结果为生成式大语言模型在自动化缺陷诊断中的能力与局限提供了深入见解。

0
下载
关闭预览

相关内容

【NAACL2022】自然语言处理的对比数据与学习
专知会员服务
46+阅读 · 2022年7月10日
Python图像处理,366页pdf,Image Operators Image Processing in Python
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员