软件缺陷预测：使用的数据集和性能改进技术综述

软件缺陷预测数据集选择

研究问题4：为实验选择了哪些数据集？

为了评估软件缺陷预测 (SDP) 模型的有效性，研究人员使用了各种数据集。以下是一些常用的数据集：

开源项目: Kaur等人[44]使用了来自SourceForge的开源Java项目PMD、Find Bugs、EMMA、Trove和Dr Java。Malhotra等人[46]从Github存储库收集了九个热门的开源项目：caffeine、fast adapter、fresco、freezer、glide、design pattern、jedis、mem-cached和MPAndroidChart。 * 编程竞赛: Phan等人[50]从编程竞赛网站CodeChef收集了四个问题的bug数据，即SUMTRIAN、FLOW016、MNMX和SUBINC，这些问题是用C和C++编程语言提交的。* Android软件库: Malhotra等人[55]中，数据是从包含蓝牙、联系人、电子邮件、画廊和电话数据的Android软件存储库中收集的。* Eclipse缺陷预测数据集: 在参考文献[37,48]中，研究人员使用了Eclipse缺陷预测数据集的三个版本的bug数据。

研究问题5：研究人员在改进提出/使用的框架/模型的预测性能方面的贡献/创新是什么？

为了提高SDP模型的预测性能，研究人员探索了各种技术：

比较分析: 在选定的22篇主要研究中，有12篇对SDP上的各种分类算法进行了比较分析。研究人员比较了不同的机器学习分类器和模型的预测性能[34,37–40,42–44,46,51,52,55]。* 新框架: 有10篇研究论文提出了新颖的框架来提高缺陷预测的准确性[35,36,41,45,47–50,53,54]。在这些研究中，研究人员提出了基于基线机器学习分类器的混合、分层、自适应学习和基于网络的框架。

对于这个研究问题，重点是用于改进SDP模型/框架/算法性能的特定技术，例如：

混合框架: 结合多种机器学习算法的优势。* 分层框架: 将预测问题分解为多个层次，并在每个层次应用专门的模型。* 自适应学习: 根据新数据动态调整模型参数。* 基于网络的框架: 利用深度学习技术来学习复杂的模式。

这些技术的应用有助于提高SDP模型的准确性和效率，为软件开发过程提供更可靠的缺陷预测。