SESR-Eval
收藏arXiv2025-07-25 更新2025-07-29 收录
下载链接:
https://arxiv.org/abs/2507.19027v1
下载链接
链接失效反馈官方服务:
资源简介:
SESR-Eval数据集是一个用于评估大型语言模型(LLMs)在软件工程系统审查(SRs)标题摘要筛选过程中的性能的基准数据集。该数据集包含来自24个软件工程(SE)期刊的34,528个标记的原始研究,这些研究是从169个SR研究制品中筛选出来的。数据集的创建过程包括从研究制品中提取数据、进行元数据检索、检索缺失的摘要、确定地面真实值、检索包含和排除标准等步骤。SESR-Eval数据集旨在解决LLMs在标题摘要筛选任务中的性能评估问题,为研究人员提供证据,以确定是否建议在软件工程中进行系统审查时使用LLMs。该数据集可用于比较AI解决方案,并监控LLMs在未来进度和改进。
提供机构:
赫尔辛基大学计算机科学系
创建时间:
2025-07-25
原始信息汇总
SESR-Eval: Dataset for Evaluating LLMs in the Title-Abstract Screening of Systematic Reviews
数据集基本信息
- 标题: SESR-Eval: Dataset for Evaluating LLMs in the Title-Abstract Screening of Systematic Reviews
- 作者: Aleksi Huotala, Miikka Kuutila, Mika Mäntylä
- 提交日期: 2025年7月25日
- arXiv标识符: arXiv:2507.19027v1 [cs.SE]
- DOI: https://doi.org/10.48550/arXiv.2507.19027
数据集概述
- 目的: 创建一个基准数据集,用于评估大型语言模型(LLMs)在系统综述(SRs)的标题-摘要筛选过程中的性能,并提供在软件工程中使用LLMs进行标题-摘要筛选的建议。
- 方法: 从169个SR研究文献中筛选出24个适合纳入数据集的研究,并使用该数据集对9个LLMs进行基准测试。
- 内容: 数据集包含34,528个标记的初步研究,来源于24个发表在软件工程(SE)期刊上的二次研究。
主要结果
- LLMs表现: 大多数LLMs表现相似,二次研究之间的筛选准确性差异大于LLMs之间的差异。
- 成本: 使用LLMs的成本相对较低,即使是最昂贵的模型,每个二次研究的成本也低于40美元。
- 结论: 目前不建议使用LLMs自动化标题-摘要筛选过程,因为准确性在二次研究之间差异较大,且没有LLM能在合理精度下实现高召回率。
数据集特点
- 规模: 34,528个标记的初步研究
- 来源: 24个软件工程领域的二次研究
- 应用领域: 软件工程系统综述的标题-摘要筛选
未来计划
- 计划研究影响LLMs在不同研究之间筛选性能的因素。
相关链接
- PDF: https://arxiv.org/pdf/2507.19027v1
- HTML: https://arxiv.org/html/2507.19027v1
- TeX Source: https://arxiv.org/format/2507.19027v1
搜集汇总
数据集介绍

构建方式
SESR-Eval数据集的构建过程始于对169个系统综述研究文献的筛选,最终确定24个适合纳入数据集。通过Scopus API获取元数据,并手动补充缺失的摘要信息,确保数据完整性。数据集包含34,528篇标注的初级研究文献,覆盖软件工程领域的多个主题。构建过程中严格验证了筛选结果的准确性,并提取了每篇文献的纳入与排除标准,以确保数据集的科学性和可靠性。
特点
SESR-Eval数据集的特点在于其规模大、覆盖广,包含24个次级研究的34,528篇初级研究文献,涵盖了软件工程领域的多个知识领域。数据集不仅提供了每篇文献的标题和摘要,还标注了其纳入或排除的状态,并附带了详细的纳入与排除标准。此外,数据集还包含了丰富的元数据信息,如DOI、关键词和作者信息,为研究者提供了全面的分析基础。
使用方法
SESR-Eval数据集主要用于评估大型语言模型在系统综述标题-摘要筛选任务中的性能。研究者可以通过该数据集对不同的语言模型进行基准测试,比较其在筛选任务中的准确率、召回率和F1分数等指标。此外,数据集还可用于分析次级研究之间的性能差异,以及探索影响模型性能的因素。数据集的结构化输出格式(JSON)便于程序化集成和快速评估,为研究者提供了高效的工具支持。
背景与挑战
背景概述
SESR-Eval数据集由赫尔辛基大学和达尔豪斯大学的研究团队于2025年创建,旨在评估大型语言模型(LLMs)在系统综述标题-摘要筛选任务中的性能。该数据集包含来自24项软件工程领域次级研究的34,528篇标注文献,填补了该领域缺乏标准化评估基准的空白。作为首个专注于软件工程系统综述自动筛选的大规模数据集,SESR-Eval通过整合多源研究数据,为LLMs在学术文献筛选中的应用提供了实证基础,对提升系统综述效率和研究可重复性具有重要意义。
当前挑战
该数据集主要面临双重挑战:在领域问题层面,需解决LLMs在标题-摘要筛选中召回率与精确度难以兼得的矛盾,当前模型最高召回率仅66%且伴随精度下降;在构建过程中,研究数据异构性带来显著困难,13.6%的文献缺失摘要需人工补全,且次级研究的筛选标准存在跨研究差异。此外,数据提取需处理多种非标准化文件格式,24%的研究数据因格式问题被排除,凸显了学术数据标准化建设的迫切需求。
常用场景
经典使用场景
在系统文献综述(SLR)的标题-摘要筛选阶段,SESR-Eval数据集被广泛用于评估大型语言模型(LLM)的自动化筛选能力。该数据集通过提供来自24个软件工程领域次级研究的34,528篇标记文献,为研究者提供了一个标准化的测试平台。研究者可以利用该数据集,模拟真实的标题-摘要筛选场景,测试不同LLM在筛选相关文献时的准确性和效率。
实际应用
在实际应用中,SESR-Eval数据集被用于优化系统文献综述的工作流程。例如,研究团队可以利用该数据集测试不同LLM的筛选效果,从而选择最适合的模型来辅助人工筛选,显著减少人工筛查的时间和成本。此外,该数据集还可用于培训新的筛选算法,提升自动化筛选工具的泛化能力。
衍生相关工作
SESR-Eval数据集推动了多项相关研究的发展,包括LLM在特定领域(如生物医学)的标题-摘要筛选应用、多模型集成筛选策略的优化,以及筛选性能影响因素的分析。例如,基于该数据集的研究发现了次级研究间的性能差异远大于不同LLM间的差异,这一结论为后续研究提供了重要方向。
以上内容由遇见数据集搜集并总结生成



