SESR-Eval

Name: SESR-Eval
Creator: 赫尔辛基大学计算机科学系
Published: 2025-07-25 15:27:03
License: 暂无描述

arXiv2025-07-25 更新2025-07-29 收录

下载链接：

https://arxiv.org/abs/2507.19027v1

下载链接

链接失效反馈

官方服务：

资源简介：

SESR-Eval数据集是一个用于评估大型语言模型（LLMs）在软件工程系统审查（SRs）标题摘要筛选过程中的性能的基准数据集。该数据集包含来自24个软件工程（SE）期刊的34,528个标记的原始研究，这些研究是从169个SR研究制品中筛选出来的。数据集的创建过程包括从研究制品中提取数据、进行元数据检索、检索缺失的摘要、确定地面真实值、检索包含和排除标准等步骤。SESR-Eval数据集旨在解决LLMs在标题摘要筛选任务中的性能评估问题，为研究人员提供证据，以确定是否建议在软件工程中进行系统审查时使用LLMs。该数据集可用于比较AI解决方案，并监控LLMs在未来进度和改进。

提供机构：

赫尔辛基大学计算机科学系

创建时间：

2025-07-25

原始信息汇总

SESR-Eval: Dataset for Evaluating LLMs in the Title-Abstract Screening of Systematic Reviews

数据集基本信息

标题: SESR-Eval: Dataset for Evaluating LLMs in the Title-Abstract Screening of Systematic Reviews
作者: Aleksi Huotala, Miikka Kuutila, Mika Mäntylä
提交日期: 2025年7月25日
arXiv标识符: arXiv:2507.19027v1 [cs.SE]
DOI: https://doi.org/10.48550/arXiv.2507.19027

数据集概述

目的: 创建一个基准数据集，用于评估大型语言模型（LLMs）在系统综述（SRs）的标题-摘要筛选过程中的性能，并提供在软件工程中使用LLMs进行标题-摘要筛选的建议。
方法: 从169个SR研究文献中筛选出24个适合纳入数据集的研究，并使用该数据集对9个LLMs进行基准测试。
内容: 数据集包含34,528个标记的初步研究，来源于24个发表在软件工程（SE）期刊上的二次研究。

主要结果

LLMs表现: 大多数LLMs表现相似，二次研究之间的筛选准确性差异大于LLMs之间的差异。
成本: 使用LLMs的成本相对较低，即使是最昂贵的模型，每个二次研究的成本也低于40美元。
结论: 目前不建议使用LLMs自动化标题-摘要筛选过程，因为准确性在二次研究之间差异较大，且没有LLM能在合理精度下实现高召回率。

数据集特点

规模: 34,528个标记的初步研究
来源: 24个软件工程领域的二次研究
应用领域: 软件工程系统综述的标题-摘要筛选

未来计划

计划研究影响LLMs在不同研究之间筛选性能的因素。

相关链接

PDF: https://arxiv.org/pdf/2507.19027v1
HTML: https://arxiv.org/html/2507.19027v1
TeX Source: https://arxiv.org/format/2507.19027v1

搜集汇总

数据集介绍

构建方式

SESR-Eval数据集的构建过程始于对169个系统综述研究文献的筛选，最终确定24个适合纳入数据集。通过Scopus API获取元数据，并手动补充缺失的摘要信息，确保数据完整性。数据集包含34,528篇标注的初级研究文献，覆盖软件工程领域的多个主题。构建过程中严格验证了筛选结果的准确性，并提取了每篇文献的纳入与排除标准，以确保数据集的科学性和可靠性。

特点

SESR-Eval数据集的特点在于其规模大、覆盖广，包含24个次级研究的34,528篇初级研究文献，涵盖了软件工程领域的多个知识领域。数据集不仅提供了每篇文献的标题和摘要，还标注了其纳入或排除的状态，并附带了详细的纳入与排除标准。此外，数据集还包含了丰富的元数据信息，如DOI、关键词和作者信息，为研究者提供了全面的分析基础。

使用方法

SESR-Eval数据集主要用于评估大型语言模型在系统综述标题-摘要筛选任务中的性能。研究者可以通过该数据集对不同的语言模型进行基准测试，比较其在筛选任务中的准确率、召回率和F1分数等指标。此外，数据集还可用于分析次级研究之间的性能差异，以及探索影响模型性能的因素。数据集的结构化输出格式（JSON）便于程序化集成和快速评估，为研究者提供了高效的工具支持。

背景与挑战

背景概述

SESR-Eval数据集由赫尔辛基大学和达尔豪斯大学的研究团队于2025年创建，旨在评估大型语言模型（LLMs）在系统综述标题-摘要筛选任务中的性能。该数据集包含来自24项软件工程领域次级研究的34,528篇标注文献，填补了该领域缺乏标准化评估基准的空白。作为首个专注于软件工程系统综述自动筛选的大规模数据集，SESR-Eval通过整合多源研究数据，为LLMs在学术文献筛选中的应用提供了实证基础，对提升系统综述效率和研究可重复性具有重要意义。

当前挑战

该数据集主要面临双重挑战：在领域问题层面，需解决LLMs在标题-摘要筛选中召回率与精确度难以兼得的矛盾，当前模型最高召回率仅66%且伴随精度下降；在构建过程中，研究数据异构性带来显著困难，13.6%的文献缺失摘要需人工补全，且次级研究的筛选标准存在跨研究差异。此外，数据提取需处理多种非标准化文件格式，24%的研究数据因格式问题被排除，凸显了学术数据标准化建设的迫切需求。

常用场景

经典使用场景

在系统文献综述（SLR）的标题-摘要筛选阶段，SESR-Eval数据集被广泛用于评估大型语言模型（LLM）的自动化筛选能力。该数据集通过提供来自24个软件工程领域次级研究的34,528篇标记文献，为研究者提供了一个标准化的测试平台。研究者可以利用该数据集，模拟真实的标题-摘要筛选场景，测试不同LLM在筛选相关文献时的准确性和效率。

实际应用

在实际应用中，SESR-Eval数据集被用于优化系统文献综述的工作流程。例如，研究团队可以利用该数据集测试不同LLM的筛选效果，从而选择最适合的模型来辅助人工筛选，显著减少人工筛查的时间和成本。此外，该数据集还可用于培训新的筛选算法，提升自动化筛选工具的泛化能力。

衍生相关工作

SESR-Eval数据集推动了多项相关研究的发展，包括LLM在特定领域（如生物医学）的标题-摘要筛选应用、多模型集成筛选策略的优化，以及筛选性能影响因素的分析。例如，基于该数据集的研究发现了次级研究间的性能差异远大于不同LLM间的差异，这一结论为后续研究提供了重要方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集