SESR-Eval

Name: SESR-Eval
Creator: 赫尔辛基大学计算机科学系
Published: 2025-07-25 15:27:03
License: 暂无描述

arXiv2025-07-25 更新2025-07-29 收录

下载链接：

https://arxiv.org/abs/2507.19027v1

下载链接

链接失效反馈

官方服务：

资源简介：

SESR-Eval数据集是一个用于评估大型语言模型（LLMs）在软件工程系统审查（SRs）标题摘要筛选过程中的性能的基准数据集。该数据集包含来自24个软件工程（SE）期刊的34,528个标记的原始研究，这些研究是从169个SR研究制品中筛选出来的。数据集的创建过程包括从研究制品中提取数据、进行元数据检索、检索缺失的摘要、确定地面真实值、检索包含和排除标准等步骤。SESR-Eval数据集旨在解决LLMs在标题摘要筛选任务中的性能评估问题，为研究人员提供证据，以确定是否建议在软件工程中进行系统审查时使用LLMs。该数据集可用于比较AI解决方案，并监控LLMs在未来进度和改进。

The SESR-Eval dataset is a benchmark dataset for evaluating the performance of Large Language Models (LLMs) in the title and abstract screening process of Software Engineering Systematic Reviews (SRs). This dataset contains 34,528 labeled primary studies from 24 Software Engineering (SE) journals, which were screened from 169 SR study artifacts. The creation process of the dataset includes steps such as data extraction from study artifacts, metadata retrieval, retrieval of missing abstracts, determination of ground truth, and retrieval of inclusion and exclusion criteria. The SESR-Eval dataset aims to address the performance evaluation issue of LLMs in the title and abstract screening task, providing researchers with evidence to determine whether to recommend the use of LLMs when conducting systematic reviews in software engineering. This dataset can be used to compare AI solutions and monitor the progress and improvements of LLMs in the future.

提供机构：

赫尔辛基大学计算机科学系

创建时间：

2025-07-25

原始信息汇总

SESR-Eval: Dataset for Evaluating LLMs in the Title-Abstract Screening of Systematic Reviews

数据集基本信息

标题: SESR-Eval: Dataset for Evaluating LLMs in the Title-Abstract Screening of Systematic Reviews
作者: Aleksi Huotala, Miikka Kuutila, Mika Mäntylä
提交日期: 2025年7月25日
arXiv标识符: arXiv:2507.19027v1 [cs.SE]
DOI: https://doi.org/10.48550/arXiv.2507.19027

数据集概述

目的: 创建一个基准数据集，用于评估大型语言模型（LLMs）在系统综述（SRs）的标题-摘要筛选过程中的性能，并提供在软件工程中使用LLMs进行标题-摘要筛选的建议。
方法: 从169个SR研究文献中筛选出24个适合纳入数据集的研究，并使用该数据集对9个LLMs进行基准测试。
内容: 数据集包含34,528个标记的初步研究，来源于24个发表在软件工程（SE）期刊上的二次研究。

主要结果

LLMs表现: 大多数LLMs表现相似，二次研究之间的筛选准确性差异大于LLMs之间的差异。
成本: 使用LLMs的成本相对较低，即使是最昂贵的模型，每个二次研究的成本也低于40美元。
结论: 目前不建议使用LLMs自动化标题-摘要筛选过程，因为准确性在二次研究之间差异较大，且没有LLM能在合理精度下实现高召回率。

数据集特点

规模: 34,528个标记的初步研究
来源: 24个软件工程领域的二次研究
应用领域: 软件工程系统综述的标题-摘要筛选

未来计划

计划研究影响LLMs在不同研究之间筛选性能的因素。

相关链接

PDF: https://arxiv.org/pdf/2507.19027v1
HTML: https://arxiv.org/html/2507.19027v1
TeX Source: https://arxiv.org/format/2507.19027v1

搜集汇总

数据集介绍

构建方式

SESR-Eval数据集的构建过程始于对169个系统综述研究文献的筛选，最终确定24个适合纳入数据集。通过Scopus API获取元数据，并手动补充缺失的摘要信息，确保数据完整性。数据集包含34,528篇标注的初级研究文献，覆盖软件工程领域的多个主题。构建过程中严格验证了筛选结果的准确性，并提取了每篇文献的纳入与排除标准，以确保数据集的科学性和可靠性。

特点

SESR-Eval数据集的特点在于其规模大、覆盖广，包含24个次级研究的34,528篇初级研究文献，涵盖了软件工程领域的多个知识领域。数据集不仅提供了每篇文献的标题和摘要，还标注了其纳入或排除的状态，并附带了详细的纳入与排除标准。此外，数据集还包含了丰富的元数据信息，如DOI、关键词和作者信息，为研究者提供了全面的分析基础。

使用方法

SESR-Eval数据集主要用于评估大型语言模型在系统综述标题-摘要筛选任务中的性能。研究者可以通过该数据集对不同的语言模型进行基准测试，比较其在筛选任务中的准确率、召回率和F1分数等指标。此外，数据集还可用于分析次级研究之间的性能差异，以及探索影响模型性能的因素。数据集的结构化输出格式（JSON）便于程序化集成和快速评估，为研究者提供了高效的工具支持。

背景与挑战

背景概述

SESR-Eval数据集由赫尔辛基大学和达尔豪斯大学的研究团队于2025年创建，旨在评估大型语言模型（LLMs）在系统综述标题-摘要筛选任务中的性能。该数据集包含来自24项软件工程领域次级研究的34,528篇标注文献，填补了该领域缺乏标准化评估基准的空白。作为首个专注于软件工程系统综述自动筛选的大规模数据集，SESR-Eval通过整合多源研究数据，为LLMs在学术文献筛选中的应用提供了实证基础，对提升系统综述效率和研究可重复性具有重要意义。

当前挑战

该数据集主要面临双重挑战：在领域问题层面，需解决LLMs在标题-摘要筛选中召回率与精确度难以兼得的矛盾，当前模型最高召回率仅66%且伴随精度下降；在构建过程中，研究数据异构性带来显著困难，13.6%的文献缺失摘要需人工补全，且次级研究的筛选标准存在跨研究差异。此外，数据提取需处理多种非标准化文件格式，24%的研究数据因格式问题被排除，凸显了学术数据标准化建设的迫切需求。

常用场景

经典使用场景

在系统文献综述（SLR）的标题-摘要筛选阶段，SESR-Eval数据集被广泛用于评估大型语言模型（LLM）的自动化筛选能力。该数据集通过提供来自24个软件工程领域次级研究的34,528篇标记文献，为研究者提供了一个标准化的测试平台。研究者可以利用该数据集，模拟真实的标题-摘要筛选场景，测试不同LLM在筛选相关文献时的准确性和效率。

实际应用

在实际应用中，SESR-Eval数据集被用于优化系统文献综述的工作流程。例如，研究团队可以利用该数据集测试不同LLM的筛选效果，从而选择最适合的模型来辅助人工筛选，显著减少人工筛查的时间和成本。此外，该数据集还可用于培训新的筛选算法，提升自动化筛选工具的泛化能力。

衍生相关工作

SESR-Eval数据集推动了多项相关研究的发展，包括LLM在特定领域（如生物医学）的标题-摘要筛选应用、多模型集成筛选策略的优化，以及筛选性能影响因素的分析。例如，基于该数据集的研究发现了次级研究间的性能差异远大于不同LLM间的差异，这一结论为后续研究提供了重要方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集