five

SurGE (Survey Generation Evaluation)

收藏
arXiv2025-08-21 更新2025-08-23 收录
下载链接:
https://github.com/oneal2000/SurGE
下载链接
链接失效反馈
官方服务:
资源简介:
SurGE数据集是计算机科学领域科学综述生成的首个全面基准,包括专家撰写的基准综述和大型学术论文语料库。数据集包含205篇经过严格验证的综述论文和108万篇计算机科学论文的元数据,作为检索池。SurGE旨在促进可重复的研究,并为科学综述生成提供一个标准的评估框架。

The SurGE dataset is the first comprehensive benchmark for scientific review generation in the field of computer science, comprising expert-authored benchmark reviews and a large-scale academic paper corpus. It contains 205 rigorously validated review papers and the metadata of 1.08 million computer science papers, serving as the retrieval pool. The SurGE dataset aims to facilitate reproducible research and provide a standardized evaluation framework for scientific review generation.
提供机构:
清华大学计算机科学与技术系
创建时间:
2025-08-21
原始信息汇总

SurGE 数据集概述

数据集简介

SurGE 是一个面向计算机科学领域的端到端科学综述生成基准和数据集。该数据集为自动化综述生成系统评估提供了全面资源,包括大规模数据集和全自动评估框架。

核心组成

1. 真实综述数据

  • 数据量:包含 205 篇精心策划的真实综述
  • 存储位置data/surveys.json
  • 数据字段
    • authors:研究人员列表
    • survey_title:综述标题
    • year:发表年份
    • date:精确发表时间戳
    • category:arXiv 学科分类
    • abstract:综述摘要
    • structure:综述组织的层次结构表示
    • survey_id:唯一标识符
    • all_cites:综述中引用的文档 ID 列表
    • Bertopic_CD:使用 BERTopic 计算的多样性度量

2. 文献知识库

  • 数据量:1,086,992 篇学术论文
  • 存储位置data/corpus.json
  • 数据字段
    • Title:论文标题
    • Authors:研究人员列表
    • Year:发表年份
    • Date:论文发布时间戳
    • Abstract:论文摘要
    • Category:arXiv 学科分类
    • doc_id:唯一标识符

3. 辅助映射

  • 存储位置data/queries.json
  • 数据字段
    • original_id:查询来源章节的标识符
    • query_id:查询 ID
    • content:章节内容
    • prefix_titles:章节/小节/段落的层次标题列表
    • prefix_titles_query:相关检索问题
    • cites:章节中引用的文档 ID 列表
    • cite_extract_rate:提取引用数与原始引用数的比率
    • origin_cites_number:章节中原有的总引用数

数据集获取

完整数据集可从 https://drive.google.com/drive/folders/1ZZPeZvjexFcCmgFqxftKeCPn1vYeBR0Q?usp=drive_link 下载

评估指标

  • ROUGE-BLEU
  • SH-Recall
  • Structure_Quality (LLM_as_judge)
  • Coverage
  • Relevance-Paper
  • Relevance-Section
  • Relevance-Sentence
  • Logic

许可证

MIT 许可证

搜集汇总
数据集介绍
main_image_url
构建方式
在计算机科学领域文献激增的背景下,SurGE数据集的构建始于对高质量综述论文的系统性收集。研究团队从arXiv平台筛选了2020至2024年间自标识为综述且引用量超过20的计算机科学论文,确保学术影响力。随后通过四名计算机科学博士生的双人独立标注,从引用影响力、内容覆盖度、结构连贯性和参考文献质量四个维度进行严格筛选,仅保留双方均评定为“可用”的论文,最终形成包含205篇专家撰写综述的测试集。同时,基于这些综述的参考文献和扩展检索,构建了包含108万余篇论文的大规模学术文献库作为检索池。
特点
SurGE数据集的核心特点体现在其多维评估框架与真实学术场景的高度契合。数据集不仅提供专家撰写的标准综述作为参考,还包含完整的参考文献列表,支持对生成内容的信息覆盖度和引用准确性进行量化评估。其检索池覆盖计算机科学多个子领域,具备丰富的元数据(标题、作者、摘要等),为检索增强生成任务提供坚实基础。此外,数据集通过解析综述的层级章节结构(平均深度3.07,平均节点42.7个),揭示了学术综述的复杂组织模式,为评估生成文本的结构逻辑性提供细粒度标准。
使用方法
该数据集的使用遵循两阶段任务框架:给定研究主题描述,系统需先从学术库中检索相关文献,再生成结构化的综述文档。评估时采用自动化多维指标:信息覆盖度计算生成综述与标准综述的参考文献重合率;引用准确性通过自然语言推理模型分层判断文献与主题、章节及句子的相关性;结构质量采用结构质量评分(SQS)和软标题召回率(SHR)衡量章节组织的合理性;内容质量则结合ROUGE、BLEU和逻辑连贯性评分。用户可通过对比生成结果与专家综述,系统性分析模型在学术合成任务中的性能瓶颈。
背景与挑战
背景概述
随着学术文献的爆炸式增长,人工撰写科学综述文章变得日益困难。2025年,清华大学计算机科学与技术系的魏航苏等人提出了SurGE基准数据集,旨在推动计算机科学领域自动综述生成的研究。该数据集包含205篇专家撰写的高质量综述及其引用文献,以及超过百万篇学术论文构成的检索库,为核心研究问题——如何自动化生成结构严谨、引用准确的科学综述——提供了标准化评估框架。SurGE通过多维度评估体系显著提升了该领域研究的可复现性与系统性。
当前挑战
SurGE针对的自动综述生成任务面临双重挑战:领域问题上,需解决多文档语义融合、跨章节逻辑连贯性、高精度引用匹配等复杂需求;构建过程中,需克服专家标注一致性控制、大规模学术文献清洗与标准化、以及自动化评估指标设计等难题。当前即使最先进的生成模型仍存在关键文献遗漏、结构碎片化和幻觉引用等问题,凸显了该任务在检索与生成协同上的核心瓶颈。
常用场景
经典使用场景
在计算机科学文献爆炸式增长的背景下,SurGE数据集为自动化文献综述生成任务提供了标准化评估框架。该数据集通过整合专家撰写的真实综述文献及其完整参考文献,构建了包含百万级学术论文的大规模检索库,支持检索增强生成模型进行端到端的文献综述生成实验。研究者可基于SurGE的多维度评估体系,系统检验模型在文献覆盖度、引用准确性、结构组织性和内容质量等方面的综合性能。
实际应用
SurGE在学术信息处理领域具有广泛的实际应用价值。科研机构可利用该数据集开发智能文献综述辅助系统,帮助研究者快速把握新兴领域的研究脉络;学术出版机构可借助其评估自动化综述生成工具的质量,提升学术出版效率;教育机构则能将其用于培养研究生的文献综合能力。此外,该数据集支持构建面向特定学科领域的定制化综述生成系统,推动学术知识管理的智能化转型。
衍生相关工作
基于SurGE数据集衍生出多项重要研究工作,包括AutoSurvey采用的迭代式规划与生成框架,通过先构建层级大纲再逐步扩展的策略提升结构质量;StepSurvey提出的多阶段细化方法,显著改善了文献覆盖度和全局相关性;以及各类检索增强生成模型的改进版本,如动态检索机制和参数化知识注入技术。这些工作共同推动了端到端综述生成技术在检索精度、内容连贯性和学术规范性方面的突破。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作