SurveyBench

github2025-10-08 更新2025-10-09 收录

下载链接：

https://github.com/weAIDB/SurveyBench

下载链接

链接失效反馈

官方服务：

资源简介：

SurveyBench是一个细粒度的、基于测验驱动的评估框架，包含从最近11,343篇arXiv论文和相应4,947篇高质量调查中获取的典型调查主题，采用多方面的度量层次评估大纲质量、内容质量和非文本丰富性，以及基于内容和测验的双模式评估协议，明确与读者的信息需求对齐

SurveyBench is a fine-grained, quiz-driven evaluation framework that encompasses representative survey topics sourced from 11,343 recent arXiv papers and their corresponding 4,947 high-quality surveys. It employs a multi-faceted hierarchical metric system to evaluate outline quality, content quality and non-text richness, as well as a dual-mode evaluation protocol based on content and quizzes, which is explicitly aligned with readers' information needs.

创建时间：

2025-09-28

原始信息汇总

SurveyBench 数据集概述

数据集简介

SurveyBench是一个细粒度的、基于测验驱动的评估框架，专门用于评估大语言模型（LLM）及其智能体在撰写学术综述方面的能力。

数据来源

综述主题来源：从近期的11,343篇arXiv论文和对应的4,947篇高质量综述中筛选
主题筛选过程：
- 从权威计算机科学来源（如ICLR、NeurIPS、CVPR、SIGMOD、SOSP等顶级会议）收集127个候选主题
- 通过去重和术语统一（如合并"脑机接口"和"神经编码"）进行精炼
- 基于发表量、概念多样性、学术影响力（引用次数和顶级会议存在）和语义重叠度进行筛选
- 最终确定20个经过充分验证的主题用于基准测试

评估框架特点

多维度评估指标

大纲质量：覆盖广度、逻辑连贯性、结构合理性
内容质量：综合粒度、见解清晰度、深度、聚焦度、流畅度
非文本丰富度：图表数量等非文本元素

双模式评估协议

基于内容的评估：直接评估综述内容质量
基于测验的评估：通过问答测试与读者信息需求对齐

使用方法

数据准备要求

生成的综述文件（.md格式）需放置在：src/data/{MethodName}/
人工撰写的参考综述需放置在：src/data/HumanSurvey/
文件名必须保持一致，格式要求统一的Markdown标题结构

评估命令

基于内容评估：评估内容质量、大纲质量和丰富度
基于测验评估：通过问答方式评估综述的信息覆盖度

实验结果

评估了四种典型方法：AutoSurvey（GPT-4o）、SurveyForge（GPT-4o）、LLM×MapReduce-V2（Gemini-flash-thinking）和OpenAI-DeepResearch

主要发现

LLM×MR-V2在大纲质量方面表现最佳
OpenAI-DR在内容质量方面排名最高
所有方法在新主题上的表现均不如成熟主题
LLM生成的综述在细节深度、关联推理和综合抽象能力方面存在不足

引用信息

@misc{sun2025surveybenchllmagentswriteacademic, title={SurveyBench: How Well Can LLM(-Agents) Write Academic Surveys?}, author={Zhaojun Sun and Xuzhou Zhu and Xuanhe Zhou and Xin Tong and Shuo Wang and Jie Fu and Guoliang Li and Zhiyuan Liu and Fan Wu}, journal = {arXiv Preprint}, url = {https://arxiv.org/abs/2510.03120}, year = {2025} }

搜集汇总

数据集介绍

构建方式

在学术文献综述领域，SurveyBench采用系统化的构建流程，从11,343篇arXiv论文和4,947篇高质量综述中筛选典型主题。首先从顶级计算机科学会议中收集候选主题，通过语义嵌入模型进行聚类分析，结合t-SNE降维可视化技术筛选代表性主题。最终基于学术影响力与覆盖深度双重标准，从语义学者和arXiv-sanity获取引用数据，精炼出20个经过严格验证的主题构成基准数据集。

使用方法

使用者需将生成的综述文件按规范Markdown格式存放于指定目录，确保文件名与人类撰写参考文件严格对应。评估过程支持内容质量、大纲质量与丰富度三个维度的独立或整体评测，通过命令行参数灵活配置评估模式与参考标准。基于测验的评估则通过语义嵌入模型计算相似度，结合LLM裁判对生成内容与人类撰写的答案进行系统性对比，输出详细的分类统计与胜败原因分析。

背景与挑战

背景概述

SurveyBench数据集由清华大学等研究机构于2025年推出，聚焦于评估大语言模型撰写学术综述的能力。该数据集基于11,343篇arXiv论文和4,947篇高质量综述构建，通过多层级评估体系考察模型在内容覆盖度、逻辑结构和非文本元素等方面的表现。其创新性在于将读者信息需求量化为可测指标，为学术文本生成领域提供了首个系统化评测基准，推动了智能文献综述方法的发展。

当前挑战

该数据集致力于解决学术综述自动生成的评估难题，核心挑战包括模型对新兴领域文献的覆盖不足、跨概念关联推理能力薄弱、技术细节深度解析缺失等问题。在构建过程中面临三重挑战：从海量论文中筛选具有代表性的主题需平衡时效性与影响力，设计细粒度评测指标需兼顾内容深度与结构完整性，建立双模式评估协议需确保读者需求与自动评测量纲的有效对齐。

常用场景

经典使用场景

在学术文献综述自动化生成领域，SurveyBench作为精细化的评估框架，其经典应用场景聚焦于对大语言模型生成综述质量的系统性评测。该框架通过从11,343篇arXiv论文和4,947篇高质量综述中提取典型主题，构建了多维度的评估体系，涵盖大纲质量、内容质量与非文本丰富度等核心维度。研究人员可借助其双模式评估协议，既进行基于内容的分析，又实施基于测验的可回答性测试，从而全面衡量生成综述与读者信息需求的契合程度。

解决学术问题

该数据集有效解决了大语言模型在学术综述生成领域存在的三大核心问题：首先是生成内容深度不足的问题，通过细粒度测验揭示了模型在技术细节阐述方面的局限；其次是关联推理能力欠缺的难题，量化评估了模型在跨概念连接方面的表现；最后是综合抽象能力薄弱的困境，系统分析了模型在关键思想归纳整合上的不足。这些评估维度为提升模型在学术文本生成领域的性能提供了明确改进方向，推动了智能文献处理技术的发展。

实际应用

在实际应用层面，SurveyBench为学术出版、科研辅助与教育领域提供了重要工具。出版机构可借助该框架评估自动生成综述的出版价值，科研团队能据此优化文献调研流程，教育机构则可通过对比生成综述与专家撰写的质量差异，设计更有效的学术写作培训方案。特别是其基于测验的评估模式，能够直观反映生成内容在满足读者具体信息需求方面的实际效果，为各类应用场景提供了可靠的决策依据。

数据集最近研究