SurveySum

Name: SurveySum
Creator: 数字经济研究所，巴西利亚-DF，巴西
Published: 2024-08-29 19:13:23
License: 暂无描述

arXiv2024-08-29 更新2024-08-31 收录

下载链接：

https://huggingface.co/datasets/unicamp-dl/SurveySum

下载链接

链接失效反馈

官方服务：

资源简介：

SurveySum数据集由数字经济研究所创建，旨在解决特定领域内多文档摘要工具的缺乏问题。该数据集包含79个部分，每个部分关联平均7.38篇科学文章，通过人工和自动方法从现有调查中提取和验证。数据集的创建过程涉及从科学文献中选择调查，提取文本和引用，并通过API和爬虫获取全文。SurveySum数据集主要应用于科学调查文本的自动生成，旨在提高科学文献处理的效率和准确性。

The SurveySum dataset was developed by the Institute of Digital Economy, aiming to address the shortage of multi-document summarization tools in specific domains. This dataset comprises 79 sections, with an average of 7.38 scientific articles associated with each section. It is extracted and validated from existing surveys through both manual and automated methods. The dataset creation process involves selecting surveys from scientific literature, extracting text and citations, and acquiring full texts via APIs and web crawlers. The SurveySum dataset is primarily applied to the automatic generation of scientific survey texts, with the goal of improving the efficiency and accuracy of scientific literature processing.

提供机构：

数字经济研究所，巴西利亚-DF，巴西

创建时间：

2024-08-29

搜集汇总

数据集介绍

构建方式

SurveySum数据集的构建旨在解决科学文献领域内缺乏特定领域摘要工具的问题。数据集的创建方法包括从科学文献中选取现有综述，并从中提取出各部分的文本及其相应的引用论文。首先，研究者根据其在人工智能、自然语言处理和机器学习领域的专业知识，选取了涵盖这些领域内广泛主题的综述。这些综述需满足一定的标准，如为综合性的、分章节、可免费在线获取，且以英语撰写。随后，研究者使用s2orc-doc2json工具解析这些综述，以提取章节文本和引用。最后，通过使用在线API和爬虫，研究者检索到了引用论文的全文，并对每个引用进行了手动验证。最终，从6份综述中提取了79个章节的数据，每个章节平均关联7.38篇文章。

特点

SurveySum数据集的主要特点在于其专注于科学文献的摘要，且旨在生成综述的特定部分。数据集包含的文本摘要是根据原始文献生成的，这些文献覆盖了人工智能、自然语言处理和机器学习领域的广泛主题。SurveySum的数据集结构允许研究人员对其进行多种方式的评估和比较，以推动多文档摘要领域的研究进展。此外，该数据集的构建考虑了科学文献的复杂性和技术准确性，使其成为生成科学综述的理想工具。

使用方法

使用SurveySum数据集的方法主要分为三个阶段：定义综述的标题、章节标题和相关论文；将相关论文的文本分割成块，并使用搜索算法根据综述章节的标题检索相关的文本块；使用大型语言模型（LLM）生成章节文本。在第一阶段，研究者可以选择手动或自动方式来选择论文。第二阶段中，文本块可以根据不同的策略进行创建，并通过不同的数据库进行存储和检索。第三阶段中，研究者需要选择合适的LLM模型来生成综述章节的文本。SurveySum数据集的评估可以使用多种指标，如参考文献F1分数、G-eval和Check-Eval，以确保生成的文本质量和模型的有效性。

背景与挑战

背景概述

文档摘要是一项旨在将大量文本缩短为简洁、信息丰富的摘要的任务。本文介绍了一个新的数据集，旨在将多篇科学文章摘要成一个综述部分。我们的贡献包括：(1) SurveySum，一个填补领域特定摘要工具空白的新数据集；(2) 两条特定的管道，用于将科学文章摘要成综述部分；(3) 使用多个指标评估这些管道的性能，以比较它们的性能。我们的结果突出了高质量检索阶段的重要性以及不同配置对生成摘要质量的影响。

当前挑战

SurveySum数据集面临的主要挑战包括：1) 所解决的领域问题是将多个科学文章摘要成一个综述部分；2) 构建过程中所遇到的挑战，包括选择现有综述、提取文本和引用、检索相关论文、以及使用大型语言模型生成摘要。

常用场景

经典使用场景

SurveySum数据集广泛应用于科研文献的自动总结领域，尤其适用于将多篇科学文章汇总成综述章节。研究者可以借助该数据集训练模型，以自动生成科学综述中的特定章节文本，例如“相关工作”部分，从而节省大量时间和精力。

衍生相关工作

基于SurveySum数据集，研究者们已开展了一系列相关工作，例如使用该数据集训练和评估多文档摘要模型，探索不同摘要方法和模型配置对生成摘要质量的影响。此外，SurveySum数据集还为其他领域，如新闻摘要、法律案例摘要等，提供了宝贵的参考和借鉴。

数据集最近研究