SciReviewGen

Name: SciReviewGen
Creator: 东京大学
Published: 2023-05-24 22:26:30
License: 暂无描述

arXiv2023-05-24 更新2024-06-21 收录

下载链接：

https://github.com/tetsu9923/SciReviewGen

下载链接

链接失效反馈

官方服务：

资源简介：

SciReviewGen是由东京大学创建的大型数据集，专注于计算机科学领域的文献综述生成。该数据集包含超过10,000篇文献综述和690,000篇被引用的论文，旨在通过这些数据支持自动文献综述的生成研究。数据集的创建过程基于Semantic Scholar Open Research Corpus，采用领域无关的方法，使得数据集可以扩展到其他科学领域。SciReviewGen的应用领域主要集中在解决自动文献综述生成的问题，通过提供大量高质量的文献综述数据，推动自然语言处理技术在该领域的应用和发展。

A large-scale dataset developed by The University of Tokyo, SciReviewGen focuses on academic literature review generation within the computer science domain. It encompasses over 10,000 completed literature reviews and 690,000 cited papers, with the goal of supporting research on automatic literature review generation using this corpus. Built upon the Semantic Scholar Open Research Corpus, the dataset adopts a domain-agnostic methodology, allowing it to be extended to other scientific fields. The core application scope of SciReviewGen lies in addressing the challenges of automatic literature review generation, and it facilitates the advancement and practical deployment of natural language processing (NLP) technologies in this domain by offering a large quantity of high-quality literature review data.

提供机构：

东京大学

创建时间：

2023-05-24

搜集汇总

数据集介绍

构建方式

在科学文献处理领域，构建高质量数据集是推动自动文献综述生成研究的关键。SciReviewGen数据集的构建基于语义学者开放研究语料库（S2ORC），通过多阶段筛选流程确保数据质量。首先，从计算机科学领域提取标题包含“survey”、“overview”等关键词的论文作为候选文献综述，共计13,984篇。随后，利用基于SciBERT的分类器进行精细过滤，该分类器通过人工标注的583篇论文训练，达到精确率88%与召回率97%，最终筛选出10,269篇合格文献综述，涵盖210,049个章节和698,049篇引用论文。数据以章节为单位进行分割，排除引用论文摘要不足两个的章节，形成包含93,572个章节的最终版本，为模型训练提供结构化输入。

使用方法

SciReviewGen数据集的使用方法围绕查询聚焦的多文档摘要任务展开，旨在模拟专家撰写文献综述的过程。输入数据包括引用论文的摘要、文献综述标题及章节标题，其中标题作为查询指定生成主题。模型需基于这些输入生成连贯的章节内容，评估时采用自动指标如ROUGE分数，并结合人工评估关注相关性、连贯性、信息丰富性和事实准确性。数据集的章节独立生成设定允许研究聚焦于摘要阶段，而提供的引用信息（如引用句子和网络）可作为补充输入，以提升生成文本的细节准确度。该数据集已用于评估Transformer-based模型，如Big Bird和Fusion-in-Decoder，并推动了Query-weighted FiD等新方法的开发，为自动文献综述生成的后续研究提供基准。

背景与挑战

背景概述

随着科学文献数量的指数级增长，自动文献综述生成已成为自然语言处理领域的一项前沿挑战。SciReviewGen数据集由东京大学与RIKEN先进智能项目中心的研究团队于2023年构建，旨在填补大规模文献综述数据资源的空白。该数据集基于Semantic Scholar开放研究语料库，涵盖了计算机科学领域超过10,000篇文献综述及69万篇被引论文，为核心研究问题——基于查询的多文档摘要生成提供了结构化基准。其创新性在于将文献综述生成任务形式化为章节级抽象摘要任务，通过融合综述标题与章节标题作为查询指令，推动了生成模型在学术文本处理中的深度应用。

当前挑战

SciReviewGen所针对的自动文献综述生成任务面临多重挑战：在领域问题层面，模型需处理极长输入序列（平均超12,000词符）与高密度专业术语，同时克服学术文本中常见的逻辑复杂性；生成结果需在保持事实一致性的前提下，实现跨文献的知识融合与高层级抽象概括。在数据集构建过程中，挑战主要体现在大规模高质量语料筛选的困难：需通过基于SciBERT的自动分类器从数万候选论文中精准识别符合标准的文献综述，并解决被引论文全文获取率不足导致的输入信息缺失问题。此外，章节划分带来的任务分解虽降低了生成难度，但亦引入了章节间连贯性建模的新挑战。

常用场景

经典使用场景

在自然语言处理领域，SciReviewGen数据集为自动文献综述生成任务提供了关键支持。该数据集包含超过10,000篇文献综述及69万篇被引论文，通过将文献综述生成建模为查询聚焦的多文档摘要任务，输入为被引论文摘要，查询为综述及章节标题，输出为结构化章节内容。这一设计模拟了专家撰写综述时的核心过程，即基于特定主题整合多篇论文信息，从而为模型训练与评估奠定了标准化基础。

解决学术问题

SciReviewGen解决了自动文献综述生成领域长期缺乏大规模标注数据的瓶颈问题。该数据集支持研究者探索长文本输入、技术术语处理及复杂逻辑建模等挑战，推动了查询聚焦摘要、多文档融合及抽象生成等前沿方向的发展。通过提供真实场景下的综述与论文关联数据，它促进了模型在事实一致性、信息丰富度及领域适应性方面的改进，为克服生成过程中的幻觉与信息缺失等难题提供了实证基础。

实际应用

在实际应用中，SciReviewGen可作为智能学术写作辅助工具的核心数据资源。例如，研究人员可利用基于该数据集训练的模型快速生成特定领域的文献综述初稿，显著缩短文献调研时间。此外，出版机构或学术平台可集成此类技术，自动化生成领域动态报告或研究趋势分析，提升知识整合效率。尽管当前生成结果仍需人工修订，但已展现出在辅助科研写作、教育培训及知识管理中的潜在价值。

数据集最近研究