CL-SciSumm

github2024-05-20 更新2024-05-31 收录

下载链接：

https://github.com/WING-NUS/scisumm-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

CL-SciSumm数据集是一个用于自动研究论文摘要任务的共享任务数据集，包含三个子任务，涉及计算语言学和自然语言处理的研究论文及其引用论文。数据集包括训练集和测试集，训练集包含1040个主题的摘要和40个主题的引用到参考范围ID任务，测试集包含20个主题。每个主题包括作者的摘要（摘要）、社区摘要（引用句子集合）和由训练有素的注释者编写的人工摘要。此外，每个引用也被映射到其参考文本，并标记了它所代表的信息方面。

The CL-SciSumm dataset is a shared task dataset designed for the automatic summarization of research papers, encompassing three subtasks related to computational linguistics and natural language processing research papers along with their cited references. The dataset is divided into training and test sets, with the training set comprising summaries for 1,040 topics and a task of mapping 40 topics' citations to reference span IDs. The test set includes 20 topics. Each topic features an author's abstract (summary), a community summary (a collection of cited sentences), and a human-written summary by trained annotators. Furthermore, each citation is mapped to its reference text and annotated with the information aspect it represents.

创建时间：

2014-08-23

原始信息汇总

数据集概述

数据集名称

CL-SciSumm

数据集内容

训练数据: 包含1040个主题的摘要和40个主题的引用识别任务的训练集。此外，还包括一个由1000个文档组成的自动标注数据集（ScisummNet），用于辅助深度学习模型的训练。
测试数据: 包含20个主题的盲测试集，用于评估系统性能。

数据集结构

训练数据: 位于/data/Training-Set-2019/Task1/From-Training-Set-2018和/data/Training-Set-2019/Task2/From-Training-Set-2018。
测试数据: 位于/data/Test-Set-2018。

数据集用途

用于开发和评估计算语言学领域的自动研究论文摘要系统。

数据集任务

Task 1a: 识别每个引用中的文本片段，对应于引用论文中的引用文本。
Task 1b: 为每个引用文本片段分配预定义的文本方面。
Task 2: 从引用文本片段生成结构化摘要，长度不超过250字。

数据集版本

最新版本: CL-SciSumm 2020
历史版本: CL-SciSumm 2019, 2018, 2017, 2016, 2014

数据集评估

Task 1: 通过系统输出与黄金标准之间的文本片段重叠来评分。
Task 2: 使用ROUGE系列指标评估系统输出与黄金标准摘要及参考论文摘要之间的相似度。

数据集贡献者

由新加坡国立大学（NUS）的Web IR/NLP小组提供，并得到微软亚洲研究院的慷慨支持。

数据集引用

若使用此数据集并发表相关研究，请引用CL-SciSumm 2019任务概览论文：

@inproceedings{, title={Overview and Results: CL-SciSumm Shared Task 2019}, author={Chandrasekaran, Muthu Kumar and Yasunaga, Michihiro and Radev, Dragomir and Freitag, Dayne and Kan, Min-Yen}, booktitle={In Proceedings of Joint Workshop on Bibliometric-enhanced Information Retrieval and NLP for Digital Libraries (BIRNDL 2019)}, year={2019} }

搜集汇总

数据集介绍

构建方式

CL-SciSumm数据集的构建基于ACL计算语言学和自然语言处理领域的研究论文及其引用文献。数据集通过随机抽样ACL Anthology中的文档，并选择其引用文献，形成了一个包含1040个训练主题和40个测试主题的语料库。每个主题包含一篇参考论文（RP）及其引用论文（CPs），以及三种类型的摘要：作者摘要（抽象）、社区摘要（引用句集合）和人工编写的摘要。此外，每个引用句都被映射到参考文献中的相应文本，并标记了其所代表的信息面。数据集还包括一个自动注释的噪声数据集，用于训练深度学习模型。

特点

CL-SciSumm数据集的显著特点在于其多层次的摘要结构和详细的引用句映射。数据集不仅提供了传统的作者摘要，还包含了社区摘要和人工编写的摘要，这为研究者提供了多角度的研究材料。此外，每个引用句都被精确地映射到参考文献中的具体文本片段，并附有信息面标签，这为研究引用句与原文本之间的关系提供了丰富的数据支持。数据集还包含了自动注释的训练数据，适用于训练深度学习模型，增强了数据集的实用性。

使用方法

CL-SciSumm数据集主要用于自动研究论文摘要系统的开发和评估。研究者可以使用数据集中的训练数据进行模型训练，包括手动注释的40篇文章和自动注释的1000篇文章。对于测试集，研究者需要提交系统生成的摘要，由任务组织者进行评估。数据集支持三个子任务：引用句的引用文本识别（Task 1a）、引用文本的信息面分类（Task 1b）和从引用文本生成结构化摘要（Task 2）。评估方法包括文本片段的重叠度量和ROUGE指标的比较。

背景与挑战

背景概述

CL-SciSumm数据集由新加坡国立大学的Web IR/NLP研究组开发，旨在支持计算语言学领域的自动研究论文摘要生成任务。该数据集的核心研究问题围绕如何从引用文献中提取关键信息，并生成结构化的摘要。数据集包含了1040个训练主题和40个测试主题，涵盖了ACL计算语言学和自然语言处理领域的研究论文及其引用文献。每个主题包含三种类型的摘要：作者摘要、社区摘要（引用句集合）以及人工编写的摘要。CL-SciSumm数据集的构建始于2014年，经过多次迭代更新，最新版本为2020年，主要研究人员包括Muthu Kumar Chandrasekaran、Michihiro Yasunaga等。该数据集对推动自动摘要生成技术在学术文献处理中的应用具有重要意义。

当前挑战

CL-SciSumm数据集在构建和应用过程中面临多项挑战。首先，从引用文献中准确识别并提取与参考文献相关的文本片段（citances）是一个复杂的过程，涉及多层次的语义理解和文本匹配。其次，为每个提取的文本片段分配正确的信息面（discourse facet）标签，以确保生成的摘要具有结构化和语义一致性，这也是一个具有挑战性的任务。此外，数据集的构建过程中，研究人员需要处理大量的PDF文件，并通过OCR技术将其转换为可处理的文本格式，这一过程容易引入错误，增加了数据预处理的难度。最后，生成高质量的结构化摘要，尤其是控制在250字以内的摘要，需要在信息量和简洁性之间找到平衡，这对模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

CL-SciSumm数据集在自动研究论文摘要生成领域具有经典应用场景。该数据集主要用于训练和测试计算语言学领域的摘要生成系统，特别是针对学术论文的摘要生成任务。通过提供参考论文及其引用论文的摘要，以及人工编写的摘要，CL-SciSumm数据集支持研究者开发能够自动生成高质量摘要的模型。这些模型不仅能够生成传统的作者摘要（即论文的摘要部分），还能生成社区摘要（即引用论文中的引用句集合），从而全面捕捉论文的核心内容。

衍生相关工作

CL-SciSumm数据集衍生了一系列相关研究工作，推动了自动摘要技术的进步。基于该数据集，研究者开发了多种摘要生成模型，包括基于规则的方法、统计模型以及深度学习模型。这些模型在引用句的参考文本识别、信息面分类以及摘要生成等任务上取得了显著进展。此外，CL-SciSumm数据集还促进了跨领域的研究合作，如与信息检索、自然语言处理等领域的结合，进一步拓展了其应用范围和影响力。

数据集最近研究