CL-SciSumm 2016

github2016-07-22 更新2024-05-31 收录

下载链接：

https://github.com/nicolasdugue/scisumm-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于计算语言学领域自动论文摘要的训练主题，旨在通过识别引用文本段落并生成结构化摘要来促进计算语言学摘要系统的发展。

This dataset comprises training topics for automatic paper summarization in the field of computational linguistics, aiming to advance the development of summarization systems by identifying cited text passages and generating structured summaries.

创建时间：

2016-03-29

原始信息汇总

数据集概述

数据集名称： The 2nd Computational Linguistics Scientific Document Summarization Shared Task Corpus (CL-SciSumm 2016)

数据集来源： 由National University of Singapore (NUS)的Web IR / NLP Group (WING-NUS)提供，并得到Microsoft Research Asia的支持。

数据集目的： 用于支持计算语言学领域的自动论文摘要系统的开发，特别是在BIRNDL 2016研讨会上进行的共享任务。

数据集内容：

文档结构： 包含一个参考论文（RP）和最多10个引用论文（CPs），每个CP包含指向RP的引用。
任务定义：
- Task 1a： 识别每个引用文本（citance）在RP中最准确反映的文本片段（引用文本片段）。
- Task 1b： 确定每个引用文本片段所属的论文方面，从预定义的方面集合中选择。
- Task 2（可选）： 生成RP的结构化摘要，长度不超过250字。
评估方法：
- Task 1： 通过系统输出与黄金标准之间的文本片段重叠进行评分。
- Task 2： 使用ROUGE系列指标评估系统输出与黄金标准摘要及参考论文摘要之间的差异。

数据集构成：

文档和注释： 包含训练主题的文档、摘要和注释。
注释规则： 描述了注释文件的命名约定和解决注释中困难案例的规则。
源文件： 每个主题的论文参考文件。
PDF和XML文件： 包含原始PDF格式的源文档和转换为XML格式的文档。

联系信息

联系人：
- Kokil Jaidka (Nanyang Technological University)
- Min-Yen Kan (National University of Singapore)
- Muthu Kumar Chandrasekaran (National University of Singapore)

搜集汇总

数据集介绍

构建方式

CL-SciSumm 2016数据集的构建，采取了对ACL Anthology语料库中的文档进行随机抽样的方式，选取了10篇文档及其引用文献作为数据源。在构建过程中，特别关注了引用文献中对原始文档的引用文本（citances）的标注，以及这些引用文本对应的原始文档中的文本跨度（cited text spans）。此外，还按照预定义的文本 facets对引用文本进行了分类，从而为自动摘要系统的训练提供了丰富的标注数据。

特点

该数据集的主要特点是聚焦于计算语言学领域的文献摘要任务，包含了两种类型的摘要：传统的自我摘要（即摘要）和社区摘要（即引用句子集合‘citances’）。数据集还提供了关于引用文本和原始文档中对应文本跨度之间的关系标注，以及按照文本的不同facets进行的分类。这些特点使得该数据集对于研究文献摘要自动化系统具有重要的参考价值。

使用方法

使用该数据集时，研究者可以依据数据集中的文档、摘要以及注释文件进行模型的训练和评估。数据集提供了原始的PDF格式的文档，以及转换为XML格式的文档，以便于进行更精确的文本分析。此外，研究者应当遵循注释命名约定和注释规则，以正确理解和利用注释文件。对于摘要任务，可以通过比较系统输出与标准摘要之间的ROUGE指标来进行评估。

背景与挑战

背景概述

CL-SciSumm 2016数据集是第二个计算语言学科学文档摘要共享任务语料库，由新加坡国立大学Web IR / NLP研究小组创建于2016年2月29日。该数据集旨在促进计算语言学领域自动文摘系统的发展，主要研究人员包括Kokil Jaidka、Min-Yen Kan和Muthu Kumar Chandrasekaran等。数据集的核心研究问题是自动生成科学文档摘要，包括传统的自我摘要（即摘要）和社区摘要（即引用句子集合‘citances’）。CL-SciSumm 2016沿用了2014年TAC会议的生物医学摘要轨道的基本结构和指导原则，并对其进行改编，以标注和创建来自计算语言学研究论文的训练主题语料库。该数据集对相关领域的影响力体现在为自动摘要系统提供了一种新的评估方式，并推动了计算语言学领域摘要技术的进步。

当前挑战

该数据集在构建过程中遇到的挑战主要包括：1)如何准确识别引用文本和被引用文本之间的对应关系；2)如何从多个引用中提取出最具代表性的摘要信息；3)构建过程中还需处理OCR识别错误和手动编辑文本的问题。在所解决的领域问题上，即计算语言学文档的自动摘要，该数据集面临的挑战包括：摘要生成的准确性、不同类型摘要（自我摘要与社区摘要）的生成策略，以及摘要的评价标准。

常用场景

经典使用场景

在自动文献摘要领域，CL-SciSumm 2016数据集的典型应用场景在于训练和评估计算语言学领域的自动摘要系统。该数据集包含了一系列参考文献和引用文献，通过识别引用文本与被引用文本之间的关联，以及确定引用文本所属的论文层面，系统性地构建起自动摘要的框架。

实际应用

在实际应用中，CL-SciSumm 2016数据集的应用范围广泛，如在学术搜索引擎中自动生成文献摘要，帮助研究人员快速了解文献的核心内容；或在学术出版领域，辅助编辑人员对提交的论文进行初步的摘要提炼，提高出版效率。

衍生相关工作

基于CL-SciSumm 2016数据集，研究者们衍生出了一系列相关工作，如进一步探索不同类型的摘要生成方法，研究引用文本与论文内容之间的深层次关联，以及开发更为智能的文献推荐系统等，这些研究推动了计算语言学和自然语言处理领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集