CLTS+

Name: CLTS+
Creator: 中国科学院信息工程研究所
Published: 2022-06-09 11:53:52
License: 暂无描述

arXiv2022-06-09 更新2024-06-21 收录

下载链接：

https://github.com/lxj5957/CLTS-plus-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

CLTS+是中国科学院信息工程研究所创建的一个中文长文本摘要数据集，包含超过18万对文章-摘要数据。数据集通过后翻译技术对原始CLTS数据集的摘要进行改写，确保摘要内容的创新性和准确性。创建过程中，特别注意纠正事实不一致的错误，以提高数据质量。CLTS+旨在解决现有中文摘要数据集中缺乏创新性的问题，推动模型在自动文本摘要任务中的创造力提升。

CLTS+ is a Chinese long-text summarization dataset developed by the Institute of Information Engineering, Chinese Academy of Sciences, containing over 180,000 article-summary pairs. To ensure the innovativeness and accuracy of the summaries, this dataset revises the summaries of the original CLTS dataset via back-translation techniques. During its development, special attention was paid to correcting factual inconsistencies to improve the overall quality of the dataset. CLTS+ aims to address the lack of innovativeness in existing Chinese summarization datasets, and promote the improvement of models' creativity in automatic text summarization tasks.

提供机构：

中国科学院信息工程研究所

创建时间：

2022-06-09

搜集汇总

数据集介绍

构建方式

CLTS+数据集的构建过程涉及对CLTS数据集中的参考摘要进行改写，以减少完全从源文章中提取的样本数量，并使数据集具有抽象性，从而提高模型的创造力。首先，使用回译技术将CLTS数据集中的参考摘要从中文翻译成英文，然后再翻译回中文，以实现改写的目的。其次，对回译后的数据进行错误校正，包括引用错误和命名实体错误的修正。最后，引入基于共现词的内在指标，以补充现有数据集质量指标，并确保数据集的质量。

使用方法

CLTS+数据集的使用方法主要包括以下几个方面：首先，可以用于训练和评估自动文本摘要系统，以验证数据集的有效性和模型的创造力。其次，可以使用内置指标对数据集的质量进行评估，以确保数据集的可靠性。此外，还可以用于与其他数据集进行比较，以了解CLTS+的优缺点。最后，可以将CLTS+与其他数据集结合使用，以构建更强大的自动文本摘要系统。

背景与挑战

背景概述

在自动文本摘要领域，生成具有创造性的摘要一直是研究的热点。现有的摘要模型往往缺乏创新，生成的摘要多是从源文章中提取的，这主要是因为缺乏具有抽象性的数据集。特别是对于中文文本，这一问题尤为突出。为了解决这一问题，研究人员基于现有的CLTS数据集，通过重新表达参考摘要，并纠正事实不一致性，提出了首个具有高抽象性的中文长文本摘要数据集CLTS+。该数据集包含超过18万个文章摘要对，并在线提供。同时，研究人员引入了一种基于共现词的内置指标，用于评估所构建的数据集的质量。

当前挑战

尽管CLTS+数据集在抽象性和质量上取得了显著进展，但在实际应用中仍面临一些挑战。首先，数据集的构建过程中需要解决如何保持摘要的抽象性和准确性的问题。其次，由于摘要模型的训练需要大量的数据，如何有效地利用CLTS+数据集来提升模型的创造性能力，以及如何将CLTS+数据集应用于其他语言和领域的文本摘要任务，仍需要进一步研究和探索。

常用场景

经典使用场景

CLTS+数据集是专为中文长文本摘要任务而设计，其最经典的使用场景是作为训练和评估自动文本摘要模型的数据来源。该数据集提供了超过18万个文章-摘要对，其中摘要具有高度的抽象性，有助于提升模型的创造力和生成新颖n-grams的能力。通过使用CLTS+数据集进行模型训练，研究者可以构建出更接近人类写作风格的摘要生成系统，这对于新闻文章、学术论文等长文本摘要任务具有重要的应用价值。

解决学术问题

CLTS+数据集解决了中文长文本摘要领域缺乏抽象性数据集的问题。现有的中文长文本摘要数据集如CLTS大多为提取式摘要，模型训练后生成的摘要往往直接从原文中抽取句子，缺乏创造性和新颖性。CLTS+通过释义CLTS数据集中的参考摘要，并纠正事实错误，构建了一个具有高度抽象性的中文长文本摘要数据集，为自动文本摘要模型的创造性训练提供了重要的数据基础。此外，CLTS+还引入了一个基于共现词的内在指标，用于评估数据集的质量，为数据集评估提供了新的视角。

实际应用

CLTS+数据集在实际应用中，可以用于构建自动文本摘要系统，为新闻文章、学术论文等长文本内容提供摘要服务，提高信息获取效率。此外，CLTS+数据集还可以用于自然语言处理领域的研究，如机器翻译、文本生成等，为相关模型的训练和评估提供数据支持。通过使用CLTS+数据集，研究者可以构建出更具有创造性和新颖性的自动文本摘要模型，进一步提升文本摘要的质量和效率。

数据集最近研究