CASSum

github2023-08-17 更新2024-05-31 收录

下载链接：

https://github.com/fpg2012/CASSum

下载链接

链接失效反馈

官方服务：

资源简介：

中文长文本数据集，原文和摘要主要是社会科学方面的学术论文。数据来源于中国社会科学院下属机构的网站，经过去重、去除外文文段、去除空行和多余空白符等处理。

The Chinese long-text dataset primarily consists of original texts and abstracts from academic papers in the field of social sciences. The data is sourced from the websites of institutions under the Chinese Academy of Social Sciences, and has undergone processes such as deduplication, removal of foreign language segments, elimination of blank lines, and extra whitespace characters.

创建时间：

2023-08-17

原始信息汇总

CASSum 数据集概述

数据集描述

CASSum 是一个中文长文本数据集，主要包含社会科学领域的学术论文原文及其摘要。该数据集的数据来源于中国社会科学院下属的五个部门：法学所、历史研究所、哲学所、文学网、工业经济研究所。

数据处理方法

数据处理步骤包括：

去重
去除外文文段
去除空行和多余空白符
去除“内容摘要”等字样
去除摘要短于20字的数据
去除原文短于200字的数据
去除摘要长度和文本长度的比值小于0.15的数据
去除原文不完整的数据
人工检查摘要长度和文本长度比值不太正常的数据

数据集统计量

样本量：3061条
原文平均长度：10746.70字符
摘要平均长度：205.27字符

数据样例格式

数据集文件 dataset.jl 采用 JSON line 格式，每条数据包含以下字段：

url: 原文链接
text: 论文原文
summary: 摘要

样例： json { "url": "http://iolaw.cssn.cn/zxzp/202212/t20221208_5569568.shtml", "text": "论文原文内容...", "summary": "摘要内容..." }

搜集汇总

数据集介绍

构建方式

CASSum数据集的构建主要基于中国社会科学院（CASS）门户网站中公开的学术论文及其摘要。数据来源于法学所、历史研究所、哲学所、文学网、工业经济研究所五个部门的“学术成果”或“科研成果”栏目。在数据爬取后，经过一系列严格的清洗和筛选步骤，包括去重、去除外文文段、去除空行和多余空白符、去除“内容摘要”等字样，以及根据摘要和原文的长度比例进行筛选，最终保留了摘要长度与文本长度比值大于0.15的数据。此外，还通过人工检查进一步确保了数据的质量。

特点

CASSum数据集的特点在于其专注于社会科学领域的长文本摘要任务。与常见的短文本摘要数据集（如LCSTS）相比，CASSum的文本长度显著更长，原文平均长度达到10746.70字符，摘要平均长度为205.27字符。这种长文本特性使得CASSum特别适合用于训练和评估长文本摘要模型。此外，数据集中的文本内容主要来自社会科学领域的学术论文，具有较高的专业性和学术价值，能够为相关领域的研究提供丰富的语料支持。

使用方法

CASSum数据集的使用方法较为直观，数据以json line格式存储，每条数据包含原文链接、论文原文和摘要三个字段。用户可以通过读取`dataset.jl`文件逐行加载数据，并根据需要进行预处理。该数据集适用于自然语言处理任务中的长文本摘要生成、文本分类等研究。由于其文本长度较长，建议在使用时结合适当的文本截断或分块策略，以确保模型能够有效处理长文本输入。此外，用户还可以根据研究需求对数据进行进一步的分割，如划分为训练集、验证集和测试集，以支持模型的训练和评估。

背景与挑战

背景概述

CASSum数据集是一个专注于中文长文本摘要的学术数据集，主要涵盖社会科学领域的学术论文及其摘要。该数据集由中国社会科学院（CASS）下属的多个研究机构的公开学术成果爬取而来，包括法学所、历史研究所、哲学所、文学网和工业经济研究所等。CASSum的创建旨在为长文本摘要任务提供高质量的中文语料，填补了现有数据集（如LCSTS）在长文本摘要任务中的不足。该数据集的构建时间为近年，主要研究人员未明确提及，但其核心研究问题围绕如何从长文本中提取关键信息并生成简洁的摘要。CASSum的出现为中文自然语言处理领域，尤其是长文本摘要任务，提供了重要的数据支持，推动了相关模型的研究与应用。

当前挑战

CASSum数据集在构建和应用过程中面临多重挑战。首先，从领域问题的角度来看，长文本摘要任务本身具有较高的复杂性，尤其是社会科学领域的学术论文通常包含复杂的逻辑结构和专业术语，如何从中提取关键信息并生成简洁、准确的摘要是一个巨大的挑战。其次，数据集的构建过程中也面临诸多困难，包括数据去重、去除外文文段、处理不完整文本等。此外，由于样本量相对较小（仅3061条），且文本长度显著长于其他数据集（如LCSTS），如何在有限的样本上训练出泛化能力强的模型也是一个重要挑战。最后，数据集的多样性和领域覆盖范围有限，主要集中在社会科学领域，可能限制了其在其他领域的应用潜力。

常用场景

经典使用场景

CASSum数据集主要用于社会科学领域的学术研究，尤其是中文长文本的自动摘要生成任务。由于其文本长度显著长于其他常见的中文摘要数据集（如LCSTS），CASSum为研究者提供了更丰富的长文本语料，特别适合用于训练和评估长文本摘要生成模型。该数据集的应用场景涵盖了法学、历史学、哲学、文学和工业经济等多个社会科学领域，能够帮助研究者深入理解长文本摘要生成的技术挑战。

衍生相关工作

CASSum数据集的发布推动了中文长文本摘要生成领域的研究进展。基于该数据集，许多研究者开发了新的深度学习模型和算法，如基于Transformer的长文本摘要模型。此外，CASSum还被用于评估和改进现有的摘要生成技术，推动了中文自然语言处理技术的发展。相关研究不仅提升了长文本摘要生成的准确性，还为跨领域的中文文本处理提供了新的思路和方法。

数据集最近研究