CPTS

github2024-05-03 更新2024-05-31 收录

下载链接：

https://github.com/fjiangAI/CPTS

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库构建了中文段落级主题表示、语料库和基准，旨在填补缺乏大规模、高质量中文段落级主题结构语料库的空白。我们提出了一个三层级的段落级主题结构表示来指导语料库构建，并采用两阶段人机协同标注方法构建了最大的中文段落级主题结构语料库(CPTS)，实现了高质量。

This repository constructs Chinese paragraph-level topic representations, corpora, and benchmarks, aiming to fill the gap of lacking large-scale, high-quality Chinese paragraph-level topic structure corpora. We propose a three-level paragraph-level topic structure representation to guide the corpus construction and adopt a two-stage human-machine collaborative annotation method to build the largest Chinese paragraph-level topic structure corpus (CPTS), achieving high quality.

创建时间：

2023-05-24

原始信息汇总

数据集概述

数据集名称

名称: CPTS (Chinese Paragraph-level Topic Structure)
发布日期: 2024年03月26日

数据集目的

目的: 构建一个大规模、高质量的中文段落级主题结构语料库，以支持主题分割和提纲生成等研究任务。

数据集结构

主题结构表示: 采用三层级结构，包括超主题、子主题和基本级主题。
表示细节: 文档标题作为超主题，子标题作为子主题，段落作为基本级主题。子标题使用句子或从句而非关键词，以丰富段落级主题的信息表达。

数据集构建

数据源: 新华通讯社发布的新闻文档，选自中文Gigaword第四版，主要为故事新闻。
标注方法: 采用两阶段人机协同标注策略，包括自动提取和人工验证。
- 自动提取: 使用启发式方法从原始文档中自动提取主题结构。
- 人工验证: 由一组自然语言处理领域的学生进行，主要验证自动提取的主题结构的正确性。

数据集统计

文档平均字数: 1727.96
文档平均段落数: 14.76
子标题平均字数: 12.33
子标题平均包含段落数: 3.70
文档平均子标题数: 4.00

数据集分析

子标题长度分布: 约90%的子标题包含超过7个词。
文档主题分布: 约60%的文档包含4个主题。
段落级主题结构: 超过70%的主题包含少于4个段落。

数据集应用

验证任务: 通过包括ChatGPT在内的多个强基线模型，验证了CPTS在主题分割和提纲生成任务上的计算可行性。
下游任务: 初步验证了CPTS对下游任务（如话语解析）的有用性。

联系方式

联系人: Jeffrey Jiang
邮箱: jeffreyjiang@cuhk.edu.cn

搜集汇总

数据集介绍

构建方式

CPTS数据集的构建基于一种三层层次化的段落级主题结构表示模型，该模型包括超主题、子主题和基本级主题。首先，研究团队提出了这一层次化表示模型，以指导语料库的构建。随后，采用两阶段人机协作注释方法，结合自动提取与人工验证，构建了目前最大的中文段落级主题结构语料库（CPTS）。自动提取阶段通过启发式规则从新闻文档中提取主题结构，而人工验证阶段则通过双人验证确保主题边界和内容的语义正确性，从而保证了数据集的高质量。

特点

CPTS数据集的显著特点在于其层次化的主题结构表示和高质量的注释。该数据集不仅标注了段落边界和主题边界，还包含了主题内容和更高层次的标题信息，特别是将子标题和标题作为句子或从句而非关键词来表示，从而捕捉到更丰富的段落级信息。此外，CPTS数据集的注释过程通过人机协作，确保了大规模语料库的构建同时保持了高精度的注释质量，为下游任务如摘要生成、话语解析和信息检索提供了强有力的支持。

使用方法

CPTS数据集可广泛应用于自然语言处理领域的多个任务，特别是主题分割和提纲生成。用户可以通过加载数据集中的文档及其对应的层次化主题结构，进行模型训练和评估。数据集提供了详细的文档、子标题和段落的标注信息，用户可以根据这些信息设计算法，实现对文档主题结构的自动识别和生成。此外，CPTS数据集还提供了多个强基线模型，包括ChatGPT，用户可以基于这些基线进行进一步的研究和开发，验证其在不同任务中的有效性。

背景与挑战

背景概述

CPTS数据集，全称为Chinese Paragraph-level Topic Structure corpus，由香港中文大学（深圳）数据科学学院和深圳大数据研究院的研究团队于2024年发布。该数据集的核心研究问题在于填补中文文本中段落级主题结构语料库的空白，旨在通过提供大规模、高质量的段落级主题结构语料库，推动主题分割和提纲生成等自然语言处理任务的发展。CPTS数据集的构建基于三层层次化的段落级主题结构表示，通过人机协作的两阶段标注方法，确保了语料库的高质量和大规模。该数据集的发布不仅为中文文本处理领域提供了重要的资源，还为下游任务如摘要生成、话语解析和信息检索等提供了有力的支持。

当前挑战

CPTS数据集在构建过程中面临多项挑战。首先，段落级主题结构的标注需要丰富的语义信息，传统的关键词或短语标注方式难以满足需求，因此提出了三层层次化的主题结构表示，以更好地捕捉文档的高层结构。其次，构建大规模、高质量的语料库需要克服手动标注的耗时和自动提取的准确性问题，为此采用了两阶段的人机协作标注策略，通过自动提取和人工验证相结合的方式，确保了语料库的准确性和规模。此外，选择合适的数据源也是一个挑战，研究团队最终选择了中国新华社发布的新闻文档，以确保语料库的通用性和标准化。这些挑战的解决不仅提升了CPTS数据集的质量，也为未来的相关研究提供了宝贵的经验。

常用场景

经典使用场景

CPTS数据集的经典使用场景主要集中在中文文本的段落级主题分割和提纲生成任务中。通过该数据集，研究者能够训练和评估模型在将文档划分为连贯的主题段落并生成相应子标题的能力。这一任务不仅有助于快速理解文档的整体结构，还能为后续的摘要生成、话语解析和信息检索等下游任务提供支持。

解决学术问题

CPTS数据集解决了中文文本处理领域中缺乏大规模、高质量段落级主题结构语料库的问题。通过提供一个包含丰富层次结构和高质量标注的语料库，CPTS为研究者提供了一个标准化的基准，推动了主题分割和提纲生成等基础任务的研究进展。这不仅提升了模型的计算能力，还为下游任务如话语解析提供了有力支持。

衍生相关工作

CPTS数据集的发布催生了一系列相关研究工作，特别是在中文文本处理和自然语言理解领域。研究者们基于CPTS开发了多种主题分割和提纲生成模型，并将其应用于不同的下游任务，如话语解析、文本摘要和信息抽取。此外，CPTS的成功也激发了对其他语言段落级主题结构语料库的构建和研究，推动了跨语言文本处理技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集