PD&CFT

github2024-04-12 更新2024-05-31 收录

下载链接：

https://github.com/ymcui/Chinese-RC-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

我们发布的首个中文阅读理解数据集，包含人民日报和儿童童话（PD&CFT）。我们希望这能加速未来机器理解研究的过程。

We are releasing the first Chinese reading comprehension dataset, which includes People's Daily and Children's Fairy Tales (PD&CFT). We hope this will accelerate the progress of future research in machine understanding.

创建时间：

2016-07-14

原始信息汇总

数据集概述

数据集名称

PD&CFT: A Chinese Reading Comprehension Dataset

数据集内容

包含两个子数据集：
- People Daily (PD)
  - 包含训练集、验证集和测试集。
- Childrens Fairy Tale (CFT)
  - 包含自动生成的测试集和人工评估的测试集。

数据集统计

数据集	查询数量	文档最大词数	查询最大词数	文档平均词数	查询平均词数	词汇量
PD-train	870,710	618	502	379	38	248,160
PD-valid	3,000	536	153	425	38	-
PD-test	3,000	634	265	410	41	-
CFT-auto	1,646	318	83	122	20	-
CFT-human	1,953	414	92	153	20	-

数据格式

每条数据包含多个句子，格式为：

sentence_id ||| sentence
最后一个句子包含查询和答案，格式为：

sentence_id ||| Query ||| Answer

数据集下载

数据集可通过GitHub下载：People Daily & Childrens Fairy Tale (PD&CFT)

数据集许可证

数据集使用CC-BY-SA-4.0许可证。

引用信息

如需引用此数据集，请使用以下引用格式：

@InProceedings{cui-etal-2016-consensus, title = {Consensus Attention-based Neural Networks for Chinese Reading Comprehension}, author = {Cui, Yiming and Liu, Ting and Chen, Zhipeng and Wang, Shijin and Hu, Guoping}, booktitle = {Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers}, year = {2016}, address = {Osaka, Japan}, pages = {1777--1786}, }

搜集汇总

数据集介绍

构建方式

PD&CFT数据集的构建基于人民日报（People Daily）和儿童童话（Children's Fairy Tale）两大文本来源，旨在提供一个涵盖广泛主题的中文阅读理解数据集。数据集分为训练集、验证集和测试集，其中测试集进一步细分为自动生成和人工评估两部分。自动生成的测试集通过算法生成，而人工评估的测试集则经过人工筛选，剔除了过于简单的问题，以确保测试集的难度和质量。

特点

PD&CFT数据集的显著特点在于其多样性和复杂性。数据集不仅涵盖了新闻报道和童话故事两大领域，还通过不同类型的测试集（自动生成和人工评估）来评估模型的泛化能力。此外，数据集中的文档和查询均具有较高的词汇多样性，平均文档长度和查询长度适中，适合用于训练和评估阅读理解模型。

使用方法

PD&CFT数据集的使用方法相对直观。用户可以通过GitHub页面下载数据集，并根据提供的目录结构进行数据加载和处理。数据集的格式清晰，每条记录包含句子ID、句子内容以及查询和答案。用户可以根据需要选择训练集、验证集或测试集进行模型训练和评估，尤其适合用于中文阅读理解任务的研究和开发。

背景与挑战

背景概述

PD&CFT数据集是中国首个阅读理解数据集，由人民日报（People Daily）和儿童童话（Children's Fairy Tale）组成，由Cui Yiming等人于2016年发布。该数据集的创建旨在推动机器理解领域的研究进展，特别是针对中文文本的阅读理解任务。通过提供大规模的训练、验证和测试数据，PD&CFT数据集为研究人员提供了一个标准化的基准，以评估和改进中文阅读理解模型的性能。该数据集的发布不仅填补了中文阅读理解数据集的空白，还为相关领域的研究提供了宝贵的资源，促进了自然语言处理技术的进步。

当前挑战

PD&CFT数据集在构建过程中面临了多个挑战。首先，中文语言的复杂性和多样性使得数据标注和处理变得尤为困难。其次，数据集中的填空题形式要求模型具备较高的语义理解能力，尤其是在处理复杂的上下文关系时。此外，数据集中的自动生成测试集与人工评估测试集的差异性，增加了模型评估的复杂性。最后，如何确保数据集的广泛适用性和代表性，以便能够覆盖不同类型的文本和问题，也是该数据集面临的一个重要挑战。

常用场景

经典使用场景

PD&CFT数据集在自然语言处理领域中，主要用于中文阅读理解任务的训练与评估。该数据集包含了人民日报和儿童童话两部分，分别提供了丰富的文本内容和相应的填空式问题。通过这些数据，研究者可以训练和测试模型在中文语境下的理解能力，尤其是在处理长文本和复杂语义时的表现。

解决学术问题

PD&CFT数据集解决了中文阅读理解领域中缺乏高质量数据集的问题，为研究者提供了一个标准化的测试平台。该数据集不仅有助于推动机器阅读理解技术的发展，还为中文自然语言处理领域的研究提供了宝贵的资源。通过对比自动生成和人工筛选的测试集，研究者可以更深入地理解模型在不同难度级别上的表现，从而优化模型设计。

衍生相关工作

PD&CFT数据集的发布激发了大量相关研究工作，尤其是在中文阅读理解模型的改进和评估方面。许多研究者基于该数据集提出了新的模型架构和训练方法，如基于注意力机制的神经网络模型。此外，该数据集还被用于跨语言阅读理解的研究，促进了中文与其他语言在自然语言处理领域的对比分析。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集