PD&CFT

github2018-03-14 更新2024-05-31 收录

下载链接：

https://github.com/libertatis/Chinese-RC-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

我们发布的首个中文阅读理解数据集，包括人民日报和儿童童话（PD&CFT）。我们希望这将加速未来机器理解研究的过程。

We have released the first Chinese reading comprehension dataset, which includes the People's Daily and Children's Fairy Tales (PD&CFT). We hope this will accelerate the progress of future research in machine comprehension.

创建时间：

2018-03-14

原始信息汇总

数据集概述

数据集名称

PD&CFT: A Chinese Reading Comprehension Dataset

数据集内容

包含两个子数据集：
- People Daily (PD)
  - 包含训练、验证和测试文件：pd.train, pd.valid, pd.test
- Childrens Fairy Tale (CFT)
  - 包含两个测试集：cft.test.auto（自动生成）和cft.test.human（人工筛选）

数据集统计

数据集	查询数量	文档最大词数	查询最大词数	文档平均词数	查询平均词数	词汇量
PD-train	870,710	618	502	379	38	248,160
PD-valid	3,000	536	153	425	38	-
PD-test	3,000	634	265	410	41	-
CFT-auto	1,646	318	83	122	20	-
CFT-human	1,953	414	92	153	20	-

数据格式

每条数据包含多个句子，格式为：

sentence_id ||| sentence
最后一个句子包含查询和答案，格式为：

sentence_id ||| Query ||| Answer

数据集下载

可通过GitHub下载：People Daily & Childrens Fairy Tale (PD&CFT)

许可证

数据集使用CC-BY-SA-4.0许可证。

引用信息

引用格式：

@InProceedings{cui-etal-2016-consensus, title = {Consensus Attention-based Neural Networks for Chinese Reading Comprehension}, author = {Cui, Yiming and Liu, Ting and Chen, Zhipeng and Wang, Shijin and Hu, Guoping}, booktitle = {Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers}, year = {2016}, address = {Osaka, Japan}, pages = {1777--1786}, }

搜集汇总

数据集介绍

构建方式

PD&CFT数据集的构建，旨在推进中文阅读理解领域的研究。该数据集由《人民日报》和《儿童童话》两部分组成，包含训练集、验证集和测试集。数据集中的每个文档由多个句子构成，每个句子都标注有唯一的sentence_id，并按照特定的格式排列，末行标明查询和答案，从而为机器学习模型提供了结构化的输入和输出。

特点

该数据集具有以下显著特点：首先，它是首个公开发布的中文阅读理解数据集，为相关研究提供了宝贵资源；其次，数据集规模较大，包含数十万个查询和文档，有助于模型的泛化能力提升；最后，数据集涵盖了不同难度的阅读理解任务，既有自动生成的测试集，也有人工筛选的测试集，保证了评估的全面性和准确性。

使用方法

使用PD&CFT数据集时，用户需先从GitHub下载相应部分的数据集。数据集以zip格式压缩，内部包含训练、验证和测试文件。用户可以依据数据集提供的文档格式，将数据导入至机器学习框架中进行模型训练和评估。同时，数据集的许可协议为CC-BY-SA-4.0，使用时需遵循相应的引用和共享规则。

背景与挑战

背景概述

PD&CFT数据集，作为首个中文阅读理解数据集，由我国科研人员于2016年创建，旨在推动机器理解中文文本的研究进展。该数据集由《人民日报》和《儿童童话》两部分组成，包含了大量的阅读理解问答对，对于中文自然语言处理领域具有里程碑意义。数据集的创建，不仅丰富了中文自然语言处理的研究资源，也为相关算法模型的训练与评估提供了重要基准。主要研究人员包括Yiming Cui、Ting Liu等，该数据集的影响力在学术界得到了广泛认可。

当前挑战

在研究领域问题上，PD&CFT数据集所面临的挑战主要在于如何更准确地模拟人类阅读理解过程中的推理、判断等复杂认知活动。在构建过程中，数据集的构建者遇到了如何保证数据质量、平衡数据分布、以及如何有效评估模型性能等挑战。特别是在数据集中的人工测试集构建上，研究人员剔除了过于简单的问题，增加了评估的难度，这对研究提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，PD&CFT数据集作为首个中文阅读理解数据集，其经典使用场景主要在于训练和评估机器的阅读理解能力。该数据集涵盖了《人民日报》和《儿童童话》两大类别，提供了丰富的文本材料和对应的查询-答案对，为模型训练提供了坚实基础。

衍生相关工作

基于PD&CFT数据集，研究者们衍生出了许多相关工作，如注意力机制的研究、神经网络模型结构的优化等。这些工作不仅加深了对于机器阅读理解机制的理解，也促进了自然语言处理技术的进步。

数据集最近研究