PD&CFT
收藏github2018-03-14 更新2024-05-31 收录
下载链接:
https://github.com/libertatis/Chinese-RC-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
我们发布的首个中文阅读理解数据集,包括人民日报和儿童童话(PD&CFT)。我们希望这将加速未来机器理解研究的过程。
We have released the first Chinese reading comprehension dataset, which includes the People's Daily and Children's Fairy Tales (PD&CFT). We hope this will accelerate the progress of future research in machine comprehension.
创建时间:
2018-03-14
原始信息汇总
数据集概述
数据集名称
- PD&CFT: A Chinese Reading Comprehension Dataset
数据集内容
- 包含两个子数据集:
- People Daily (PD)
- 包含训练、验证和测试文件:pd.train, pd.valid, pd.test
- Childrens Fairy Tale (CFT)
- 包含两个测试集:cft.test.auto(自动生成)和cft.test.human(人工筛选)
- People Daily (PD)
数据集统计
| 数据集 | 查询数量 | 文档最大词数 | 查询最大词数 | 文档平均词数 | 查询平均词数 | 词汇量 |
|---|---|---|---|---|---|---|
| PD-train | 870,710 | 618 | 502 | 379 | 38 | 248,160 |
| PD-valid | 3,000 | 536 | 153 | 425 | 38 | - |
| PD-test | 3,000 | 634 | 265 | 410 | 41 | - |
| CFT-auto | 1,646 | 318 | 83 | 122 | 20 | - |
| CFT-human | 1,953 | 414 | 92 | 153 | 20 | - |
数据格式
-
每条数据包含多个句子,格式为:
sentence_id ||| sentence
-
最后一个句子包含查询和答案,格式为:
sentence_id ||| Query ||| Answer
数据集下载
- 可通过GitHub下载:People Daily & Childrens Fairy Tale (PD&CFT)
许可证
- 数据集使用CC-BY-SA-4.0许可证。
引用信息
-
引用格式:
@InProceedings{cui-etal-2016-consensus, title = {Consensus Attention-based Neural Networks for Chinese Reading Comprehension}, author = {Cui, Yiming and Liu, Ting and Chen, Zhipeng and Wang, Shijin and Hu, Guoping}, booktitle = {Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers}, year = {2016}, address = {Osaka, Japan}, pages = {1777--1786}, }
搜集汇总
数据集介绍

构建方式
PD&CFT数据集的构建,旨在推进中文阅读理解领域的研究。该数据集由《人民日报》和《儿童童话》两部分组成,包含训练集、验证集和测试集。数据集中的每个文档由多个句子构成,每个句子都标注有唯一的sentence_id,并按照特定的格式排列,末行标明查询和答案,从而为机器学习模型提供了结构化的输入和输出。
特点
该数据集具有以下显著特点:首先,它是首个公开发布的中文阅读理解数据集,为相关研究提供了宝贵资源;其次,数据集规模较大,包含数十万个查询和文档,有助于模型的泛化能力提升;最后,数据集涵盖了不同难度的阅读理解任务,既有自动生成的测试集,也有人工筛选的测试集,保证了评估的全面性和准确性。
使用方法
使用PD&CFT数据集时,用户需先从GitHub下载相应部分的数据集。数据集以zip格式压缩,内部包含训练、验证和测试文件。用户可以依据数据集提供的文档格式,将数据导入至机器学习框架中进行模型训练和评估。同时,数据集的许可协议为CC-BY-SA-4.0,使用时需遵循相应的引用和共享规则。
背景与挑战
背景概述
PD&CFT数据集,作为首个中文阅读理解数据集,由我国科研人员于2016年创建,旨在推动机器理解中文文本的研究进展。该数据集由《人民日报》和《儿童童话》两部分组成,包含了大量的阅读理解问答对,对于中文自然语言处理领域具有里程碑意义。数据集的创建,不仅丰富了中文自然语言处理的研究资源,也为相关算法模型的训练与评估提供了重要基准。主要研究人员包括Yiming Cui、Ting Liu等,该数据集的影响力在学术界得到了广泛认可。
当前挑战
在研究领域问题上,PD&CFT数据集所面临的挑战主要在于如何更准确地模拟人类阅读理解过程中的推理、判断等复杂认知活动。在构建过程中,数据集的构建者遇到了如何保证数据质量、平衡数据分布、以及如何有效评估模型性能等挑战。特别是在数据集中的人工测试集构建上,研究人员剔除了过于简单的问题,增加了评估的难度,这对研究提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,PD&CFT数据集作为首个中文阅读理解数据集,其经典使用场景主要在于训练和评估机器的阅读理解能力。该数据集涵盖了《人民日报》和《儿童童话》两大类别,提供了丰富的文本材料和对应的查询-答案对,为模型训练提供了坚实基础。
衍生相关工作
基于PD&CFT数据集,研究者们衍生出了许多相关工作,如注意力机制的研究、神经网络模型结构的优化等。这些工作不仅加深了对于机器阅读理解机制的理解,也促进了自然语言处理技术的进步。
数据集最近研究
最新研究方向
PD&CFT数据集作为首个中文阅读理解数据集,其研究方向的最新进展主要集中在深度学习模型在中文文本理解上的应用与优化。该数据集的发布加速了机器阅读理解领域的研究步伐,特别是在构建能够理解中文语言特点的模型方面。近期研究聚焦于共识注意力机制网络等先进模型的开发,以提升模型对中文文本的准确理解和回答能力,这对于中文自然语言处理技术的发展具有重大影响和意义。
以上内容由遇见数据集搜集并总结生成



