PD&CFT
收藏github2024-04-12 更新2024-05-31 收录
下载链接:
https://github.com/ymcui/Chinese-RC-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
我们发布的首个中文阅读理解数据集,包含人民日报和儿童童话(PD&CFT)。我们希望这能加速未来机器理解研究的过程。
We are releasing the first Chinese reading comprehension dataset, which includes People's Daily and Children's Fairy Tales (PD&CFT). We hope this will accelerate the progress of future research in machine understanding.
创建时间:
2016-07-14
原始信息汇总
数据集概述
数据集名称
- PD&CFT: A Chinese Reading Comprehension Dataset
数据集内容
- 包含两个子数据集:
- People Daily (PD)
- 包含训练集、验证集和测试集。
- Childrens Fairy Tale (CFT)
- 包含自动生成的测试集和人工评估的测试集。
- People Daily (PD)
数据集统计
| 数据集 | 查询数量 | 文档最大词数 | 查询最大词数 | 文档平均词数 | 查询平均词数 | 词汇量 |
|---|---|---|---|---|---|---|
| PD-train | 870,710 | 618 | 502 | 379 | 38 | 248,160 |
| PD-valid | 3,000 | 536 | 153 | 425 | 38 | - |
| PD-test | 3,000 | 634 | 265 | 410 | 41 | - |
| CFT-auto | 1,646 | 318 | 83 | 122 | 20 | - |
| CFT-human | 1,953 | 414 | 92 | 153 | 20 | - |
数据格式
-
每条数据包含多个句子,格式为:
sentence_id ||| sentence
-
最后一个句子包含查询和答案,格式为:
sentence_id ||| Query ||| Answer
数据集下载
- 数据集可通过GitHub下载:People Daily & Childrens Fairy Tale (PD&CFT)
数据集许可证
- 数据集使用CC-BY-SA-4.0许可证。
引用信息
-
如需引用此数据集,请使用以下引用格式:
@InProceedings{cui-etal-2016-consensus, title = {Consensus Attention-based Neural Networks for Chinese Reading Comprehension}, author = {Cui, Yiming and Liu, Ting and Chen, Zhipeng and Wang, Shijin and Hu, Guoping}, booktitle = {Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers}, year = {2016}, address = {Osaka, Japan}, pages = {1777--1786}, }
搜集汇总
数据集介绍

构建方式
PD&CFT数据集的构建基于人民日报(People Daily)和儿童童话(Children's Fairy Tale)两大文本来源,旨在提供一个涵盖广泛主题的中文阅读理解数据集。数据集分为训练集、验证集和测试集,其中测试集进一步细分为自动生成和人工评估两部分。自动生成的测试集通过算法生成,而人工评估的测试集则经过人工筛选,剔除了过于简单的问题,以确保测试集的难度和质量。
特点
PD&CFT数据集的显著特点在于其多样性和复杂性。数据集不仅涵盖了新闻报道和童话故事两大领域,还通过不同类型的测试集(自动生成和人工评估)来评估模型的泛化能力。此外,数据集中的文档和查询均具有较高的词汇多样性,平均文档长度和查询长度适中,适合用于训练和评估阅读理解模型。
使用方法
PD&CFT数据集的使用方法相对直观。用户可以通过GitHub页面下载数据集,并根据提供的目录结构进行数据加载和处理。数据集的格式清晰,每条记录包含句子ID、句子内容以及查询和答案。用户可以根据需要选择训练集、验证集或测试集进行模型训练和评估,尤其适合用于中文阅读理解任务的研究和开发。
背景与挑战
背景概述
PD&CFT数据集是中国首个阅读理解数据集,由人民日报(People Daily)和儿童童话(Children's Fairy Tale)组成,由Cui Yiming等人于2016年发布。该数据集的创建旨在推动机器理解领域的研究进展,特别是针对中文文本的阅读理解任务。通过提供大规模的训练、验证和测试数据,PD&CFT数据集为研究人员提供了一个标准化的基准,以评估和改进中文阅读理解模型的性能。该数据集的发布不仅填补了中文阅读理解数据集的空白,还为相关领域的研究提供了宝贵的资源,促进了自然语言处理技术的进步。
当前挑战
PD&CFT数据集在构建过程中面临了多个挑战。首先,中文语言的复杂性和多样性使得数据标注和处理变得尤为困难。其次,数据集中的填空题形式要求模型具备较高的语义理解能力,尤其是在处理复杂的上下文关系时。此外,数据集中的自动生成测试集与人工评估测试集的差异性,增加了模型评估的复杂性。最后,如何确保数据集的广泛适用性和代表性,以便能够覆盖不同类型的文本和问题,也是该数据集面临的一个重要挑战。
常用场景
经典使用场景
PD&CFT数据集在自然语言处理领域中,主要用于中文阅读理解任务的训练与评估。该数据集包含了人民日报和儿童童话两部分,分别提供了丰富的文本内容和相应的填空式问题。通过这些数据,研究者可以训练和测试模型在中文语境下的理解能力,尤其是在处理长文本和复杂语义时的表现。
解决学术问题
PD&CFT数据集解决了中文阅读理解领域中缺乏高质量数据集的问题,为研究者提供了一个标准化的测试平台。该数据集不仅有助于推动机器阅读理解技术的发展,还为中文自然语言处理领域的研究提供了宝贵的资源。通过对比自动生成和人工筛选的测试集,研究者可以更深入地理解模型在不同难度级别上的表现,从而优化模型设计。
衍生相关工作
PD&CFT数据集的发布激发了大量相关研究工作,尤其是在中文阅读理解模型的改进和评估方面。许多研究者基于该数据集提出了新的模型架构和训练方法,如基于注意力机制的神经网络模型。此外,该数据集还被用于跨语言阅读理解的研究,促进了中文与其他语言在自然语言处理领域的对比分析。
以上内容由遇见数据集搜集并总结生成



