five

PD&CFT

收藏
github2024-04-12 更新2024-05-31 收录
下载链接:
https://github.com/ymcui/Chinese-RC-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
我们发布的首个中文阅读理解数据集,包含人民日报和儿童童话(PD&CFT)。我们希望这能加速未来机器理解研究的过程。

We are releasing the first Chinese reading comprehension dataset, which includes People's Daily and Children's Fairy Tales (PD&CFT). We hope this will accelerate the progress of future research in machine understanding.
创建时间:
2016-07-14
原始信息汇总

数据集概述

数据集名称

  • PD&CFT: A Chinese Reading Comprehension Dataset

数据集内容

  • 包含两个子数据集:
    • People Daily (PD)
      • 包含训练集、验证集和测试集。
    • Childrens Fairy Tale (CFT)
      • 包含自动生成的测试集和人工评估的测试集。

数据集统计

数据集 查询数量 文档最大词数 查询最大词数 文档平均词数 查询平均词数 词汇量
PD-train 870,710 618 502 379 38 248,160
PD-valid 3,000 536 153 425 38 -
PD-test 3,000 634 265 410 41 -
CFT-auto 1,646 318 83 122 20 -
CFT-human 1,953 414 92 153 20 -

数据格式

  • 每条数据包含多个句子,格式为:

    sentence_id ||| sentence

  • 最后一个句子包含查询和答案,格式为:

    sentence_id ||| Query ||| Answer

数据集下载

数据集许可证

引用信息

  • 如需引用此数据集,请使用以下引用格式:

    @InProceedings{cui-etal-2016-consensus, title = {Consensus Attention-based Neural Networks for Chinese Reading Comprehension}, author = {Cui, Yiming and Liu, Ting and Chen, Zhipeng and Wang, Shijin and Hu, Guoping}, booktitle = {Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers}, year = {2016}, address = {Osaka, Japan}, pages = {1777--1786}, }

搜集汇总
数据集介绍
main_image_url
构建方式
PD&CFT数据集的构建基于人民日报(People Daily)和儿童童话(Children's Fairy Tale)两大文本来源,旨在提供一个涵盖广泛主题的中文阅读理解数据集。数据集分为训练集、验证集和测试集,其中测试集进一步细分为自动生成和人工评估两部分。自动生成的测试集通过算法生成,而人工评估的测试集则经过人工筛选,剔除了过于简单的问题,以确保测试集的难度和质量。
特点
PD&CFT数据集的显著特点在于其多样性和复杂性。数据集不仅涵盖了新闻报道和童话故事两大领域,还通过不同类型的测试集(自动生成和人工评估)来评估模型的泛化能力。此外,数据集中的文档和查询均具有较高的词汇多样性,平均文档长度和查询长度适中,适合用于训练和评估阅读理解模型。
使用方法
PD&CFT数据集的使用方法相对直观。用户可以通过GitHub页面下载数据集,并根据提供的目录结构进行数据加载和处理。数据集的格式清晰,每条记录包含句子ID、句子内容以及查询和答案。用户可以根据需要选择训练集、验证集或测试集进行模型训练和评估,尤其适合用于中文阅读理解任务的研究和开发。
背景与挑战
背景概述
PD&CFT数据集是中国首个阅读理解数据集,由人民日报(People Daily)和儿童童话(Children's Fairy Tale)组成,由Cui Yiming等人于2016年发布。该数据集的创建旨在推动机器理解领域的研究进展,特别是针对中文文本的阅读理解任务。通过提供大规模的训练、验证和测试数据,PD&CFT数据集为研究人员提供了一个标准化的基准,以评估和改进中文阅读理解模型的性能。该数据集的发布不仅填补了中文阅读理解数据集的空白,还为相关领域的研究提供了宝贵的资源,促进了自然语言处理技术的进步。
当前挑战
PD&CFT数据集在构建过程中面临了多个挑战。首先,中文语言的复杂性和多样性使得数据标注和处理变得尤为困难。其次,数据集中的填空题形式要求模型具备较高的语义理解能力,尤其是在处理复杂的上下文关系时。此外,数据集中的自动生成测试集与人工评估测试集的差异性,增加了模型评估的复杂性。最后,如何确保数据集的广泛适用性和代表性,以便能够覆盖不同类型的文本和问题,也是该数据集面临的一个重要挑战。
常用场景
经典使用场景
PD&CFT数据集在自然语言处理领域中,主要用于中文阅读理解任务的训练与评估。该数据集包含了人民日报和儿童童话两部分,分别提供了丰富的文本内容和相应的填空式问题。通过这些数据,研究者可以训练和测试模型在中文语境下的理解能力,尤其是在处理长文本和复杂语义时的表现。
解决学术问题
PD&CFT数据集解决了中文阅读理解领域中缺乏高质量数据集的问题,为研究者提供了一个标准化的测试平台。该数据集不仅有助于推动机器阅读理解技术的发展,还为中文自然语言处理领域的研究提供了宝贵的资源。通过对比自动生成和人工筛选的测试集,研究者可以更深入地理解模型在不同难度级别上的表现,从而优化模型设计。
衍生相关工作
PD&CFT数据集的发布激发了大量相关研究工作,尤其是在中文阅读理解模型的改进和评估方面。许多研究者基于该数据集提出了新的模型架构和训练方法,如基于注意力机制的神经网络模型。此外,该数据集还被用于跨语言阅读理解的研究,促进了中文与其他语言在自然语言处理领域的对比分析。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作