Chinese Cloze-style Reading Comprehension Dataset

github2016-07-26 更新2024-05-31 收录

下载链接：

https://github.com/VikingMew/Chinese-RC-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

首个中文填空式阅读理解数据集，包含人民日报和儿童童话故事(CFT)，旨在加速机器理解领域的研究进程。

The first Chinese cloze-style reading comprehension dataset, encompassing content from the People's Daily and children's fairy tales (CFT), is designed to accelerate research progress in the field of machine comprehension.

创建时间：

2016-07-26

原始信息汇总

数据集概述

数据集名称

HFL-RC: A Chinese Cloze-style Reading Comprehension Dataset

数据集内容

People Daily
- 训练文件：pd.train
- 验证文件：pd.valid
- 测试文件：pd.test
Childrens Fairy Tale (CFT)
- 自动生成测试集：cft.test.auto
- 人工评估测试集：cft.test.human

数据集特点

人工评估测试集并非人工提问，而是经过筛选的填空题，剔除了简单问题。

数据格式

每条数据包含句子ID和句子内容，格式为：

sentence_id(space)|||(space)sentence
最后一条数据包含查询和答案，格式为：

sentence_id(space)|||(space)Query(space)|||(space)Answer

引用信息

引用格式：

@article{cui-etal-2016-consensus, title={Consensus Attention-based Neural Networks for Chinese Reading Comprehension}, author={Cui, Yiming and Liu, Ting and Chen, Zhipeng and Wang, Shijin and Hu, Guoping}, journal={arXiv preprint arXiv:1607.02250}, year={2016} }

搜集汇总

数据集介绍

构建方式

本数据集的构建采取了对中国官方报纸《人民日报》及儿童童话故事进行细粒度文本分段，形成填空式阅读理解题目的方式。数据集包含训练集、验证集和测试集，通过自动化处理与人工筛选相结合的方法，确保了数据的质量和多样性。

使用方法

用户在使用该数据集时，需先解压相应的数据文件，并根据数据格式说明进行数据读取。数据集的每一行都包含了句子ID、句子文本，以及最后的查询和答案。用户可以依据这些信息进行模型训练、验证和测试，以评估机器在中文阅读理解任务上的性能。

背景与挑战

背景概述

HFL-RC数据集，全称为Chinese Cloze-style Reading Comprehension Dataset，是由我国研究人员于2016年首次发布的中文阅读理解数据集。该数据集包括《人民日报》和《儿童童话》两个部分，旨在推动机器阅读理解领域的研究。其独特的Cloze-style设计，即在一篇文本中随机删除一些词汇，要求模型填入正确的词语，为研究机器理解中文文本提供了新的视角。该数据集的发布，对于推动中文自然语言处理领域的发展，具有重要的研究价值和影响力。

当前挑战

在研究领域，HFL-RC数据集面临的挑战主要包括：一是如何提高模型对于中文文本的深度理解能力，二是如何处理和消除文本中的噪声信息，提高模型的鲁棒性。在构建过程中，数据集的构建者需要解决如何确保数据质量，避免人工引入偏差，以及如何处理大规模数据集的存储和计算问题等挑战。

常用场景

经典使用场景

在自然语言处理领域，Chinese Cloze-style Reading Comprehension Dataset被广泛用于评估机器阅读理解能力。该数据集特别适用于训练和测试模型对中文文本的理解程度，经典的使用场景包括构建和优化基于深度学习的阅读理解模型。

解决学术问题

该数据集解决了中文阅读理解研究中的多项学术问题，如如何提高机器对中文文本的语义理解能力，以及如何构建能够处理复杂语境和隐含语义的模型。它为研究者提供了一个统一的评价标准，以促进不同模型间的比较和性能的准确评估。

实际应用

在实际应用中，该数据集的成果已被应用于开发智能问答系统、自动摘要生成以及信息检索等场景，极大地提升了相关系统的准确性和用户体验。

数据集最近研究