hfl/cmrc2019

Hugging Face2024-05-28 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/hfl/cmrc2019

下载链接

链接失效反馈

官方服务：

资源简介：

CMRC 2019数据集是用于中文机器阅读理解任务的公开数据集，包含多个子集，如训练数据、开发数据和测试数据。该数据集旨在通过句子填空任务来评估模型的阅读理解能力。数据集由多个部分组成，包括试验数据、训练数据、开发数据、资格数据和测试数据，每个部分都有不同的段落数量和查询数量。数据集还提供了基于BERT的基线系统，并支持通过CodaLab平台提交模型进行测试。

提供机构：

hfl

原始信息汇总

数据集概述

标题： A Sentence Cloze Dataset for Chinese Machine Reading Comprehension
作者： Yiming Cui, Ting Liu, Ziqing Yang, Zhipeng Chen, Wentao Ma, Wanxiang Che, Shijin Wang, Guoping Hu
发表会议： COLING 2020
论文链接： https://arxiv.org/abs/2004.03116

数据集详情

许可： cc-by-sa-4.0
语言： 中文, 英文
数据集组成：
- Trial Data: 139 passages, 1,504 queries, QAC 71.941%, PAC 28.776%, No Fake Candidates, Public
- Train Data: 9,638 passages, 100,009 queries, QAC N/A, PAC N/A, No Fake Candidates, Public
- Development Data: 300 passages, 3,053 queries, QAC 70.586%, PAC 13.333%, Yes Fake Candidates, Public
- Qualifying Data: 500 passages, 5,081 queries, QAC 70.01%, PAC 8.20%, Yes Fake Candidates, Semi-Hidden
- Test Data: -, -, -, -, Yes Fake Candidates, Hidden

提交指南

如需在隐藏测试和挑战集上测试模型，请按照CodaLab工作表上的指南提交模型：https://worksheets.codalab.org/worksheets/0xe856b40d21de45bf898cd1d3c5135afe

基准系统

提供基于BERT的基准系统，详情请查看baseline目录。

引用信息

如需在研究中使用本数据集，请引用以下论文：

@inproceeding{cui-etal-2020-cmrc2019, title={A Sentence Cloze Dataset for Chinese Machine Reading Comprehension}, author={Cui, Yiming and Liu, Ting and Yang, Ziqing and Chen, Zhipeng and Ma, Wentao and Che, Wanxiang and Wang, Shijin and Hu, Guoping}, booktitle = "Proceedings of the 28th International Conference on Computational Linguistics (COLING 2020)", year={2020} }

国际标准语言资源编号 (ISLRN)

ISLRN: 813-010-842-493-2
详情请访问：http://www.islrn.org/resources/resources_info/8624/

5,000+

优质数据集

54 个

任务类型

进入经典数据集