hfl/cmrc2019
收藏Hugging Face2024-05-28 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/hfl/cmrc2019
下载链接
链接失效反馈官方服务:
资源简介:
CMRC 2019数据集是用于中文机器阅读理解任务的公开数据集,包含多个子集,如训练数据、开发数据和测试数据。该数据集旨在通过句子填空任务来评估模型的阅读理解能力。数据集由多个部分组成,包括试验数据、训练数据、开发数据、资格数据和测试数据,每个部分都有不同的段落数量和查询数量。数据集还提供了基于BERT的基线系统,并支持通过CodaLab平台提交模型进行测试。
CMRC 2019数据集是用于中文机器阅读理解任务的公开数据集,包含多个子集,如训练数据、开发数据和测试数据。该数据集旨在通过句子填空任务来评估模型的阅读理解能力。数据集由多个部分组成,包括试验数据、训练数据、开发数据、资格数据和测试数据,每个部分都有不同的段落数量和查询数量。数据集还提供了基于BERT的基线系统,并支持通过CodaLab平台提交模型进行测试。
提供机构:
hfl
原始信息汇总
数据集概述
标题: A Sentence Cloze Dataset for Chinese Machine Reading Comprehension
作者: Yiming Cui, Ting Liu, Ziqing Yang, Zhipeng Chen, Wentao Ma, Wanxiang Che, Shijin Wang, Guoping Hu
发表会议: COLING 2020
论文链接: https://arxiv.org/abs/2004.03116
数据集详情
- 许可: cc-by-sa-4.0
- 语言: 中文, 英文
- 数据集组成:
- Trial Data: 139 passages, 1,504 queries, QAC 71.941%, PAC 28.776%, No Fake Candidates, Public
- Train Data: 9,638 passages, 100,009 queries, QAC N/A, PAC N/A, No Fake Candidates, Public
- Development Data: 300 passages, 3,053 queries, QAC 70.586%, PAC 13.333%, Yes Fake Candidates, Public
- Qualifying Data: 500 passages, 5,081 queries, QAC 70.01%, PAC 8.20%, Yes Fake Candidates, Semi-Hidden
- Test Data: -, -, -, -, Yes Fake Candidates, Hidden
提交指南
- 如需在隐藏测试和挑战集上测试模型,请按照CodaLab工作表上的指南提交模型:https://worksheets.codalab.org/worksheets/0xe856b40d21de45bf898cd1d3c5135afe
基准系统
- 提供基于BERT的基准系统,详情请查看baseline目录。
引用信息
- 如需在研究中使用本数据集,请引用以下论文:
@inproceeding{cui-etal-2020-cmrc2019, title={A Sentence Cloze Dataset for Chinese Machine Reading Comprehension}, author={Cui, Yiming and Liu, Ting and Yang, Ziqing and Chen, Zhipeng and Ma, Wentao and Che, Wanxiang and Wang, Shijin and Hu, Guoping}, booktitle = "Proceedings of the 28th International Conference on Computational Linguistics (COLING 2020)", year={2020} }
国际标准语言资源编号 (ISLRN)
- ISLRN: 813-010-842-493-2
- 详情请访问:http://www.islrn.org/resources/resources_info/8624/



