five

hfl/cmrc2019

收藏
Hugging Face2024-05-28 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/hfl/cmrc2019
下载链接
链接失效反馈
官方服务:
资源简介:
CMRC 2019数据集是用于中文机器阅读理解任务的公开数据集,包含多个子集,如训练数据、开发数据和测试数据。该数据集旨在通过句子填空任务来评估模型的阅读理解能力。数据集由多个部分组成,包括试验数据、训练数据、开发数据、资格数据和测试数据,每个部分都有不同的段落数量和查询数量。数据集还提供了基于BERT的基线系统,并支持通过CodaLab平台提交模型进行测试。

CMRC 2019数据集是用于中文机器阅读理解任务的公开数据集,包含多个子集,如训练数据、开发数据和测试数据。该数据集旨在通过句子填空任务来评估模型的阅读理解能力。数据集由多个部分组成,包括试验数据、训练数据、开发数据、资格数据和测试数据,每个部分都有不同的段落数量和查询数量。数据集还提供了基于BERT的基线系统,并支持通过CodaLab平台提交模型进行测试。
提供机构:
hfl
原始信息汇总

数据集概述

标题: A Sentence Cloze Dataset for Chinese Machine Reading Comprehension
作者: Yiming Cui, Ting Liu, Ziqing Yang, Zhipeng Chen, Wentao Ma, Wanxiang Che, Shijin Wang, Guoping Hu
发表会议: COLING 2020
论文链接: https://arxiv.org/abs/2004.03116

数据集详情

  • 许可: cc-by-sa-4.0
  • 语言: 中文, 英文
  • 数据集组成:
    • Trial Data: 139 passages, 1,504 queries, QAC 71.941%, PAC 28.776%, No Fake Candidates, Public
    • Train Data: 9,638 passages, 100,009 queries, QAC N/A, PAC N/A, No Fake Candidates, Public
    • Development Data: 300 passages, 3,053 queries, QAC 70.586%, PAC 13.333%, Yes Fake Candidates, Public
    • Qualifying Data: 500 passages, 5,081 queries, QAC 70.01%, PAC 8.20%, Yes Fake Candidates, Semi-Hidden
    • Test Data: -, -, -, -, Yes Fake Candidates, Hidden

提交指南

基准系统

  • 提供基于BERT的基准系统,详情请查看baseline目录。

引用信息

  • 如需在研究中使用本数据集,请引用以下论文:

@inproceeding{cui-etal-2020-cmrc2019, title={A Sentence Cloze Dataset for Chinese Machine Reading Comprehension}, author={Cui, Yiming and Liu, Ting and Yang, Ziqing and Chen, Zhipeng and Ma, Wentao and Che, Wanxiang and Wang, Shijin and Hu, Guoping}, booktitle = "Proceedings of the 28th International Conference on Computational Linguistics (COLING 2020)", year={2020} }

国际标准语言资源编号 (ISLRN)

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作