GCRC
收藏数据集概述
GCRC(高考中文机器阅读理解数据集)是一个包含超过5000篇文本和超过8700个多项选择题的数据集,旨在通过标准化的人类测试有效且实际地评估机器智能。该数据集特别关注高考阅读理解测试,涵盖了过去10年的试题,并提供了三种类型的标注信息:句子级支持事实、干扰项的错误原因以及回答问题所需的推理技能。
数据集特点
- 数据量:包含超过5000篇文本和8700多个多项选择题。
- 标注信息:提供句子级支持事实、干扰项的错误原因和推理技能的标注。
- 应用目标:旨在通过高考阅读理解任务评估机器智能,并诊断系统的推理过程。
数据集用途
GCRC数据集适用于开发和评估机器阅读理解模型,特别是那些需要解释性评估的模型。该数据集的挑战性有助于研究人员诊断系统限制,并开发新的机器学习和推理方法。
作者和机构
- 作者:Hongye Tan, Xiaoyue Wang, Yu Ji, Ru Li, Xiaoli Li, Zhiwei Hu, Yunxiao Zhao, Xiaoqi Han.
- 机构:Shanxi University
引用信息
bibtex @inproceedings{tan-etal-2021-gcrc, title = "{GCRC}: A New Challenging {MRC} Dataset from {G}aokao {C}hinese for Explainable Evaluation", author = "Tan, Hongye and Wang, Xiaoyue and Ji, Yu and Li, Ru and Li, Xiaoli and Hu, Zhiwei and Zhao, Yunxiao and Han, Xiaoqi", booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-acl.113", doi = "10.18653/v1/2021.findings-acl.113", pages = "1319--1330", }




