dataset-org/c3
收藏数据集卡片 for C3
数据集描述
数据集概要
机器阅读理解任务要求机器阅读器回答与给定文档相关的问题。在本研究中,我们提出了第一个自由形式的多项选择中文机器阅读理解数据集(C^3),包含13,369个文档(对话或更正式的混合文体文本)及其相关的19,577个多项选择自由形式问题,这些问题收集自中文作为第二语言考试。 我们提供了一个关于解决这些实际问题所需的前置知识(即语言学、特定领域和一般世界知识)的综合分析。我们实现了基于规则和流行的神经网络方法,并发现最佳性能模型(68.5%)与人类读者(96.0%)之间仍存在显著的性能差距,特别是在需要前置知识的问题上。我们进一步研究了干扰项合理性和基于翻译相关数据集的数据增强对模型性能的影响。我们期望C^3对现有系统提出巨大挑战,因为86.8%的问题需要结合文档内外的知识来回答,我们希望C^3能作为一个平台,研究如何利用各种前置知识更好地理解给定的书面或口头文本。
支持的任务和排行榜
[更多信息需要]
语言
[更多信息需要]
数据集结构
数据实例
[更多信息需要]
数据字段
[更多信息需要]
数据分割
[更多信息需要]
数据集创建
策划理由
[更多信息需要]
源数据
[更多信息需要]
初始数据收集和规范化
[更多信息需要]
源语言生产者是谁?
[更多信息需要]
注释
[更多信息需要]
注释过程
[更多信息需要]
注释者是谁?
[更多信息需要]
个人和敏感信息
[更多信息需要]
使用数据的注意事项
数据集的社会影响
[更多信息需要]
偏见的讨论
[更多信息需要]
其他已知限制
数据集仅提供用于研究目的。请检查数据集许可证以获取更多信息。
附加信息
数据集策展人
[更多信息需要]
许可信息
[更多信息需要]
引用信息
@article{sun2019investigating, title={Investigating Prior Knowledge for Challenging Chinese Machine Reading Comprehension}, author={Sun, Kai and Yu, Dian and Yu, Dong and Cardie, Claire}, journal={Transactions of the Association for Computational Linguistics}, year={2020}, url={https://arxiv.org/abs/1904.09679v3} }
贡献
感谢@Narsil添加此数据集。




