dataset-org/c3

Name: dataset-org/c3
Creator: dataset-org
Published: 2024-01-11 08:12:46
License: 暂无描述

Hugging Face2024-01-11 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/dataset-org/c3

下载链接

链接失效反馈

官方服务：

资源简介：

C3是一个中文机器阅读理解数据集，包含13,369个文档和19,577个多选题，这些题目是从汉语作为第二语言的考试中收集的。数据集专注于多选题形式的问答任务，旨在研究如何利用各种先验知识来更好地理解书面或口头文本。

提供机构：

dataset-org

原始信息汇总

数据集卡片 for C3

数据集描述

数据集概要

机器阅读理解任务要求机器阅读器回答与给定文档相关的问题。在本研究中，我们提出了第一个自由形式的多项选择中文机器阅读理解数据集（C^3），包含13,369个文档（对话或更正式的混合文体文本）及其相关的19,577个多项选择自由形式问题，这些问题收集自中文作为第二语言考试。我们提供了一个关于解决这些实际问题所需的前置知识（即语言学、特定领域和一般世界知识）的综合分析。我们实现了基于规则和流行的神经网络方法，并发现最佳性能模型（68.5%）与人类读者（96.0%）之间仍存在显著的性能差距，特别是在需要前置知识的问题上。我们进一步研究了干扰项合理性和基于翻译相关数据集的数据增强对模型性能的影响。我们期望C^3对现有系统提出巨大挑战，因为86.8%的问题需要结合文档内外的知识来回答，我们希望C^3能作为一个平台，研究如何利用各种前置知识更好地理解给定的书面或口头文本。

支持的任务和排行榜

[更多信息需要]

语言

[更多信息需要]

数据集结构

数据实例

[更多信息需要]

数据字段

[更多信息需要]

数据分割

[更多信息需要]

数据集创建

策划理由

[更多信息需要]

源数据

[更多信息需要]

初始数据收集和规范化

[更多信息需要]

源语言生产者是谁？

[更多信息需要]

注释

[更多信息需要]

注释过程

[更多信息需要]

注释者是谁？

[更多信息需要]

个人和敏感信息

[更多信息需要]

使用数据的注意事项

数据集的社会影响

[更多信息需要]

偏见的讨论

[更多信息需要]

其他已知限制

数据集仅提供用于研究目的。请检查数据集许可证以获取更多信息。

附加信息

数据集策展人

[更多信息需要]

许可信息

[更多信息需要]

引用信息

@article{sun2019investigating, title={Investigating Prior Knowledge for Challenging Chinese Machine Reading Comprehension}, author={Sun, Kai and Yu, Dian and Yu, Dong and Cardie, Claire}, journal={Transactions of the Association for Computational Linguistics}, year={2020}, url={https://arxiv.org/abs/1904.09679v3} }

贡献

感谢@Narsil添加此数据集。

搜集汇总

数据集介绍

构建方式

C3数据集的构建基于对中文作为第二语言考试中收集的对话或正式书写混合体裁文本的深入分析，形成了包含13,369个文档及其相关19,577个多项选择题的集合。数据集的构建采用了专家生成的标注方式，确保了数据的质量和准确性。

特点

C3数据集的特点在于其涵盖了丰富的中文文本和与之相关的问题，这些问题不仅考验了机器对文本的理解能力，还涉及到了先验知识的应用。数据集的多项选择问题要求模型不仅理解文档内容，还需具备一定的领域知识和世界知识，对现有系统提出了挑战。

使用方法

使用C3数据集时，研究者可以根据数据集提供的训练集、测试集和验证集进行模型的训练和评估。数据集以对话和混合体裁文本的形式呈现，研究者需要关注如何利用先验知识来更好地理解和回答问题，这对于提升机器阅读理解的能力具有重要意义。

背景与挑战

背景概述

C3数据集，全称为Chinese machine reading comprehension dataset，是一个面向机器阅读理解任务的重要数据集，由 Kai Sun 等研究人员在2020年提出。该数据集旨在解决中文环境下机器阅读理解的问题，包含了13,369篇文档及其相关的19,577个多项选择题，这些文档和问题主要来源于中文作为第二语言的考试。C3数据集的创建，为研究者在机器阅读理解领域提供了一个新的平台，对于推动中文自然语言处理技术的发展具有显著影响。

当前挑战

C3数据集的挑战主要体现在两个方面：一是它要求模型在理解和回答问题时，不仅需要掌握文档中的信息，还需具备一定的先验知识，这对模型的泛化能力提出了高要求；二是数据集在构建过程中，如何确保问题的多样性和答案的准确性，以及如何处理潜在的偏见和敏感性信息，都是需要克服的难题。此外，C3数据集在模型性能与人类读者之间存在着显著差距，这表明现有系统在理解复杂文本和运用先验知识方面仍有待提升。

常用场景

经典使用场景

在自然语言处理领域，C3数据集的典型应用场景在于评估和改进机器阅读理解模型，特别是在处理中文多选问答任务时。该数据集提供了丰富的文档与相关的问题及答案，使得研究者可以训练模型以理解文本内容，并准确回答相关问题。

实际应用

实际应用中，C3数据集可以被用于开发智能助手、在线教育平台以及自动问答系统，以提高这些系统的理解和回答中文问题的能力。通过模拟真实考试环境下的问答，该数据集有助于提升模型在实际应用中的表现和准确性。

衍生相关工作

基于C3数据集，研究者们开展了一系列相关工作，包括但不限于对先验知识的建模、模型性能的提升策略、以及数据增强方法的研究。这些衍生工作进一步推动了中文自然语言处理技术的发展，并在学术界产生了广泛的影响。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集