hfl/cmrc2018

Hugging Face2024-08-08 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/hfl/cmrc2018

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于中文机器阅读理解的任务，旨在增加该领域的语言多样性。数据集包含近20,000个从维基百科段落中提取的真实问题，并由人类专家进行标注。此外，还包含一个挑战集，其中的问题需要综合理解和多句子推理。数据集分为训练集、验证集和测试集，每个数据实例包含id、context、question和answers字段。

This dataset is designed for the Chinese machine reading comprehension task, aiming to enhance linguistic diversity in this field. It contains nearly 20,000 authentic questions extracted from Wikipedia paragraphs, which are annotated by human experts. Additionally, it includes a challenge set where the questions require comprehensive comprehension and multi-sentence reasoning. The dataset is split into training, validation and test sets, and each data instance contains the fields of id, context, question and answers.

提供机构：

hfl

原始信息汇总

数据集概述

基本信息

名称: Chinese Machine Reading Comprehension 2018 (cmrc2018)
语言: 中文 (zh)
许可证: cc-by-sa-4.0
多语言性: 单语种
大小: 10K<n<100K
源数据: 原创数据
任务类别: 问答 (question-answering)
任务ID: extractive-qa
论文代码ID: cmrc-2018

数据集结构

特征:
- id: 字符串类型
- context: 字符串类型
- question: 字符串类型
- answers: 字典类型，包含:
  - text: 字符串类型
  - answer_start: 整数类型 (int32)
数据分割:
- train: 10142 个样本
- validation: 3219 个样本
- test: 1002 个样本

数据集创建

注释创建者: 众包
语言创建者: 众包

数据集大小

下载大小: 11.50 MB
数据集大小: 22.31 MB

引用信息

@inproceedings{cui-emnlp2019-cmrc2018, title = "A Span-Extraction Dataset for {C}hinese Machine Reading Comprehension", author = "Cui, Yiming and Liu, Ting and Che, Wanxiang and Xiao, Li and Chen, Zhipeng and Ma, Wentao and Wang, Shijin and Hu, Guoping", booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)", month = nov, year = "2019", address = "Hong Kong, China", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/D19-1600", doi = "10.18653/v1/D19-1600", pages = "5886--5891", }

搜集汇总

数据集介绍

构建方式

hfl/cmrc2018数据集通过众包方式构建，涵盖了近20,000个真实问题，这些问题由人类专家在维基百科段落上进行标注。数据集的构建旨在增加中文机器阅读理解领域的语言多样性，并包含一个挑战集，该挑战集涉及需要全面理解和多句子推理的问题。

特点

该数据集的主要特点在于其专注于中文机器阅读理解任务，且包含多种复杂问题，要求模型具备深入的上下文理解和推理能力。数据集的结构包括问题、上下文、答案及其起始位置，适用于抽取式问答任务。

使用方法

hfl/cmrc2018数据集适用于训练和评估中文机器阅读理解模型。用户可以通过加载数据集的训练、验证和测试集进行模型训练和性能评估。数据集的特征包括问题、上下文和答案，适合用于开发和测试抽取式问答模型。

背景与挑战

背景概述

hfl/cmrc2018数据集，全称为Chinese Machine Reading Comprehension 2018，是由Yiming Cui等研究人员于2019年创建的，旨在为中文机器阅读理解领域提供一个高质量的基准数据集。该数据集包含了近20,000个由人类专家在维基百科段落上标注的真实问题，特别设计了需要综合理解和多句子推理的挑战集，以促进中文自然语言处理技术的发展。通过引入这一数据集，研究者们希望在中文机器阅读理解领域增加语言多样性，推动相关技术的进步。

当前挑战

hfl/cmrc2018数据集面临的挑战主要集中在两个方面。首先，构建过程中需要处理大量复杂的中文文本，确保标注的准确性和一致性，这对标注者的语言能力和专业知识提出了高要求。其次，数据集中的挑战集设计旨在测试模型对复杂上下文的理解和推理能力，这要求模型不仅能够处理简单的问答任务，还需具备跨句子和段落的推理能力。此外，如何有效评估模型在这些复杂任务上的表现，也是一个重要的研究挑战。

常用场景

经典使用场景

hfl/cmrc2018数据集的经典使用场景主要集中在中文机器阅读理解任务中，尤其是抽取式问答任务。该数据集通过提供大量基于中文维基百科段落的问答对，帮助模型学习如何在给定的上下文中准确提取答案。这种任务不仅要求模型具备语言理解能力，还需具备对上下文的多层次推理能力，从而为中文自然语言处理领域提供了宝贵的资源。

衍生相关工作

hfl/cmrc2018数据集的发布激发了大量相关研究工作，尤其是在中文机器阅读理解和问答系统领域。许多研究者基于该数据集开发了新的模型和算法，以提升中文问答的准确性和效率。此外，该数据集还被广泛用于评估和比较不同模型的性能，推动了中文自然语言处理技术的整体进步。相关工作包括但不限于基于BERT、RoBERTa等预训练模型的改进和优化。

数据集最近研究