tau/commonsense_qa

Hugging Face2024-01-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/tau/commonsense_qa

下载链接

链接失效反馈

官方服务：

资源简介：

CommonsenseQA是一个新的多选问答数据集，需要不同类型的常识知识来预测正确答案。它包含12,102个问题，每个问题有一个正确答案和四个干扰答案。数据集分为训练集、验证集和测试集，主要使用英语。

CommonsenseQA is a novel multiple-choice question answering dataset that requires diverse types of commonsense knowledge to predict the correct answers. It contains 12,102 questions, each paired with one correct answer and four distractor options. The dataset is split into training, validation, and test sets, and is predominantly in English.

提供机构：

tau

原始信息汇总

数据集概述

基本信息

名称: CommonsenseQA
语言: 英语 (en)
许可证: MIT
多语言性: 单语
大小: 1K<n<10K
源数据: 原始数据
任务类别: 问答
任务ID: open-domain-qa
论文代码ID: commonsenseqa
美观名称: CommonsenseQA

数据集结构

特征:
- id: 字符串类型，唯一ID。
- question: 字符串类型，问题描述。
- question_concept: 字符串类型，与问题相关的概念。
- choices: 字典类型，包含选项标签和文本。
  - label: 字符串类型，选项标签。
  - text: 字符串类型，选项文本。
- answerKey: 字符串类型，正确答案。
数据分割:
- train: 9741个样本，2207794字节。
- validation: 1221个样本，273848字节。
- test: 1140个样本，257842字节。
- 总下载大小: 1558570字节。
- 数据集总大小: 2739484字节。

数据集创建

注释创建者: 众包
语言创建者: 众包

使用考虑

许可证: MIT，详细信息见此链接。
引用信息:

@inproceedings{talmor-etal-2019-commonsenseqa, title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge", author = "Talmor, Alon and Herzig, Jonathan and Lourie, Nicholas and Berant, Jonathan", booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)", month = jun, year = "2019", address = "Minneapolis, Minnesota", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/N19-1421", doi = "10.18653/v1/N19-1421", pages = "4149--4158", archivePrefix = "arXiv", eprint = "1811.00937", primaryClass = "cs", }

贡献者

搜集汇总

数据集介绍

构建方式

CommonsenseQA数据集的构建基于众包方式，通过收集和整理来自不同背景的参与者提供的常识性问题及其答案。每个问题都关联到一个特定的ConceptNet概念，确保问题涵盖广泛的常识知识领域。数据集包含12,102个多项选择题，每个问题配有一个正确答案和四个干扰项，旨在评估模型在理解和应用常识知识方面的能力。

使用方法

使用CommonsenseQA数据集时，研究人员可以通过加载数据集的标准划分（训练、验证和测试）来训练和评估问答模型。每个数据实例包含问题、关联的概念、选项和正确答案，模型需要根据提供的选项选择最合适的答案。该数据集特别适用于开发和测试需要常识推理的自然语言处理模型。

背景与挑战

背景概述

CommonsenseQA数据集由Alon Talmor、Jonathan Herzig等研究人员于2019年创建，旨在通过多选问答任务评估模型对常识知识的理解能力。该数据集包含12,102个问题，每个问题均与ConceptNet中的概念相关联，要求模型在五个选项中选择正确答案。CommonsenseQA的推出填补了自然语言处理领域中对常识推理能力评估的空白，推动了问答系统在复杂语境下的发展。该数据集的研究成果发表于2019年北美计算语言学协会年会（NAACL），并迅速成为常识推理领域的重要基准。

当前挑战

CommonsenseQA数据集的核心挑战在于其要求模型具备跨领域的常识推理能力，而非依赖表面语言模式。问题的设计涉及多样化的常识类型，包括物理、社会和文化知识，这对模型的泛化能力提出了极高要求。此外，数据集的构建过程面临标注一致性和质量控制的挑战，由于常识知识的多样性和主观性，确保标注的准确性和广泛覆盖性成为关键难题。同时，数据集的规模相对较小，可能限制了模型在复杂场景下的表现，进一步扩展数据集以涵盖更多常识类型和语言变体是未来的重要研究方向。

常用场景

经典使用场景

CommonsenseQA数据集在自然语言处理领域中被广泛用于评估和训练模型在常识推理任务中的表现。该数据集通过提供一系列基于常识的多项选择题，要求模型不仅理解问题的字面意义，还需结合日常生活中的常识知识进行推理。这种任务设计使得CommonsenseQA成为评估模型在复杂语境下推理能力的理想工具。

解决学术问题

CommonsenseQA数据集解决了自然语言处理中一个关键问题，即如何让模型具备常识推理能力。传统的问答系统往往依赖于文本中的显式信息，而忽略了隐含的常识知识。通过引入CommonsenseQA，研究者能够开发出更具人类思维的模型，这些模型能够在缺乏明确信息的情况下，通过常识推理得出合理答案。这一突破对提升问答系统的智能化水平具有重要意义。

实际应用

在实际应用中，CommonsenseQA数据集被广泛用于智能助手、教育软件和客户服务系统等领域。例如，智能助手可以通过该数据集提升其在日常对话中的理解能力，从而更准确地回答用户的问题。教育软件则可以利用该数据集设计更具挑战性的学习任务，帮助学生提升逻辑思维和常识推理能力。客户服务系统通过引入常识推理能力，能够更高效地处理复杂的用户咨询。

数据集最近研究