five

tau/commonsense_qa|常识推理数据集|自然语言处理数据集

收藏
hugging_face2024-01-04 更新2024-03-04 收录
常识推理
自然语言处理
下载链接:
https://hf-mirror.com/datasets/tau/commonsense_qa
下载链接
链接失效反馈
资源简介:
CommonsenseQA是一个新的多选问答数据集,需要不同类型的常识知识来预测正确答案。它包含12,102个问题,每个问题有一个正确答案和四个干扰答案。数据集分为训练集、验证集和测试集,主要使用英语。
提供机构:
tau
原始信息汇总

数据集概述

基本信息

  • 名称: CommonsenseQA
  • 语言: 英语 (en)
  • 许可证: MIT
  • 多语言性: 单语
  • 大小: 1K<n<10K
  • 源数据: 原始数据
  • 任务类别: 问答
  • 任务ID: open-domain-qa
  • 论文代码ID: commonsenseqa
  • 美观名称: CommonsenseQA

数据集结构

  • 特征:
    • id: 字符串类型,唯一ID。
    • question: 字符串类型,问题描述。
    • question_concept: 字符串类型,与问题相关的概念。
    • choices: 字典类型,包含选项标签和文本。
      • label: 字符串类型,选项标签。
      • text: 字符串类型,选项文本。
    • answerKey: 字符串类型,正确答案。
  • 数据分割:
    • train: 9741个样本,2207794字节。
    • validation: 1221个样本,273848字节。
    • test: 1140个样本,257842字节。
    • 总下载大小: 1558570字节。
    • 数据集总大小: 2739484字节。

数据集创建

  • 注释创建者: 众包
  • 语言创建者: 众包

使用考虑

  • 许可证: MIT,详细信息见此链接

  • 引用信息:

    @inproceedings{talmor-etal-2019-commonsenseqa, title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge", author = "Talmor, Alon and Herzig, Jonathan and Lourie, Nicholas and Berant, Jonathan", booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)", month = jun, year = "2019", address = "Minneapolis, Minnesota", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/N19-1421", doi = "10.18653/v1/N19-1421", pages = "4149--4158", archivePrefix = "arXiv", eprint = "1811.00937", primaryClass = "cs", }

贡献者

AI搜集汇总
数据集介绍
main_image_url
构建方式
CommonsenseQA数据集的构建基于众包方式,通过收集和整理来自不同背景的参与者提供的常识性问题及其答案。每个问题都关联到一个特定的ConceptNet概念,确保问题涵盖广泛的常识知识领域。数据集包含12,102个多项选择题,每个问题配有一个正确答案和四个干扰项,旨在评估模型在理解和应用常识知识方面的能力。
使用方法
使用CommonsenseQA数据集时,研究人员可以通过加载数据集的标准划分(训练、验证和测试)来训练和评估问答模型。每个数据实例包含问题、关联的概念、选项和正确答案,模型需要根据提供的选项选择最合适的答案。该数据集特别适用于开发和测试需要常识推理的自然语言处理模型。
背景与挑战
背景概述
CommonsenseQA数据集由Alon Talmor、Jonathan Herzig等研究人员于2019年创建,旨在通过多选问答任务评估模型对常识知识的理解能力。该数据集包含12,102个问题,每个问题均与ConceptNet中的概念相关联,要求模型在五个选项中选择正确答案。CommonsenseQA的推出填补了自然语言处理领域中对常识推理能力评估的空白,推动了问答系统在复杂语境下的发展。该数据集的研究成果发表于2019年北美计算语言学协会年会(NAACL),并迅速成为常识推理领域的重要基准。
当前挑战
CommonsenseQA数据集的核心挑战在于其要求模型具备跨领域的常识推理能力,而非依赖表面语言模式。问题的设计涉及多样化的常识类型,包括物理、社会和文化知识,这对模型的泛化能力提出了极高要求。此外,数据集的构建过程面临标注一致性和质量控制的挑战,由于常识知识的多样性和主观性,确保标注的准确性和广泛覆盖性成为关键难题。同时,数据集的规模相对较小,可能限制了模型在复杂场景下的表现,进一步扩展数据集以涵盖更多常识类型和语言变体是未来的重要研究方向。
常用场景
经典使用场景
CommonsenseQA数据集在自然语言处理领域中被广泛用于评估和训练模型在常识推理任务中的表现。该数据集通过提供一系列基于常识的多项选择题,要求模型不仅理解问题的字面意义,还需结合日常生活中的常识知识进行推理。这种任务设计使得CommonsenseQA成为评估模型在复杂语境下推理能力的理想工具。
解决学术问题
CommonsenseQA数据集解决了自然语言处理中一个关键问题,即如何让模型具备常识推理能力。传统的问答系统往往依赖于文本中的显式信息,而忽略了隐含的常识知识。通过引入CommonsenseQA,研究者能够开发出更具人类思维的模型,这些模型能够在缺乏明确信息的情况下,通过常识推理得出合理答案。这一突破对提升问答系统的智能化水平具有重要意义。
实际应用
在实际应用中,CommonsenseQA数据集被广泛用于智能助手、教育软件和客户服务系统等领域。例如,智能助手可以通过该数据集提升其在日常对话中的理解能力,从而更准确地回答用户的问题。教育软件则可以利用该数据集设计更具挑战性的学习任务,帮助学生提升逻辑思维和常识推理能力。客户服务系统通过引入常识推理能力,能够更高效地处理复杂的用户咨询。
数据集最近研究
最新研究方向
在自然语言处理领域,CommonsenseQA数据集因其对常识推理能力的高要求而备受关注。近年来,研究者们致力于通过深度学习模型提升对常识问题的理解和回答能力。特别是,基于Transformer架构的预训练模型,如BERT和GPT系列,已被广泛应用于该数据集,以捕捉复杂的语义关系和常识知识。此外,多模态学习方法的引入,结合视觉和文本信息,进一步推动了模型在常识推理任务上的表现。这些研究不仅提升了模型的准确率,也为构建更加智能的问答系统提供了新的思路。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

RadDet

RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。

github 收录