commonsense_qa|问答系统数据集|常识推理数据集

huggingface2024-08-05 更新2024-12-12 收录

问答系统

常识推理

下载链接：

https://huggingface.co/datasets/Sadanto3933/commonsense_qa

下载链接

链接失效反馈

资源简介：

CommonsenseQA是一个新的多选题问答数据集，要求使用不同类型的常识知识来预测正确答案。数据集提供两种主要的训练/验证/测试集划分：'随机划分'和'问题标记划分'，具体细节请参见论文。数据集包含训练集（9741个样本）、验证集（1221个样本）和测试集（1140个样本），每个样本包含唯一ID、问题文本、问题概念、选项（标签和文本）以及答案键。数据集采用英语，并遵循MIT许可证。

创建时间：

2024-07-22

原始信息汇总

数据集概述

数据集描述

名称: CommonsenseQA
语言: 英语 (en)
许可证: MIT
多语言性: 单语种
大小类别: 1K<n<10K
源数据集: 原始数据
任务类别: 问答
任务ID: 开放领域问答
PapersWithCode ID: commonsenseqa
别名: CommonsenseQA

数据集结构

特征

id (string): 唯一ID
question (string): 问题
question_concept (string): 与问题相关的ConceptNet概念
choices (字典):
- label (string): 选项标签
- text (string): 选项文本
answerKey (string): 答案

分割

train
- 字节数: 2207794
- 样本数: 9741
validation
- 字节数: 273848
- 样本数: 1221
test
- 字节数: 257842
- 样本数: 1140

配置

default
- 数据文件:
  - train: data/train-*
  - validation: data/validation-*
  - test: data/test-*

数据集创建

许可证信息

该数据集在MIT许可证下发布。

引用信息

@inproceedings{talmor-etal-2019-commonsenseqa, title = "{C}ommonsense{QA}: A Question Answering Challenge Targeting Commonsense Knowledge", author = "Talmor, Alon and Herzig, Jonathan and Lourie, Nicholas and Berant, Jonathan", booktitle = "Proceedings of the 2019 Conference of the North {A}merican Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)", month = jun, year = "2019", address = "Minneapolis, Minnesota", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/N19-1421", doi = "10.18653/v1/N19-1421", pages = "4149--4158", archivePrefix = "arXiv", eprint = "1811.00937", primaryClass = "cs", }

AI搜集汇总

数据集介绍

构建方式

CommonsenseQA数据集的构建过程依赖于众包策略，通过广泛的社区参与收集问题和答案。数据集的设计旨在涵盖多种常识知识类型，确保问题的多样性和复杂性。每个问题都与ConceptNet中的概念相关联，增强了问题的语义深度和逻辑关联性。

使用方法

使用CommonsenseQA数据集时，研究人员可以通过Hugging Face的`datasets`库轻松加载数据。数据集分为训练集、验证集和测试集，便于进行模型训练和评估。加载后，可以直接访问每个问题的ID、问题文本、相关概念、选项及正确答案，为开发高效的问答系统提供了坚实的基础。

背景与挑战

背景概述

CommonsenseQA数据集由Alon Talmor、Jonathan Herzig等研究人员于2019年创建，旨在通过多选问答任务评估模型对常识知识的理解能力。该数据集基于ConceptNet知识图谱，涵盖了广泛的常识性知识领域，如物理、社会、心理等。其核心研究问题在于如何通过自然语言处理技术，使机器能够像人类一样理解和运用常识知识。CommonsenseQA的发布推动了常识推理领域的研究，成为评估模型常识理解能力的重要基准。

当前挑战

CommonsenseQA数据集面临的主要挑战包括两个方面。首先，常识知识的多样性和复杂性使得模型难以全面捕捉和理解问题背后的隐含逻辑。其次，数据集的构建依赖于众包标注，尽管通过严格的筛选和验证流程，但仍可能存在标注不一致或偏差问题。此外，如何将ConceptNet等外部知识库有效整合到模型中，以提升问答性能，也是当前研究中的一大难题。这些挑战共同推动了常识推理领域的技术创新和方法改进。

常用场景

经典使用场景

CommonsenseQA数据集广泛应用于自然语言处理领域，特别是在开放域问答系统中。该数据集通过提供基于常识的多项选择题，挑战模型在理解问题和选择正确答案时所需的常识推理能力。研究者通常利用该数据集来训练和评估模型在处理复杂语义和逻辑关系时的表现，从而推动问答系统的发展。

解决学术问题

CommonsenseQA数据集解决了自然语言处理领域中的一个关键问题，即如何让机器具备常识推理能力。传统的问答系统往往依赖于大量的事实性知识，而忽视了常识推理的重要性。该数据集的引入填补了这一空白，使得研究者能够开发出更加智能的问答系统，能够在缺乏明确信息的情况下，通过常识推理得出合理的答案。

实际应用

在实际应用中，CommonsenseQA数据集被广泛用于智能助手、教育软件和客户服务机器人等场景。通过利用该数据集训练的模型，这些应用能够更好地理解用户的意图，并提供更加准确和人性化的回答。例如，在教育领域，基于该数据集的问答系统可以帮助学生通过常识推理解决复杂问题，提升学习效果。

数据集最近研究

最新研究方向

CommonsenseQA数据集作为常识推理领域的重要资源，近年来在自然语言处理研究中备受关注。随着大语言模型的兴起，研究者们开始探索如何利用CommonsenseQA来提升模型在复杂常识推理任务中的表现。最新的研究方向集中在多模态知识的融合、上下文感知推理以及跨领域常识迁移等方面。例如，研究者们尝试将视觉信息与文本信息结合，以增强模型对现实世界常识的理解能力。此外，基于CommonsenseQA的零样本学习和少样本学习也成为热点，旨在提高模型在数据稀缺情况下的泛化能力。这些研究不仅推动了常识推理技术的发展，也为构建更加智能的问答系统提供了理论支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息，数据通过爬虫技术获取并整理成CSV格式，用于音乐数据挖掘和推荐系统构建。

github 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集，主要由非网络来源的内部数据构成，包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容，质量优异，信息密度可观。数据集适用于预训练或继续预训练用途，未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用，但建议先使用配套的预训练数据集对模型进行继续预训练后，再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据，以避免灾难性遗忘并加强模型表现。

huggingface 收录

MIMII数据集

MIMII数据集是由日立有限公司研究与开发集团创建的，专注于工业机器异常声音检测的数据集。该数据集包含26,092个正常操作条件下的声音文件，涵盖阀门、泵、风扇和滑轨四种机器类型。数据集的创建过程中，使用了TAMAGO-03麦克风阵列进行声音采集，并在多个真实工厂环境中混合背景噪声以模拟实际环境。MIMII数据集主要用于机器学习和信号处理社区开发自动化设施维护系统，特别是在无监督学习场景下检测机器异常声音。

arXiv 收录