CommonsenseQA

OpenDataLab2026-04-12 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/CommonsenseQA

下载链接

链接失效反馈

资源简介：

CommonsenseQA 是常识问答任务的数据集。该数据集由 12,247 个问题组成，每个问题有 5 个选项。数据集是由 Amazon Mechanical Turk 工作人员在以下过程中生成的（括号中提供了一个示例）：人群工作人员从 ConceptNet（“河流”）和三个目标概念（“瀑布”、“桥梁”、“ Valley”）都通过相同的 ConceptNet 关系（“AtLocation”）相关联，工作人员提出三个问题，每个目标概念一个，这样只有特定的目标概念是答案，而其他两个干扰概念不是，（ “在河上哪里可以在阳光明媚的日子里端起杯子来接水？”，“我在哪里可以站在河上看水落而不湿？”，“我正在过河，我的脚是湿但我的身体是干的，我在哪里？”）对于每个问题，另一位工人从概念网（“卵石”、“溪流”、“银行”）中选择一个额外的干扰物（“卵石”、“溪流”、“银行”），作者选择另一个干扰物（“山”、 “底部”，“岛”）手动。

CommonsenseQA is a dataset for the commonsense question answering task. It comprises 12,247 questions, each with 5 multiple-choice options. The dataset was created by Amazon Mechanical Turk workers via the following process (with an example given in parentheses): Crowd workers first selected a concept from ConceptNet (e.g., "river") and three target concepts ("waterfall", "bridge", "Valley"), all of which were associated with the initial concept through the same ConceptNet relation "AtLocation". The workers then formulated three questions, one for each target concept, such that only the specific target concept was the correct answer, while the other two served as distractors. Examples of such questions are: "Where on a river can you hold up a cup to catch water on a sunny day?", "Where can I stand on a river to watch water fall without getting wet?", and "I am crossing a river, my feet are wet but my body is dry—where am I?". For each question, another worker selected an additional distractor from ConceptNet, with sample distractors being "pebble", "stream", and "bank"; the authors then manually selected another set of distractors, with examples including "mountain", "bottom", and "island".

提供机构：

OpenDataLab

创建时间：

2022-06-28

搜集汇总

数据集介绍

构建方式

CommonsenseQA数据集的构建基于大规模的常识知识库，通过精心设计的问答对形式呈现。研究团队首先从ConceptNet中提取出丰富的常识概念，随后利用这些概念生成多样化的问题。每个问题都附有五个候选答案，其中仅有一个是正确答案。为了确保数据集的质量和多样性，构建过程中还引入了人工审核机制，以纠正和优化生成的问答对。

特点

CommonsenseQA数据集以其高度复杂和多样的常识推理任务著称。该数据集不仅涵盖了广泛的主题领域，如日常生活、社会关系和物理现象，还特别强调了常识推理的深度和广度。每个问题都设计得极具挑战性，要求模型具备超越简单语义理解的能力，能够进行深层次的常识推理。此外，数据集的答案选项设计巧妙，增加了模型的选择难度，从而提升了数据集的实用性和研究价值。

使用方法

CommonsenseQA数据集主要用于评估和提升自然语言处理模型在常识推理任务中的表现。研究者可以通过该数据集测试模型在处理复杂常识问题时的准确性和鲁棒性。使用时，首先需要加载数据集，然后设计或选择合适的模型进行训练和测试。模型在训练过程中，应特别关注如何从上下文中提取和整合常识信息，以提高回答的准确性。此外，研究者还可以通过对比不同模型在该数据集上的表现，来评估和改进模型的常识推理能力。

背景与挑战

背景概述

CommonsenseQA数据集由艾伦人工智能研究所（Allen Institute for AI）于2019年创建，旨在推动自然语言处理领域中常识推理的研究。该数据集的核心研究问题是如何使机器能够理解和应用人类常识，从而提高其在复杂语境中的决策能力。CommonsenseQA的推出，标志着常识推理研究进入了一个新的阶段，为后续研究提供了丰富的资源和基准，极大地推动了人工智能在理解人类语言和行为方面的进展。

当前挑战

CommonsenseQA数据集在构建和应用过程中面临多重挑战。首先，常识推理本身是一个复杂且多维的问题，涉及对日常知识的广泛理解和应用。其次，数据集的构建需要从大量非结构化文本中提取和验证常识信息，这一过程既耗时又容易出错。此外，如何设计有效的评估指标来衡量模型在常识推理任务中的表现，也是一个亟待解决的问题。这些挑战不仅影响了数据集的质量和可靠性，也对后续研究提出了更高的要求。

发展历史

创建时间与更新

CommonsenseQA数据集由艾伦人工智能研究所（Allen Institute for AI）于2019年首次发布，旨在推动常识推理研究。该数据集自发布以来，经历了多次更新，以适应不断发展的研究需求和技术进步。

重要里程碑

CommonsenseQA的发布标志着自然语言处理领域在常识推理方面的重要突破。其首次公开竞赛在2019年的AAAI会议上举行，吸引了全球研究者的广泛关注。随后，数据集在2020年进行了扩展，增加了更多多样化的常识问题，进一步提升了其在学术界和工业界的应用价值。此外，CommonsenseQA还促进了多个相关数据集的开发，如SocialIQA和PhysicalIQA，形成了以常识推理为核心的生态系统。

当前发展情况

当前，CommonsenseQA已成为常识推理研究的标准基准之一，广泛应用于各类自然语言处理模型和算法的评估。其影响力不仅限于学术界，还推动了工业界在智能对话系统和虚拟助手中的应用。随着深度学习技术的不断进步，CommonsenseQA也在持续更新，以包含更多复杂和多样的常识问题，确保其作为评估工具的有效性和前沿性。此外，该数据集还激发了跨学科的研究合作，促进了心理学、认知科学和计算机科学在常识理解方面的交叉研究。

发展历程

CommonsenseQA数据集首次发表于ACL 2019会议，由Alon Talmor等人提出，旨在评估模型对常识知识的理解能力。
2019年
CommonsenseQA数据集被广泛应用于多个自然语言处理任务中，包括问答系统和常识推理模型的评估。
2020年
研究者们开始利用CommonsenseQA数据集进行多模态常识推理的研究，探索图像与文本结合的常识理解能力。
2021年
CommonsenseQA数据集的扩展版本发布，增加了更多的常识问题和答案选项，以进一步提升模型的推理能力。
2022年

常用场景

经典使用场景

在自然语言理解领域，CommonsenseQA数据集被广泛用于评估和提升模型对常识性问题的理解和推理能力。该数据集包含了大量基于常识的问答对，要求模型不仅识别问题的表面信息，还需深入理解背后的常识知识。例如，模型需要回答诸如“为什么鸟儿会飞？”这类问题，这不仅涉及对鸟类飞行能力的理解，还需具备关于生物学和物理学的常识知识。

解决学术问题

CommonsenseQA数据集解决了自然语言处理领域中常识推理的挑战性问题。传统的问答系统往往依赖于文本中的显式信息，而忽略了隐含的常识知识。该数据集通过提供丰富的常识性问题，推动了模型在理解复杂语境和隐含信息方面的进步。这不仅提升了模型的实用性，也为相关研究提供了宝贵的资源，促进了学术界对常识推理机制的深入探讨。

衍生相关工作

基于CommonsenseQA数据集，研究者们开发了多种改进模型和算法，推动了自然语言处理技术的发展。例如，一些研究通过引入外部知识库，增强了模型对常识知识的获取和应用能力。另一些研究则专注于开发新的推理机制，以提高模型在复杂语境下的表现。这些衍生工作不仅丰富了常识推理的研究内容，也为实际应用提供了更多可能性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集