ybisk/piqa

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/ybisk/piqa

下载链接

链接失效反馈

资源简介：

PIQA数据集旨在通过物理常识推理任务来挑战自然语言理解系统。数据集包含日常生活中的问题，特别是那些需要非典型解决方案的问题。数据集的结构包括目标问题、两个可能的解决方案和正确的解决方案标签。数据集分为训练集、测试集和验证集，分别包含16113、3084和1838个示例。数据集的创建灵感来源于instructables.com，该网站提供了使用日常材料进行各种活动的指导。数据集的注释由付费的众包人员完成，并且在验证过程中移除了低一致性的示例。

提供机构：

ybisk

原始信息汇总

数据集概述

数据集名称： Physical Interaction: Question Answering (PIQA)

数据集简介： PIQA是一个专注于物理常识推理的问答数据集，旨在评估和推动自然语言理解系统在日常物理交互场景中的应用。

数据集特性

语言： 英语 (en)
许可证： 未知
多语言性： 单语种
大小类别： 10,000 < n < 100,000
源数据集： 原创数据集
任务类别： 问答
任务ID： 多项选择问答 (multiple-choice-qa)

数据集结构

数据实例

目标（goal）： 描述需要物理常识来正确回答的问题。
解决方案1（sol1）： 第一个解决方案。
解决方案2（sol2）： 第二个解决方案。
标签（label）： 正确解决方案的指示，0 对应 sol1，1 对应 sol2。

数据分割

训练集： 包含16,113个例子，总字节数为4,104,026。
测试集： 包含3,084个例子，总字节数为761,521。
验证集： 包含1,838个例子，总字节数为464,321。

数据集创建

来源数据： 数据集灵感来源于instructables.com，一个提供各种日常材料使用指导的网站。
注释过程： 通过众包方式完成，注释者为付费众包工作者。
初始数据收集和标准化： 通过验证移除低一致性的例子，并使用AFLite算法清理数据以提高质量。

许可证信息

许可证： 未知

引用信息

@inproceedings{Bisk2020, author = {Yonatan Bisk and Rowan Zellers and Ronan Le Bras and Jianfeng Gao and Yejin Choi}, title = {PIQA: Reasoning about Physical Commonsense in Natural Language}, booktitle = {Thirty-Fourth AAAI Conference on Artificial Intelligence}, year = {2020}, }

AI搜集汇总

数据集介绍

构建方式

PIQA数据集的构建基于物理常识推理的需求，旨在通过日常生活中的实际问题来测试自然语言理解系统的能力。数据集的灵感来源于instructables.com，该网站提供了大量关于如何使用日常材料进行制作、修理等任务的指南。构建过程中，标注者被要求从这些指南中提取或构建两个子任务，分别描述目标和实现目标的方法，并提供一个无效的解决方案。数据集通过众包方式收集，经过验证和清理，去除了低一致性和风格化的人工制品，以确保数据质量。

特点

PIQA数据集的核心特点在于其专注于物理常识推理，涵盖了日常生活中不常见的解决方案，强调了非典型材料的使用。数据集包含16,000个训练样本、2,000个开发样本和3,000个测试样本，所有文本均为英语。每个样本包含一个问题（goal）、两个解决方案（sol1和sol2）以及一个标签（label），标签指示哪个解决方案是正确的。测试集不包含标签，预测结果需提交至排行榜进行评估。

使用方法

PIQA数据集主要用于多选题问答任务，模型需要根据给定的问题和两个可能的解决方案，选择最合适的答案。使用时，可以加载训练集、开发集和测试集进行模型训练和评估。测试集的预测结果需提交至官方排行榜以获取性能评估。数据集的特征包括问题（goal）、两个解决方案（sol1和sol2）以及标签（label），标签指示正确答案。通过该数据集，研究者可以评估模型在物理常识推理任务中的表现。

背景与挑战

背景概述

PIQA（Physical Interaction: Question Answering）数据集由Yonatan Bisk等人于2020年创建，旨在推动自然语言理解系统在物理常识推理方面的能力。该数据集的核心研究问题是如何通过自然语言处理技术解决涉及日常物理交互的多项选择问题。PIQA的构建灵感来源于instructables.com，该网站提供了大量关于如何使用日常材料进行手工制作、修理等任务的指南。通过引入这一数据集，研究者们希望推动人工智能在理解物理世界中的应用，尤其是在机器人与环境交互的场景中。PIQA的发布对自然语言处理领域具有重要意义，因为它为评估和提升模型在物理常识推理方面的能力提供了基准。

当前挑战

PIQA数据集的主要挑战在于其任务的复杂性，即要求模型具备物理常识推理能力，以从两个可能的解决方案中选择正确的答案。构建过程中，数据集的创建者面临了如何确保问题和答案的多样性以及如何避免模型通过简单的模式识别而非真正的物理常识推理来解决问题。此外，数据集的标注过程依赖于众包，这可能导致标注质量的不一致性。为了应对这些挑战，研究者们采用了对抗性过滤算法来清理数据，以确保数据集的质量和难度。尽管如此，PIQA仍然面临如何进一步减少偏见和提升标注一致性的问题，以及如何在更广泛的物理交互场景中验证模型的泛化能力。

常用场景

经典使用场景

PIQA数据集的经典使用场景主要集中在物理常识推理任务中，特别是在多选题问答（multiple-choice question answering）领域。该数据集通过提供日常生活中的物理常识问题及其两个可能的解决方案，要求模型或人类选择最合适的答案。这种任务设计有助于评估和提升自然语言理解系统在处理物理常识问题上的能力，尤其是在涉及日常物品和非典型解决方案的情境中。

衍生相关工作

PIQA数据集的发布激发了许多相关研究工作，特别是在物理常识推理和多选题问答领域。例如，一些研究者利用PIQA数据集开发了新的模型和算法，以提高物理常识推理的准确性。此外，PIQA还启发了其他类似数据集的创建，如扩展到其他语言或领域的物理常识问答数据集，进一步推动了该领域的研究和发展。

数据集最近研究