five

ybisk/piqa|问答系统数据集|物理常识推理数据集

收藏
hugging_face2024-01-18 更新2024-05-25 收录
问答系统
物理常识推理
下载链接:
https://hf-mirror.com/datasets/ybisk/piqa
下载链接
链接失效反馈
资源简介:
PIQA数据集旨在通过物理常识推理任务来挑战自然语言理解系统。数据集包含日常生活中的问题,特别是那些需要非典型解决方案的问题。数据集的结构包括目标问题、两个可能的解决方案和正确的解决方案标签。数据集分为训练集、测试集和验证集,分别包含16113、3084和1838个示例。数据集的创建灵感来源于instructables.com,该网站提供了使用日常材料进行各种活动的指导。数据集的注释由付费的众包人员完成,并且在验证过程中移除了低一致性的示例。

PIQA数据集旨在通过物理常识推理任务来挑战自然语言理解系统。数据集包含日常生活中的问题,特别是那些需要非典型解决方案的问题。数据集的结构包括目标问题、两个可能的解决方案和正确的解决方案标签。数据集分为训练集、测试集和验证集,分别包含16113、3084和1838个示例。数据集的创建灵感来源于instructables.com,该网站提供了使用日常材料进行各种活动的指导。数据集的注释由付费的众包人员完成,并且在验证过程中移除了低一致性的示例。
提供机构:
ybisk
原始信息汇总

数据集概述

数据集名称: Physical Interaction: Question Answering (PIQA)

数据集简介: PIQA是一个专注于物理常识推理的问答数据集,旨在评估和推动自然语言理解系统在日常物理交互场景中的应用。

数据集特性

  • 语言: 英语 (en)
  • 许可证: 未知
  • 多语言性: 单语种
  • 大小类别: 10,000 < n < 100,000
  • 源数据集: 原创数据集
  • 任务类别: 问答
  • 任务ID: 多项选择问答 (multiple-choice-qa)

数据集结构

数据实例

  • 目标(goal): 描述需要物理常识来正确回答的问题。
  • 解决方案1(sol1): 第一个解决方案。
  • 解决方案2(sol2): 第二个解决方案。
  • 标签(label): 正确解决方案的指示,0 对应 sol11 对应 sol2

数据分割

  • 训练集: 包含16,113个例子,总字节数为4,104,026。
  • 测试集: 包含3,084个例子,总字节数为761,521。
  • 验证集: 包含1,838个例子,总字节数为464,321。

数据集创建

  • 来源数据: 数据集灵感来源于instructables.com,一个提供各种日常材料使用指导的网站。
  • 注释过程: 通过众包方式完成,注释者为付费众包工作者。
  • 初始数据收集和标准化: 通过验证移除低一致性的例子,并使用AFLite算法清理数据以提高质量。

许可证信息

  • 许可证: 未知

引用信息

@inproceedings{Bisk2020, author = {Yonatan Bisk and Rowan Zellers and Ronan Le Bras and Jianfeng Gao and Yejin Choi}, title = {PIQA: Reasoning about Physical Commonsense in Natural Language}, booktitle = {Thirty-Fourth AAAI Conference on Artificial Intelligence}, year = {2020}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
PIQA数据集的构建基于物理常识推理的需求,旨在通过日常生活中的实际问题来测试自然语言理解系统的能力。数据集的灵感来源于instructables.com,该网站提供了大量关于如何使用日常材料进行制作、修理等任务的指南。构建过程中,标注者被要求从这些指南中提取或构建两个子任务,分别描述目标和实现目标的方法,并提供一个无效的解决方案。数据集通过众包方式收集,经过验证和清理,去除了低一致性和风格化的人工制品,以确保数据质量。
特点
PIQA数据集的核心特点在于其专注于物理常识推理,涵盖了日常生活中不常见的解决方案,强调了非典型材料的使用。数据集包含16,000个训练样本、2,000个开发样本和3,000个测试样本,所有文本均为英语。每个样本包含一个问题(goal)、两个解决方案(sol1和sol2)以及一个标签(label),标签指示哪个解决方案是正确的。测试集不包含标签,预测结果需提交至排行榜进行评估。
使用方法
PIQA数据集主要用于多选题问答任务,模型需要根据给定的问题和两个可能的解决方案,选择最合适的答案。使用时,可以加载训练集、开发集和测试集进行模型训练和评估。测试集的预测结果需提交至官方排行榜以获取性能评估。数据集的特征包括问题(goal)、两个解决方案(sol1和sol2)以及标签(label),标签指示正确答案。通过该数据集,研究者可以评估模型在物理常识推理任务中的表现。
背景与挑战
背景概述
PIQA(Physical Interaction: Question Answering)数据集由Yonatan Bisk等人于2020年创建,旨在推动自然语言理解系统在物理常识推理方面的能力。该数据集的核心研究问题是如何通过自然语言处理技术解决涉及日常物理交互的多项选择问题。PIQA的构建灵感来源于instructables.com,该网站提供了大量关于如何使用日常材料进行手工制作、修理等任务的指南。通过引入这一数据集,研究者们希望推动人工智能在理解物理世界中的应用,尤其是在机器人与环境交互的场景中。PIQA的发布对自然语言处理领域具有重要意义,因为它为评估和提升模型在物理常识推理方面的能力提供了基准。
当前挑战
PIQA数据集的主要挑战在于其任务的复杂性,即要求模型具备物理常识推理能力,以从两个可能的解决方案中选择正确的答案。构建过程中,数据集的创建者面临了如何确保问题和答案的多样性以及如何避免模型通过简单的模式识别而非真正的物理常识推理来解决问题。此外,数据集的标注过程依赖于众包,这可能导致标注质量的不一致性。为了应对这些挑战,研究者们采用了对抗性过滤算法来清理数据,以确保数据集的质量和难度。尽管如此,PIQA仍然面临如何进一步减少偏见和提升标注一致性的问题,以及如何在更广泛的物理交互场景中验证模型的泛化能力。
常用场景
经典使用场景
PIQA数据集的经典使用场景主要集中在物理常识推理任务中,特别是在多选题问答(multiple-choice question answering)领域。该数据集通过提供日常生活中的物理常识问题及其两个可能的解决方案,要求模型或人类选择最合适的答案。这种任务设计有助于评估和提升自然语言理解系统在处理物理常识问题上的能力,尤其是在涉及日常物品和非典型解决方案的情境中。
衍生相关工作
PIQA数据集的发布激发了许多相关研究工作,特别是在物理常识推理和多选题问答领域。例如,一些研究者利用PIQA数据集开发了新的模型和算法,以提高物理常识推理的准确性。此外,PIQA还启发了其他类似数据集的创建,如扩展到其他语言或领域的物理常识问答数据集,进一步推动了该领域的研究和发展。
数据集最近研究
最新研究方向
近年来,物理常识推理在自然语言处理领域引起了广泛关注,PIQA数据集作为该领域的代表性资源,推动了模型在日常物理交互情境中的理解与推理能力。研究者们致力于通过PIQA数据集提升模型对非典型解决方案的识别能力,并探索其在机器人交互、智能家居等实际应用中的潜力。此外,PIQA数据集的引入也促进了对抗性过滤技术的改进,以提高数据集的质量和模型的鲁棒性。随着物理常识推理任务的深入研究,PIQA数据集在推动人工智能向更全面的认知能力发展方面具有重要意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

Asteroids by the Minor Planet Center

包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center,格式包括Fortran (.DAT)和JSON,数据集大小为81MB(压缩)和450MB(未压缩),记录数约750,000条,每日更新。

github 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

VoxBox

VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。

github 收录

CMAB

CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。

arXiv 收录