ybisk/piqa|问答系统数据集|物理常识推理数据集
收藏数据集概述
数据集名称: Physical Interaction: Question Answering (PIQA)
数据集简介: PIQA是一个专注于物理常识推理的问答数据集,旨在评估和推动自然语言理解系统在日常物理交互场景中的应用。
数据集特性
- 语言: 英语 (
en
) - 许可证: 未知
- 多语言性: 单语种
- 大小类别: 10,000 < n < 100,000
- 源数据集: 原创数据集
- 任务类别: 问答
- 任务ID: 多项选择问答 (
multiple-choice-qa
)
数据集结构
数据实例
- 目标(goal): 描述需要物理常识来正确回答的问题。
- 解决方案1(sol1): 第一个解决方案。
- 解决方案2(sol2): 第二个解决方案。
- 标签(label): 正确解决方案的指示,
0
对应sol1
,1
对应sol2
。
数据分割
- 训练集: 包含16,113个例子,总字节数为4,104,026。
- 测试集: 包含3,084个例子,总字节数为761,521。
- 验证集: 包含1,838个例子,总字节数为464,321。
数据集创建
- 来源数据: 数据集灵感来源于instructables.com,一个提供各种日常材料使用指导的网站。
- 注释过程: 通过众包方式完成,注释者为付费众包工作者。
- 初始数据收集和标准化: 通过验证移除低一致性的例子,并使用AFLite算法清理数据以提高质量。
许可证信息
- 许可证: 未知
引用信息
@inproceedings{Bisk2020, author = {Yonatan Bisk and Rowan Zellers and Ronan Le Bras and Jianfeng Gao and Yejin Choi}, title = {PIQA: Reasoning about Physical Commonsense in Natural Language}, booktitle = {Thirty-Fourth AAAI Conference on Artificial Intelligence}, year = {2020}, }

Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
Asteroids by the Minor Planet Center
包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center,格式包括Fortran (.DAT)和JSON,数据集大小为81MB(压缩)和450MB(未压缩),记录数约750,000条,每日更新。
github 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
VoxBox
VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。
github 收录
CMAB
CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。
arXiv 收录