five

AmazonScience/mintaka|问答系统数据集|自然语言处理数据集

收藏
hugging_face2022-10-28 更新2024-03-04 收录
问答系统
自然语言处理
下载链接:
https://hf-mirror.com/datasets/AmazonScience/mintaka
下载链接
链接失效反馈
资源简介:
Mintaka是一个复杂、自然且多语言的问答数据集,包含20,000个问答对,这些问题由MTurk工作者提出,并使用Wikidata的问答实体进行注释。数据集涵盖了8种复杂类型的问题和8个类别的内容,包括电影、音乐、体育、书籍、地理、政治、视频游戏和历史。问题最初以英语编写,并被翻译成阿拉伯语、法语、德语、印地语、意大利语、日语、葡萄牙语和西班牙语。Mintaka是首批可用于端到端问答模型的大规模复杂、自然且多语言的数据集之一。
提供机构:
AmazonScience
原始信息汇总

数据集概述

名称: Mintaka

描述: Mintaka是一个复杂、自然、多语言的问答(QA)数据集,包含20,000个问题-答案对,由MTurk工人从Wikidata中提取的问题和答案实体进行标注。

语言: 英语,以及其他8种语言(阿拉伯语、法语、德语、印地语、意大利语、日语、葡萄牙语、西班牙语)。

数据集大小: 100K<n<1M

许可: CC-BY-4.0

任务类别: 问答(QA)

任务ID: open-domain-qa

数据集结构:

  • 数据实例: 每个实例包括ID、语言、问题、答案文本、类别、复杂性类型、问题实体和答案实体。
  • 数据字段: 包括ID、语言、问题、答案文本、类别、复杂性类型、问题实体和答案实体。
  • 数据分割: 每种语言分为训练集(14,000样本)、开发集(2,000样本)和测试集(4,000样本)。

数据集创建:

  • 来源数据: 原始数据,由MTurk工人收集。
  • 标注: 由专家生成。
  • 个人和敏感信息: 数据集不含个人或敏感信息。

使用考虑:

  • 社会影响: 待补充。
  • 偏见讨论: 待补充。
  • 其他已知限制: 待补充。

附加信息:

  • 数据集管理员: Amazon Alexa AI。
  • 贡献者: 感谢@afaji添加此数据集。
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

CheckManual

CheckManual是一个基于手册的家电操作数据集,由北京大学计算机科学技术系和PKU-Agibot实验室创建。该数据集旨在解决现有家电操作研究中忽视手册重要性、无法理解多页手册的问题。数据集包含家电的CAD模型和对应的手册,共收集了11类、182个家电的CAD模型。每个CAD模型都通过人工验证和大型语言模型辅助,生成包含不同部件功能、操作演示和页面布局的多样化家电手册。此外,数据集还设置了三个基于手册的家电操作挑战赛道,包括操作规划、CAD辅助操作和无CAD操作,以全面评估模型在手册辅助下操作家电的能力。

arXiv 收录

RFUAV

RFUAV数据集是由浙江科技大学信息科学与工程学院开发的高质量原始射频数据集,包含37种不同无人机的约1.3 TB原始频率数据。该数据集旨在解决现有无人机检测数据集类型单一、数据量不足、信号-to-噪声比(SNR)范围有限等问题,提供了丰富的SNR级别和用于特征提取的基准预处理方法及模型评估工具。数据集适用于射频无人机检测和识别,有助于推动相关技术的研究与应用。

arXiv 收录

MIMIC-IV数据库

MIMIC全称是Medical Information Mart for Intensive Care, 是一个重症医学数据库。2003年,在NIH的资助下,来自贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center)、麻省理工(MIT)、牛津大学和麻省总医院(MGH)的急诊科医生、重症科医生、计算机科学专家等共同建立的一个数据库。

github 收录

International Energy Agency (IEA) Statistics

该数据集包含了国际能源署(IEA)提供的全球能源统计数据,涵盖了能源生产、消费、贸易、价格、排放等多个方面。数据集提供了详细的能源相关指标,包括石油、天然气、煤炭、电力、可再生能源等,适用于能源政策分析、市场研究以及学术研究。

www.iea.org 收录