AmazonScience/mintaka|问答系统数据集|自然语言处理数据集
收藏数据集概述
名称: Mintaka
描述: Mintaka是一个复杂、自然、多语言的问答(QA)数据集,包含20,000个问题-答案对,由MTurk工人从Wikidata中提取的问题和答案实体进行标注。
语言: 英语,以及其他8种语言(阿拉伯语、法语、德语、印地语、意大利语、日语、葡萄牙语、西班牙语)。
数据集大小: 100K<n<1M
许可: CC-BY-4.0
任务类别: 问答(QA)
任务ID: open-domain-qa
数据集结构:
- 数据实例: 每个实例包括ID、语言、问题、答案文本、类别、复杂性类型、问题实体和答案实体。
- 数据字段: 包括ID、语言、问题、答案文本、类别、复杂性类型、问题实体和答案实体。
- 数据分割: 每种语言分为训练集(14,000样本)、开发集(2,000样本)和测试集(4,000样本)。
数据集创建:
- 来源数据: 原始数据,由MTurk工人收集。
- 标注: 由专家生成。
- 个人和敏感信息: 数据集不含个人或敏感信息。
使用考虑:
- 社会影响: 待补充。
- 偏见讨论: 待补充。
- 其他已知限制: 待补充。
附加信息:
- 数据集管理员: Amazon Alexa AI。
- 贡献者: 感谢@afaji添加此数据集。
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
CheckManual
CheckManual是一个基于手册的家电操作数据集,由北京大学计算机科学技术系和PKU-Agibot实验室创建。该数据集旨在解决现有家电操作研究中忽视手册重要性、无法理解多页手册的问题。数据集包含家电的CAD模型和对应的手册,共收集了11类、182个家电的CAD模型。每个CAD模型都通过人工验证和大型语言模型辅助,生成包含不同部件功能、操作演示和页面布局的多样化家电手册。此外,数据集还设置了三个基于手册的家电操作挑战赛道,包括操作规划、CAD辅助操作和无CAD操作,以全面评估模型在手册辅助下操作家电的能力。
arXiv 收录
RFUAV
RFUAV数据集是由浙江科技大学信息科学与工程学院开发的高质量原始射频数据集,包含37种不同无人机的约1.3 TB原始频率数据。该数据集旨在解决现有无人机检测数据集类型单一、数据量不足、信号-to-噪声比(SNR)范围有限等问题,提供了丰富的SNR级别和用于特征提取的基准预处理方法及模型评估工具。数据集适用于射频无人机检测和识别,有助于推动相关技术的研究与应用。
arXiv 收录
MIMIC-IV数据库
MIMIC全称是Medical Information Mart for Intensive Care, 是一个重症医学数据库。2003年,在NIH的资助下,来自贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center)、麻省理工(MIT)、牛津大学和麻省总医院(MGH)的急诊科医生、重症科医生、计算机科学专家等共同建立的一个数据库。
github 收录
International Energy Agency (IEA) Statistics
该数据集包含了国际能源署(IEA)提供的全球能源统计数据,涵盖了能源生产、消费、贸易、价格、排放等多个方面。数据集提供了详细的能源相关指标,包括石油、天然气、煤炭、电力、可再生能源等,适用于能源政策分析、市场研究以及学术研究。
www.iea.org 收录