WebQuestions QA Benchmarking Dataset|问答系统数据集|基准测试数据集
收藏数据集概述
数据集名称
WebQuestions QA Benchmarking Dataset
数据集目的
用于基准测试QA引擎,特别是那些针对结构化知识库工作的引擎。
数据集版本
这是一个开发版本,使用时需引用Git仓库和最后提交的日期+shortid。
数据集许可证
CC-BY 4.0
数据集结构
main/
: 包含数据集的分发分割。d-dump/
: 包含来自YodaQA的问题转储。d-freebase/
: 包含问题到单个Freebase键的映射。d-freebase-mids/
: 包含每个问题中每个概念的Freebase mids。d-freebase-rp/
: 包含自定义计算的Freebase关系路径。d-freebase-brp/
: 包含自定义计算的分支Freebase关系路径。d-entities/
: 包含在问题文本中检测到的实体出现。t-movies/
: 包含与电影主题相关的问题子分割。
数据集分割
- train (3778 q)
- test (2032 q)
- devtest (189 q)
- val (755 q)
- trainmodel (2834 q)
数据模型
- 问题标识符格式:"wqr%06d" (train) 或 "wqs%06d" (test)
- 主JSON文件包含每个问题的单个对象,具有"qId"、"qText"和"answers"属性。
数据集生成脚本
scripts/dump-refresh.sh
: 用于重新生成某些子分割。scripts/mktrain.py
: 用于生成完整的train分割的.json文件。scripts/fulldata.py
: 用于构建每个分割的完整数据文件。scripts/json2tsv.pl
: 用于构建YodaQA兼容的TSV格式数据集。

中国光伏电站空间分布ChinaPV数据集(2015,2020年)
该数据集是中国光伏电站空间分布ChinaPV数据,数据时间为2015和2020年。该数据集以Landsat-8卫星影像为数据源,处理方法是基于GEE遥感云计算平台,运用随机森林分类模型对2020年中国光伏电站进行遥感提取,后经过形态学运算,灯光数据滤除,轮廓细化及目视解译等后处理操作生成。该数据详细描述了中国区域内每个光伏电站的面积和地理位置信息,反映了中国地区光伏电站发展现状及其地域分布规律,以ESRI Shapefile格式存储。
国家地球系统科学数据中心 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
ECMWF Reanalysis v5 (ERA5)
ERA5 是第五代 ECMWF 全球气候大气再分析,涵盖从 1940 年 1 月至今的时期。ERA5 由 ECMWF 的哥白尼气候变化服务 (C3S) 制作。 ERA5 提供大量大气、陆地和海洋气候变量的每小时估计值。这些数据以 30 公里的网格覆盖地球,并使用从地表到 80 公里高度的 137 个级别解析大气。ERA5 包括有关所有变量在降低空间和时间分辨率下的不确定性的信息。
OpenDataLab 收录
DermNet
DermNet是一个包含皮肤病图像的数据集,涵盖了多种皮肤病类型,如痤疮、湿疹、牛皮癣等。该数据集主要用于皮肤病诊断和研究。
www.dermnetnz.org 收录