NetEaseCrowd|数据众包数据集|标注任务数据集
收藏数据集概述
数据集名称
- NetEaseCrowd
数据集描述
- NetEaseCrowd 是一个基于网易公司成熟的中文数据众包平台的大规模众包标注数据集。该数据集包含约 2,400 名工作者,1,000,000 个任务,以及 6,000,000 个标注,这些标注在约6个月的时间内收集。数据集为所有任务提供了基本事实,并记录了所有标注的时间戳。
任务类型
- 数据集基于一个手势比较任务构建,每个任务包含三个选项,其中两个是相似的手势,另一个不同。标注者需要挑选出不同的那个。
数据集特点
- Scalability: 与现有数据集相比,NetEaseCrowd 数据集规模更大,包含6百万个标注。
- Timestamps: 数据集记录了完整的时间戳,覆盖6个月的时长。
- Task Type: 数据集包含多种任务类型,要求不同的能力。
数据集统计
- #Worker: 2,413
- #Task: 999,799
- #Groundtruth: 999,799
- #Annotations: 6,016,319
- Avg(#Annotations/worker): 2,493.3
- Avg(#Annotations/task): 6.0
- Timestamp: ✔︎
- Task type: Multiple
数据内容和格式
- 数据获取方式:
- 直接从 Hugging Face 下载整个数据集(推荐)。
- 从
data/
文件夹 下载分割的CSV文件,然后合并以获得完整数据集。
- 数据格式:
- 每条记录代表一个工作者和一个任务之间的交互,包含以下列:
- taskId: 任务的唯一ID。
- tasksetId: 任务集的唯一ID。
- workerId: 工作者的唯一ID。
- answer: 工作者给出的标注,从0开始编号。
- completeTime: 标注完成的时间戳。
- truth: 任务的基本事实,与答案一致,从0开始编号。
- capability: 任务集所需能力的唯一ID。
- 每条记录代表一个工作者和一个任务之间的交互,包含以下列:
基准模型
- 数据集测试了多种现有的真相推理方法,详细分析和实验设置可参见论文。
数据集集成
- 数据集已集成到 crowd-kit,可以直接在代码中使用。

中国1km分辨率逐月降水量数据集(1901-2024)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
UAV123
从低空无人机捕获的视频与流行的跟踪数据集 (如OTB50,OTB100,VOT2014,VOT2015,TC128和ALOV300) 中的视频本质上不同。因此,我们提出了一个新的数据集 (UAV123),其序列来自空中视点,其子集用于长期空中跟踪 (UAV20L)。我们新的UAV123数据集包含总共123个视频序列和超过110K帧,使其成为仅次于ALOV300的第二大对象跟踪数据集。所有序列都用直立的边界框完全注释。数据集可以很容易地与视觉跟踪器基准集成。它包括无人机数据集的所有边界框和属性注释。还请使用包含序列和跟踪器配置的修改后的文件 “configSeqs.m” 和 “configTrackers.m” 下载修改后的跟踪器基准。另外,请注意,文件 “perfPlot.m” 已根据本文中描述的属性进行了修改以进行评估。
OpenDataLab 收录
UCF-Crime
UCF-犯罪数据集是128小时视频的新型大规模第一个数据集。它包含1900年长而未修剪的真实世界监控视频,其中包含13个现实异常,包括虐待,逮捕,纵火,殴打,道路交通事故,入室盗窃,爆炸,战斗,抢劫,射击,偷窃,入店行窃和故意破坏。之所以选择这些异常,是因为它们对公共安全有重大影响。这个数据集可以用于两个任务。首先,考虑一组中的所有异常和另一组中的所有正常活动的一般异常检测。第二,用于识别13个异常活动中的每一个。
OpenDataLab 收录
Allen Brain Atlas
Allen Brain Atlas 是一个综合性的脑图谱数据库,提供了详细的大脑解剖结构、基因表达数据、神经元连接信息等。该数据集包括了小鼠、人类和其他模式生物的大脑数据,旨在帮助研究人员理解大脑的结构和功能。
portal.brain-map.org 收录
RFUAV
RFUAV数据集是由浙江科技大学信息科学与工程学院开发的高质量原始射频数据集,包含37种不同无人机的约1.3 TB原始频率数据。该数据集旨在解决现有无人机检测数据集类型单一、数据量不足、信号-to-噪声比(SNR)范围有限等问题,提供了丰富的SNR级别和用于特征提取的基准预处理方法及模型评估工具。数据集适用于射频无人机检测和识别,有助于推动相关技术的研究与应用。
arXiv 收录