five

NetEaseCrowd|数据众包数据集|标注任务数据集

收藏
github2024-04-01 更新2024-05-31 收录
数据众包
标注任务
下载链接:
https://github.com/fuxiAIlab/NetEaseCrowd-Dataset
下载链接
链接失效反馈
资源简介:
NetEaseCrowd是一个大规模的众包标注数据集,基于网易公司的成熟中文数据众包平台。该数据集包含约2,400名工作者,1,000,000个任务,以及6,000,000个标注,这些标注在约6个月的时间内收集。数据集提供了所有任务的真相标签,并记录了所有标注的时间戳。

NetEaseCrowd is a large-scale crowdsourced annotation dataset, built upon the mature Chinese data crowdsourcing platform of NetEase. This dataset encompasses approximately 2,400 workers, 1,000,000 tasks, and 6,000,000 annotations, collected over a period of about six months. The dataset provides ground truth labels for all tasks and records the timestamps of all annotations.
创建时间:
2024-02-02
原始信息汇总

数据集概述

数据集名称

  • NetEaseCrowd

数据集描述

  • NetEaseCrowd 是一个基于网易公司成熟的中文数据众包平台的大规模众包标注数据集。该数据集包含约 2,400 名工作者,1,000,000 个任务,以及 6,000,000 个标注,这些标注在约6个月的时间内收集。数据集为所有任务提供了基本事实,并记录了所有标注的时间戳。

任务类型

  • 数据集基于一个手势比较任务构建,每个任务包含三个选项,其中两个是相似的手势,另一个不同。标注者需要挑选出不同的那个。

数据集特点

  • Scalability: 与现有数据集相比,NetEaseCrowd 数据集规模更大,包含6百万个标注。
  • Timestamps: 数据集记录了完整的时间戳,覆盖6个月的时长。
  • Task Type: 数据集包含多种任务类型,要求不同的能力。

数据集统计

  • #Worker: 2,413
  • #Task: 999,799
  • #Groundtruth: 999,799
  • #Annotations: 6,016,319
  • Avg(#Annotations/worker): 2,493.3
  • Avg(#Annotations/task): 6.0
  • Timestamp: ✔︎
  • Task type: Multiple

数据内容和格式

  • 数据获取方式:
    • 直接从 Hugging Face 下载整个数据集(推荐)。
    • data/ 文件夹 下载分割的CSV文件,然后合并以获得完整数据集。
  • 数据格式:
    • 每条记录代表一个工作者和一个任务之间的交互,包含以下列:
      • taskId: 任务的唯一ID。
      • tasksetId: 任务集的唯一ID。
      • workerId: 工作者的唯一ID。
      • answer: 工作者给出的标注,从0开始编号。
      • completeTime: 标注完成的时间戳。
      • truth: 任务的基本事实,与答案一致,从0开始编号。
      • capability: 任务集所需能力的唯一ID。

基准模型

  • 数据集测试了多种现有的真相推理方法,详细分析和实验设置可参见论文。

数据集集成

  • 数据集已集成到 crowd-kit,可以直接在代码中使用。
AI搜集汇总
数据集介绍
main_image_url
构建方式
NetEaseCrowd数据集基于网易公司成熟的众包平台构建,涵盖了约2,400名工作者、1,000,000项任务以及6,000,000条标注数据。数据收集历时约6个月,所有任务均提供了真实标签,并记录了每条标注的时间戳。该数据集包含6种不同类型的任务,每种任务对应不同的能力要求,确保了数据的多样性和复杂性。
使用方法
NetEaseCrowd数据集可通过Hugging Face平台直接下载,或从GitHub仓库的`data/`文件夹中获取分区的CSV文件。数据集每条记录包含任务ID、任务集ID、工作者ID、标注答案、完成时间戳、真实标签及所需能力ID等信息。用户可通过`crowd-kit`库直接加载数据集,并使用现有的真值推断方法进行实验,如Dawid-Skene等,以验证算法的有效性。
背景与挑战
背景概述
NetEaseCrowd数据集由网易公司于2024年推出,旨在为长期在线众包任务中的真值推断问题提供大规模数据支持。该数据集基于网易成熟的众包平台,涵盖了约2,400名工作者、1,000,000个任务以及6,000,000条标注数据,数据采集时间跨度长达6个月。NetEaseCrowd不仅为所有任务提供了真值标签,还记录了每条标注的时间戳,使其成为研究众包任务动态变化的重要资源。该数据集的发布为众包领域的研究提供了新的视角,尤其是在任务类型多样性和时间维度分析方面具有显著优势。
当前挑战
NetEaseCrowd数据集在解决众包真值推断问题时面临多重挑战。首先,众包任务的真值推断本身具有复杂性,尤其是在任务类型多样且工作者能力参差不齐的情况下,如何准确推断真值成为核心难题。其次,数据集的构建过程中,如何确保大规模数据的质量与一致性,同时保护工作者隐私,是技术实现上的重要挑战。此外,由于数据采集时间跨度较长,如何有效处理时间维度上的动态变化,例如工作者能力随时间的变化,也是该数据集需要解决的关键问题。这些挑战不仅考验了数据集的构建技术,也为相关算法的设计与优化提供了新的研究方向。
常用场景
经典使用场景
NetEaseCrowd数据集在众包标注领域具有广泛的应用,尤其是在长期在线众包任务中表现突出。该数据集通过记录大量任务、工人及其标注的时间戳,为研究者提供了一个丰富的实验平台。经典的使用场景包括众包标注任务的真实性推断、工人能力评估以及任务类型对标注质量的影响分析。通过该数据集,研究者能够深入探讨众包标注中的动态变化和长期趋势。
解决学术问题
NetEaseCrowd数据集解决了众包标注领域中的多个关键学术问题。首先,它通过提供大规模、多样化的任务类型和长期时间戳数据,填补了现有数据集在规模和时效性上的不足。其次,该数据集为真实性推断算法的验证和优化提供了坚实的基础,尤其是在在线部署场景中。此外,数据集中的任务类型多样性为研究不同任务对工人标注能力的影响提供了宝贵的数据支持,推动了众包标注领域的理论发展。
实际应用
在实际应用中,NetEaseCrowd数据集为众包平台的运营和优化提供了重要参考。例如,平台可以通过分析该数据集中的工人标注行为和时间戳数据,优化任务分配策略,提高标注效率和质量。此外,数据集中的真实性推断结果可以用于自动筛选高质量标注,减少人工审核成本。在人工智能训练数据的生成过程中,该数据集也为标注数据的质量控制提供了可靠依据,提升了模型训练的准确性。
数据集最近研究
最新研究方向
在众包数据标注领域,NetEaseCrowd数据集的推出为长期在线众包任务的真值推断研究提供了新的视角。该数据集以其大规模、多样化的任务类型以及完整的时间戳记录,显著区别于现有数据集,为研究者提供了丰富的实验素材。当前研究热点集中在如何利用时间序列数据优化众包任务的真值推断算法,特别是在动态环境下对工人能力的实时评估与任务分配策略的优化。此外,该数据集的多任务类型特性也推动了跨任务能力迁移学习的研究,为众包平台的高效运营提供了理论支持。NetEaseCrowd的发布不仅填补了长期在线众包数据集的空白,还为众包领域的算法创新与平台优化提供了重要的数据基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

UAV123

从低空无人机捕获的视频与流行的跟踪数据集 (如OTB50,OTB100,VOT2014,VOT2015,TC128和ALOV300) 中的视频本质上不同。因此,我们提出了一个新的数据集 (UAV123),其序列来自空中视点,其子集用于长期空中跟踪 (UAV20L)。我们新的UAV123数据集包含总共123个视频序列和超过110K帧,使其成为仅次于ALOV300的第二大对象跟踪数据集。所有序列都用直立的边界框完全注释。数据集可以很容易地与视觉跟踪器基准集成。它包括无人机数据集的所有边界框和属性注释。还请使用包含序列和跟踪器配置的修改后的文件 “configSeqs.m” 和 “configTrackers.m” 下载修改后的跟踪器基准。另外,请注意,文件 “perfPlot.m” 已根据本文中描述的属性进行了修改以进行评估。

OpenDataLab 收录

UCF-Crime

UCF-犯罪数据集是128小时视频的新型大规模第一个数据集。它包含1900年长而未修剪的真实世界监控视频,其中包含13个现实异常,包括虐待,逮捕,纵火,殴打,道路交通事故,入室盗窃,爆炸,战斗,抢劫,射击,偷窃,入店行窃和故意破坏。之所以选择这些异常,是因为它们对公共安全有重大影响。这个数据集可以用于两个任务。首先,考虑一组中的所有异常和另一组中的所有正常活动的一般异常检测。第二,用于识别13个异常活动中的每一个。

OpenDataLab 收录

Allen Brain Atlas

Allen Brain Atlas 是一个综合性的脑图谱数据库,提供了详细的大脑解剖结构、基因表达数据、神经元连接信息等。该数据集包括了小鼠、人类和其他模式生物的大脑数据,旨在帮助研究人员理解大脑的结构和功能。

portal.brain-map.org 收录

RFUAV

RFUAV数据集是由浙江科技大学信息科学与工程学院开发的高质量原始射频数据集,包含37种不同无人机的约1.3 TB原始频率数据。该数据集旨在解决现有无人机检测数据集类型单一、数据量不足、信号-to-噪声比(SNR)范围有限等问题,提供了丰富的SNR级别和用于特征提取的基准预处理方法及模型评估工具。数据集适用于射频无人机检测和识别,有助于推动相关技术的研究与应用。

arXiv 收录