NetEaseCrowd

github2024-04-01 更新2024-05-31 收录

下载链接：

https://github.com/fuxiAIlab/NetEaseCrowd-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

NetEaseCrowd是一个大规模的众包标注数据集，基于网易公司的成熟中文数据众包平台。该数据集包含约2,400名工作者，1,000,000个任务，以及6,000,000个标注，这些标注在约6个月的时间内收集。数据集提供了所有任务的真相标签，并记录了所有标注的时间戳。

NetEaseCrowd is a large-scale crowdsourced annotation dataset, built upon the mature Chinese data crowdsourcing platform of NetEase. This dataset encompasses approximately 2,400 workers, 1,000,000 tasks, and 6,000,000 annotations, collected over a period of about six months. The dataset provides ground truth labels for all tasks and records the timestamps of all annotations.

创建时间：

2024-02-02

原始信息汇总

数据集概述

数据集名称

NetEaseCrowd

数据集描述

NetEaseCrowd 是一个基于网易公司成熟的中文数据众包平台的大规模众包标注数据集。该数据集包含约 2,400 名工作者，1,000,000 个任务，以及 6,000,000 个标注，这些标注在约6个月的时间内收集。数据集为所有任务提供了基本事实，并记录了所有标注的时间戳。

任务类型

数据集基于一个手势比较任务构建，每个任务包含三个选项，其中两个是相似的手势，另一个不同。标注者需要挑选出不同的那个。

数据集特点

Scalability: 与现有数据集相比，NetEaseCrowd 数据集规模更大，包含6百万个标注。
Timestamps: 数据集记录了完整的时间戳，覆盖6个月的时长。
Task Type: 数据集包含多种任务类型，要求不同的能力。

数据集统计

#Worker: 2,413
#Task: 999,799
#Groundtruth: 999,799
#Annotations: 6,016,319
Avg(#Annotations/worker): 2,493.3
Avg(#Annotations/task): 6.0
Timestamp: ✔︎
Task type: Multiple

数据内容和格式

数据获取方式:
- 直接从 Hugging Face 下载整个数据集（推荐）。
- 从 data/ 文件夹下载分割的CSV文件，然后合并以获得完整数据集。
数据格式:
- 每条记录代表一个工作者和一个任务之间的交互，包含以下列：
  - taskId: 任务的唯一ID。
  - tasksetId: 任务集的唯一ID。
  - workerId: 工作者的唯一ID。
  - answer: 工作者给出的标注，从0开始编号。
  - completeTime: 标注完成的时间戳。
  - truth: 任务的基本事实，与答案一致，从0开始编号。
  - capability: 任务集所需能力的唯一ID。

基准模型

数据集测试了多种现有的真相推理方法，详细分析和实验设置可参见论文。

数据集集成

数据集已集成到 crowd-kit，可以直接在代码中使用。

搜集汇总

数据集介绍

构建方式

NetEaseCrowd数据集基于网易公司成熟的众包平台构建，涵盖了约2,400名工作者、1,000,000项任务以及6,000,000条标注数据。数据收集历时约6个月，所有任务均提供了真实标签，并记录了每条标注的时间戳。该数据集包含6种不同类型的任务，每种任务对应不同的能力要求，确保了数据的多样性和复杂性。

使用方法

NetEaseCrowd数据集可通过Hugging Face平台直接下载，或从GitHub仓库的`data/`文件夹中获取分区的CSV文件。数据集每条记录包含任务ID、任务集ID、工作者ID、标注答案、完成时间戳、真实标签及所需能力ID等信息。用户可通过`crowd-kit`库直接加载数据集，并使用现有的真值推断方法进行实验，如Dawid-Skene等，以验证算法的有效性。

背景与挑战

背景概述

NetEaseCrowd数据集由网易公司于2024年推出，旨在为长期在线众包任务中的真值推断问题提供大规模数据支持。该数据集基于网易成熟的众包平台，涵盖了约2,400名工作者、1,000,000个任务以及6,000,000条标注数据，数据采集时间跨度长达6个月。NetEaseCrowd不仅为所有任务提供了真值标签，还记录了每条标注的时间戳，使其成为研究众包任务动态变化的重要资源。该数据集的发布为众包领域的研究提供了新的视角，尤其是在任务类型多样性和时间维度分析方面具有显著优势。

当前挑战

NetEaseCrowd数据集在解决众包真值推断问题时面临多重挑战。首先，众包任务的真值推断本身具有复杂性，尤其是在任务类型多样且工作者能力参差不齐的情况下，如何准确推断真值成为核心难题。其次，数据集的构建过程中，如何确保大规模数据的质量与一致性，同时保护工作者隐私，是技术实现上的重要挑战。此外，由于数据采集时间跨度较长，如何有效处理时间维度上的动态变化，例如工作者能力随时间的变化，也是该数据集需要解决的关键问题。这些挑战不仅考验了数据集的构建技术，也为相关算法的设计与优化提供了新的研究方向。

常用场景

经典使用场景

NetEaseCrowd数据集在众包标注领域具有广泛的应用，尤其是在长期在线众包任务中表现突出。该数据集通过记录大量任务、工人及其标注的时间戳，为研究者提供了一个丰富的实验平台。经典的使用场景包括众包标注任务的真实性推断、工人能力评估以及任务类型对标注质量的影响分析。通过该数据集，研究者能够深入探讨众包标注中的动态变化和长期趋势。

解决学术问题

NetEaseCrowd数据集解决了众包标注领域中的多个关键学术问题。首先，它通过提供大规模、多样化的任务类型和长期时间戳数据，填补了现有数据集在规模和时效性上的不足。其次，该数据集为真实性推断算法的验证和优化提供了坚实的基础，尤其是在在线部署场景中。此外，数据集中的任务类型多样性为研究不同任务对工人标注能力的影响提供了宝贵的数据支持，推动了众包标注领域的理论发展。

实际应用

在实际应用中，NetEaseCrowd数据集为众包平台的运营和优化提供了重要参考。例如，平台可以通过分析该数据集中的工人标注行为和时间戳数据，优化任务分配策略，提高标注效率和质量。此外，数据集中的真实性推断结果可以用于自动筛选高质量标注，减少人工审核成本。在人工智能训练数据的生成过程中，该数据集也为标注数据的质量控制提供了可靠依据，提升了模型训练的准确性。

数据集最近研究