CrowdData

github2024-05-09 更新2024-05-31 收录

下载链接：

https://github.com/TrentoCrowdAI/crowdsourced-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

CrowdData是一个开放的数据集仓库，汇集了包含个体投票的众包数据集。我们旨在提供标准格式的可用数据集（详见`下载`部分），以便它们可以直接用于实验，无需预处理工作。本仓库中的数据集主要用于分类任务（主要是文本分类，除了情感数据集）。CrowdData可以惠及研究混合使用机器和人在环分类任务的研究人员（仓库包含5个具有任务实际内容的数据集），人在分类和排序任务，基于众包数据的真相发现，人群偏差的估计，以及主动学习。

CrowdData is an open dataset repository that aggregates crowdsourced datasets containing individual votes. We aim to provide available datasets in a standardized format (see the `Download` section for details) so that they can be directly used for experiments without the need for preprocessing. The datasets in this repository are primarily used for classification tasks (mainly text classification, with the exception of sentiment datasets). CrowdData can benefit researchers studying hybrid machine and human-in-the-loop classification tasks (the repository includes 5 datasets with actual task content), human-involved classification and ranking tasks, truth discovery based on crowdsourced data, estimation of crowd bias, and active learning.

创建时间：

2019-09-28

原始信息汇总

数据集概述

CrowdData是一个开放的数据集仓库，主要收集用于分类任务的众包数据集，特别是文本分类。数据集分为binary-classification和multi-class-classification两个类别，每个数据集都有其独立的文件夹，并包含指向原始来源的链接。

数据集列表

数据集名称	描述	任务数量	工人数量	总投票数	是否有真实标签	任务类型	任务内容	是否有“我不知道”选项	是否包含任务耗时信息
Blue Birds	识别图片是否包含蓝鸟	108	39	4212	是	二元	图片，不可用	否	否
Crowdsourced Amazon Sentiment	对亚马逊产品评论进行情感分析	1011	284	7803	是	二元	文本，可用	否	不可用
Crowdsourced loneliness-slr	评估论文与技术、老年人及干预的相关性	319	34	797	是	二元	文本，不可用	是	不可用
HITspam-UsingCrowdflower	判断Crowdflower数据中的HIT是否为“垃圾”任务	5380	153	42762	部分	二元	文本，不可用	否	不可用
HITspam-UsingMTurk	判断MTurk数据中的HIT是否为“垃圾”任务	5840	135	28354	部分	二元	文本，不可用	否	不可用
Recognizing Textual Entailment	判断给定文本是否暗示了假设句子的信息	800	164	8000	是	二元	文本，可用	否	不可用
Sentiment popularity - AMT	对电影评论中的句子进行正面或负面评价	500	143	10000	是	二元	文本，不可用	否	是
Temporal Ordering	判断一个事件是否在另一个事件之前发生	462	76	4620	是	二元	文本，部分可用	否	不可用
Text Highlighting	包含分类任务和文本高亮任务	685	1851	27711	是	二元	文本，可用	可能	可用
Toloka Aggregation Relevance 2	2016年“相关性2级”项目中收集的匿名投票	99319	7139	475536	部分	二元	文本，不可用	否	不可用
2010 Crowdsourced Web Relevance Judgments Data	对ClueWeb09集合中的英文网页进行相关性评价	20232	766	98453	是	多类，3类	文本，不可用	否	不可用
AdultContent2	将网站分类为5个类别	11040	269	92721	部分	多类，5类	文本，不可用	否	不可用
AdultContent3	将网站分类为4个类别	500	100	50000	否	多类，4类	文本，不可用	否	不可用
Emotion	根据文本评估情绪	700	10	7000	是	多类，区间(-100,100)	文本，可用	否	不可用
Toloka Aggregation Relevance 5	对文档与查询的相关性进行5级评价	363814	1274	1091918	部分	多类，5类	文本，不可用	否	不可用
Weather Sentiment - AMT	对300条天气相关推文进行情感分类	300	110	6000	是	多类，5类	文本，不可用	是	是
Word Pair Similarity	对给定文本分配0到10的相似度分数	30	10	300	是	多类，区间(0,10)	文本，不可用	否	不可用

数据集下载与格式转换

CrowdData提供两个Python脚本用于下载和转换数据集至标准格式。首先运行download_datasets.py，然后运行transform_datasets.py。转换后的数据集将包含以下列：workerID, taskID, response, goldLabel, taskContent。仅Sentiment popularity - AMT和Weather Sentiment - AMT数据集将包含额外的timeSpent列。

搜集汇总

数据集介绍

构建方式

CrowdData数据集的构建基于众包数据，通过整合多个众包任务的投票结果，形成一个标准化的数据格式。数据集的构建过程包括从原始数据源下载数据，然后通过Python脚本将这些数据转换为统一的CSV文件格式。每个CSV文件包含工人ID、任务ID、响应、黄金标签和任务内容等字段，确保数据在预处理阶段的无缝使用。

特点

CrowdData数据集的特点在于其多样性和标准化。数据集涵盖了多种分类任务，包括文本分类和情感分析等，且所有数据均经过标准化处理，便于直接用于实验。此外，数据集提供了详细的元数据信息，如任务类型、任务内容、工人数量和投票总数等，有助于深入分析众包数据的特性和偏差。

使用方法

使用CrowdData数据集时，首先需运行`download_datasets.py`脚本下载所有数据集，然后运行`transform_datasets.py`脚本将数据转换为标准格式。转换后的数据集以CSV文件形式存储，包含工人ID、任务ID、响应、黄金标签和任务内容等字段。特定数据集还包含工人完成任务所花费的时间信息。使用者需遵守数据集的使用许可，并确保对原始数据源的引用和认可。

背景与挑战

背景概述

CrowdData数据集是一个开放的资源库，旨在聚合众包数据集，并通过个体众包投票进行验证。该数据集由主要研究人员或机构于近期创建，专注于提供标准格式的数据集，以便直接用于实验，无需预处理。CrowdData主要服务于分类任务，特别是文本分类，但也包括情感数据集。该数据集对研究机器与人在分类任务中的混合使用、人在分类和排序任务中的作用、基于众包数据的真相发现、众包偏差的估计以及主动学习等领域具有重要影响。

当前挑战

CrowdData数据集在构建过程中面临多项挑战。首先，确保数据集的标准格式以减少预处理工作量是一个主要挑战。其次，数据集中任务内容的可用性不一，部分数据集的任务内容不可用或仅部分可用，这增加了数据处理的复杂性。此外，数据集中关于任务完成时间的记录不一致，部分数据集缺乏此类信息，影响了时间相关分析的进行。最后，数据集中众包工人的投票选项和任务类型的多样性，如是否包含'我不知道'选项，增加了数据分析的难度。

常用场景

经典使用场景

CrowdData数据集在众包数据分类任务中展现了其经典应用场景。该数据集汇集了多个众包数据集，涵盖了文本分类、情感分析、文本蕴涵识别等多种任务类型。研究者可以利用这些数据集进行机器与人在分类任务中的混合使用研究，探索人机协作在分类和排序任务中的效能，以及基于众包数据的真相发现和人群偏见的估计。

实际应用

CrowdData数据集在实际应用中具有广泛的应用场景。例如，在情感分析领域，研究者和企业可以利用该数据集训练和验证情感分析模型，从而提升产品评论分析的准确性。在文本蕴涵识别任务中，该数据集可用于开发和测试自然语言处理系统，提高信息检索和问答系统的性能。此外，CrowdData还可应用于社交媒体监控、舆情分析等领域，帮助企业和政府机构更好地理解和应对公众情绪。

衍生相关工作

CrowdData数据集的发布催生了多项相关研究工作。例如，基于该数据集的研究者们开发了多种众包数据处理算法，以提高分类任务的准确性和效率。此外，CrowdData还激发了对众包数据质量评估和偏见校正方法的研究，推动了真相发现和数据清洗技术的发展。在人机协作领域，CrowdData为混合智能系统的研究和应用提供了宝贵的数据资源，促进了人机协作在实际任务中的应用和优化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集