five

CrowdData|众包数据集|分类任务数据集

收藏
github2024-05-09 更新2024-05-31 收录
众包
分类任务
下载链接:
https://github.com/TrentoCrowdAI/crowdsourced-datasets
下载链接
链接失效反馈
资源简介:
CrowdData是一个开放的数据集仓库,汇集了包含个体投票的众包数据集。我们旨在提供标准格式的可用数据集(详见`下载`部分),以便它们可以直接用于实验,无需预处理工作。本仓库中的数据集主要用于分类任务(主要是文本分类,除了情感数据集)。CrowdData可以惠及研究混合使用机器和人在环分类任务的研究人员(仓库包含5个具有任务实际内容的数据集),人在分类和排序任务,基于众包数据的真相发现,人群偏差的估计,以及主动学习。

CrowdData is an open dataset repository that aggregates crowdsourced datasets containing individual votes. We aim to provide available datasets in a standardized format (see the `Download` section for details) so that they can be directly used for experiments without the need for preprocessing. The datasets in this repository are primarily used for classification tasks (mainly text classification, with the exception of sentiment datasets). CrowdData can benefit researchers studying hybrid machine and human-in-the-loop classification tasks (the repository includes 5 datasets with actual task content), human-involved classification and ranking tasks, truth discovery based on crowdsourced data, estimation of crowd bias, and active learning.
创建时间:
2019-09-28
原始信息汇总

数据集概述

CrowdData是一个开放的数据集仓库,主要收集用于分类任务的众包数据集,特别是文本分类。数据集分为binary-classificationmulti-class-classification两个类别,每个数据集都有其独立的文件夹,并包含指向原始来源的链接。

数据集列表

数据集名称 描述 任务数量 工人数量 总投票数 是否有真实标签 任务类型 任务内容 是否有“我不知道”选项 是否包含任务耗时信息
Blue Birds 识别图片是否包含蓝鸟 108 39 4212 二元 图片,不可用
Crowdsourced Amazon Sentiment 对亚马逊产品评论进行情感分析 1011 284 7803 二元 文本,可用 不可用
Crowdsourced loneliness-slr 评估论文与技术、老年人及干预的相关性 319 34 797 二元 文本,不可用 不可用
HITspam-UsingCrowdflower 判断Crowdflower数据中的HIT是否为“垃圾”任务 5380 153 42762 部分 二元 文本,不可用 不可用
HITspam-UsingMTurk 判断MTurk数据中的HIT是否为“垃圾”任务 5840 135 28354 部分 二元 文本,不可用 不可用
Recognizing Textual Entailment 判断给定文本是否暗示了假设句子的信息 800 164 8000 二元 文本,可用 不可用
Sentiment popularity - AMT 对电影评论中的句子进行正面或负面评价 500 143 10000 二元 文本,不可用
Temporal Ordering 判断一个事件是否在另一个事件之前发生 462 76 4620 二元 文本,部分可用 不可用
Text Highlighting 包含分类任务和文本高亮任务 685 1851 27711 二元 文本,可用 可能 可用
Toloka Aggregation Relevance 2 2016年“相关性2级”项目中收集的匿名投票 99319 7139 475536 部分 二元 文本,不可用 不可用
2010 Crowdsourced Web Relevance Judgments Data 对ClueWeb09集合中的英文网页进行相关性评价 20232 766 98453 多类,3类 文本,不可用 不可用
AdultContent2 将网站分类为5个类别 11040 269 92721 部分 多类,5类 文本,不可用 不可用
AdultContent3 将网站分类为4个类别 500 100 50000 多类,4类 文本,不可用 不可用
Emotion 根据文本评估情绪 700 10 7000 多类,区间(-100,100) 文本,可用 不可用
Toloka Aggregation Relevance 5 对文档与查询的相关性进行5级评价 363814 1274 1091918 部分 多类,5类 文本,不可用 不可用
Weather Sentiment - AMT 对300条天气相关推文进行情感分类 300 110 6000 多类,5类 文本,不可用
Word Pair Similarity 对给定文本分配0到10的相似度分数 30 10 300 多类,区间(0,10) 文本,不可用 不可用

数据集下载与格式转换

CrowdData提供两个Python脚本用于下载和转换数据集至标准格式。首先运行download_datasets.py,然后运行transform_datasets.py。转换后的数据集将包含以下列:workerID, taskID, response, goldLabel, taskContent。仅Sentiment popularity - AMTWeather Sentiment - AMT数据集将包含额外的timeSpent列。

AI搜集汇总
数据集介绍
main_image_url
构建方式
CrowdData数据集的构建基于众包数据,通过整合多个众包任务的投票结果,形成一个标准化的数据格式。数据集的构建过程包括从原始数据源下载数据,然后通过Python脚本将这些数据转换为统一的CSV文件格式。每个CSV文件包含工人ID、任务ID、响应、黄金标签和任务内容等字段,确保数据在预处理阶段的无缝使用。
特点
CrowdData数据集的特点在于其多样性和标准化。数据集涵盖了多种分类任务,包括文本分类和情感分析等,且所有数据均经过标准化处理,便于直接用于实验。此外,数据集提供了详细的元数据信息,如任务类型、任务内容、工人数量和投票总数等,有助于深入分析众包数据的特性和偏差。
使用方法
使用CrowdData数据集时,首先需运行`download_datasets.py`脚本下载所有数据集,然后运行`transform_datasets.py`脚本将数据转换为标准格式。转换后的数据集以CSV文件形式存储,包含工人ID、任务ID、响应、黄金标签和任务内容等字段。特定数据集还包含工人完成任务所花费的时间信息。使用者需遵守数据集的使用许可,并确保对原始数据源的引用和认可。
背景与挑战
背景概述
CrowdData数据集是一个开放的资源库,旨在聚合众包数据集,并通过个体众包投票进行验证。该数据集由主要研究人员或机构于近期创建,专注于提供标准格式的数据集,以便直接用于实验,无需预处理。CrowdData主要服务于分类任务,特别是文本分类,但也包括情感数据集。该数据集对研究机器与人在分类任务中的混合使用、人在分类和排序任务中的作用、基于众包数据的真相发现、众包偏差的估计以及主动学习等领域具有重要影响。
当前挑战
CrowdData数据集在构建过程中面临多项挑战。首先,确保数据集的标准格式以减少预处理工作量是一个主要挑战。其次,数据集中任务内容的可用性不一,部分数据集的任务内容不可用或仅部分可用,这增加了数据处理的复杂性。此外,数据集中关于任务完成时间的记录不一致,部分数据集缺乏此类信息,影响了时间相关分析的进行。最后,数据集中众包工人的投票选项和任务类型的多样性,如是否包含'我不知道'选项,增加了数据分析的难度。
常用场景
经典使用场景
CrowdData数据集在众包数据分类任务中展现了其经典应用场景。该数据集汇集了多个众包数据集,涵盖了文本分类、情感分析、文本蕴涵识别等多种任务类型。研究者可以利用这些数据集进行机器与人在分类任务中的混合使用研究,探索人机协作在分类和排序任务中的效能,以及基于众包数据的真相发现和人群偏见的估计。
实际应用
CrowdData数据集在实际应用中具有广泛的应用场景。例如,在情感分析领域,研究者和企业可以利用该数据集训练和验证情感分析模型,从而提升产品评论分析的准确性。在文本蕴涵识别任务中,该数据集可用于开发和测试自然语言处理系统,提高信息检索和问答系统的性能。此外,CrowdData还可应用于社交媒体监控、舆情分析等领域,帮助企业和政府机构更好地理解和应对公众情绪。
衍生相关工作
CrowdData数据集的发布催生了多项相关研究工作。例如,基于该数据集的研究者们开发了多种众包数据处理算法,以提高分类任务的准确性和效率。此外,CrowdData还激发了对众包数据质量评估和偏见校正方法的研究,推动了真相发现和数据清洗技术的发展。在人机协作领域,CrowdData为混合智能系统的研究和应用提供了宝贵的数据资源,促进了人机协作在实际任务中的应用和优化。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

OpenPose

OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。

github.com 收录