toloka/TolokerGraph
收藏Hugging Face2023-02-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/toloka/TolokerGraph
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
tags:
- toloka
- graph
- node-classification
pretty_name: Graph of Crowd Annotators
size_categories:
- 10K<n<100K
task_categories:
- graph-ml
dataset_info:
features:
- name: id
dtype: int32
- name: approved_rate
dtype: float
- name: skipped_rate
dtype: float
- name: expired_rate
dtype: float
- name: rejected_rate
dtype: float
- name: education
dtype: string
- name: english_profile
dtype: bool
- name: english_tested
dtype: bool
- name: banned
dtype: bool
---
# Toloker Graph: Interaction of Crowd Annotators
## Dataset Description
- **Repository:** https://github.com/Toloka/TolokerGraph
- **Point of Contact:** research@toloka.ai
### Dataset Summary
This repository contains a graph representing interactions between crowd annotators on a project labeled on the [Toloka](https://toloka.ai/) crowdsourcing platform (see the [Toloka overview](https://toloka.ai/en/docs/guide/concepts/overview) for the details on the used terminology).
The graph contains 11,758 nodes and 519,000 edges. Each node represents an individual annotator; nodes are provided with four numerical and three categorical features. An edge is drawn between a pair of annotators if they annotated the same task. Also, each node is provided with a label showing whether the annotator was banned on this project, or not.
### Nodes
Nodes are stored in the [nodes.tsv](nodes.tsv) file in the TSV format of the following structure:
- `id`: unique identifier of the annotator
- `approved_rate`: percentage of the approved labels of this annotator
- `skipped_rate`: percentage of the skipped tasks of this annotator
- `expired_rate`: percentage of the expired tasks of this annotator
- `rejected_rate`: percentage of the rejected labels of this annotator
- `education`: level of education as self-reported by this annotator (`none`, `basic`, `middle`, `high`)
- `english_profile`: knowledge of English as self-reported by this annotator (`0` for no, `1` for yes)
- `english_tested`: whether the annotator passed the Toloka language test for English (`0` for no, `1` for yes)
- `banned`: whether the annotator was banned on this project (`0` for no, `1` for yes)
The `*_rate` attributes should sum up to 1.
### Edges
Edges are stored in the [edges.tsv](edges.tsv) file in the TSV format of the following structure:
- `source`: source identifier of the annotator
- `target`: target identifier of the annotator
As the graph is undirected, `source` and `target` can be interchanged for the given pair of nodes.
### Citation
* Likhobaba, D., Pavlichenko, N., Ustalov, D. (2023). [Toloker Graph: Interaction of Crowd Annotators](https://doi.org/10.5281/zenodo.7620795). Zenodo. <https://doi.org/10.5281/zenodo.7620795>
```bibtex
@dataset{Tolokers,
author = {Likhobaba, Daniil and Pavlichenko, Nikita and Ustalov, Dmitry},
title = {{Toloker Graph: Interaction of Crowd Annotators}},
year = {2023},
publisher = {Zenodo},
doi = {10.5281/zenodo.7620795},
url = {https://github.com/Toloka/TolokerGraph},
language = {english},
}
```
### Copyright
Licensed under the Creative Commons Attribution 4.0 License. See LICENSE file for more details.
许可协议:CC BY 4.0
标签:
- 托洛卡(Toloka)
- 图
- 节点分类
美观名称:众包标注员交互图
样本量类别:10000 < n < 100000
任务类别:图机器学习
数据集信息:
特征:
- 名称:id,数据类型:int32
- 名称:approved_rate,数据类型:float
- 名称:skipped_rate,数据类型:float
- 名称:expired_rate,数据类型:float
- 名称:rejected_rate,数据类型:float
- 名称:education,数据类型:字符串
- 名称:english_profile,数据类型:布尔值
- 名称:english_tested,数据类型:布尔值
- 名称:banned,数据类型:布尔值
# 托洛卡标注员图:众包标注员交互数据集
## 数据集说明
- **仓库地址:** https://github.com/Toloka/TolokerGraph
- **联系方式:** research@toloka.ai
### 数据集概览
本仓库包含一张图,用于表征[托洛卡(Toloka)](https://toloka.ai/)众包平台上某标注项目中众包标注员之间的交互关系(相关术语细节可参阅[Toloka平台概览](https://toloka.ai/en/docs/guide/concepts/overview))。
该图包含11758个节点与519000条边:每个节点对应一名独立标注员,节点携带4个数值型特征与3个分类型特征;若两名标注员共同标注过同一任务,则二者之间会生成一条边。此外,每个节点附带一个标签,用于标注该标注员是否在本项目中被封禁。
### 节点数据
节点数据存储于[nodes.tsv](nodes.tsv)文件中,采用TSV格式,结构如下:
- `id`:标注员的唯一标识符
- `approved_rate`:该标注员的标注通过率百分比
- `skipped_rate`:该标注员跳过的任务占总任务的百分比
- `expired_rate`:该标注员超时未完成的任务占总任务的百分比
- `rejected_rate`:该标注员被驳回的标注占总标注的百分比
- `education`:标注员自行申报的学历水平,可选值为`none`(无学历)、`basic`(初等教育)、`middle`(中等教育)、`high`(高等教育)
- `english_profile`:标注员自行申报的英语能力,`0`代表不具备,`1`代表具备
- `english_tested`:标注员是否通过托洛卡平台英语语言测试,`0`代表未通过,`1`代表通过
- `banned`:标注员是否在本项目中被封禁,`0`代表未被封禁,`1`代表已被封禁
所有`*_rate`属性的取值之和应为1。
### 边数据
边数据存储于[edges.tsv](edges.tsv)文件中,采用TSV格式,结构如下:
- `source`:边的源标注员标识符
- `target`:边的目标标注员标识符
由于该图为无向图,对于任意一对节点,`source`与`target`字段可互换。
### 引用文献
* Likhobaba, D., Pavlichenko, N., Ustalov, D. (2023). [托洛卡标注员图:众包标注员交互数据集](https://doi.org/10.5281/zenodo.7620795). Zenodo. <https://doi.org/10.5281/zenodo.7620795>
bibtex
@dataset{Tolokers,
author = {Likhobaba, Daniil and Pavlichenko, Nikita and Ustalov, Dmitry},
title = {{Toloker Graph: Interaction of Crowd Annotators}},
year = {2023},
publisher = {Zenodo},
doi = {10.5281/zenodo.7620795},
url = {https://github.com/Toloka/TolokerGraph},
language = {english},
}
### 版权声明
本数据集采用知识共享署名4.0(CC BY 4.0)许可协议进行授权,详细条款请参阅LICENSE文件。
提供机构:
toloka
原始信息汇总
Toloker Graph: Interaction of Crowd Annotators
数据集概述
- 数据集名称: Toloker Graph: Interaction of Crowd Annotators
- 数据集描述: 该数据集包含一个图,表示在Toloka众包平台上标注项目的众包标注者之间的交互。图中有11,758个节点和519,000条边。每个节点代表一个单独的标注者,节点附带四个数值型和三个类别型特征。如果一对标注者标注了相同的任务,则在他们之间画一条边。每个节点还附带一个标签,显示该标注者是否被禁止参与该项目。
数据集特征
节点特征
- 文件: nodes.tsv
- 格式: TSV
- 结构:
id: 标注者的唯一标识符approved_rate: 该标注者批准标签的百分比skipped_rate: 该标注者跳过任务的百分比expired_rate: 该标注者过期任务的百分比rejected_rate: 该标注者拒绝标签的百分比education: 标注者自报的教育水平 (none,basic,middle,high)english_profile: 标注者自报的英语知识 (0表示否,1表示是)english_tested: 标注者是否通过了Toloka的英语语言测试 (0表示否,1表示是)banned: 标注者是否被禁止参与该项目 (0表示否,1表示是)
边特征
- 文件: edges.tsv
- 格式: TSV
- 结构:
source: 标注者的源标识符target: 标注者的目标标识符
许可证
- 许可证: Creative Commons Attribution 4.0 License
引用信息
- 作者: Likhobaba, Daniil and Pavlichenko, Nikita and Ustalov, Dmitry
- 标题: Toloker Graph: Interaction of Crowd Annotators
- 年份: 2023
- 出版者: Zenodo
- DOI: 10.5281/zenodo.7620795
- URL: https://github.com/Toloka/TolokerGraph
搜集汇总
数据集介绍

构建方式
在众包标注领域,TolokerGraph数据集的构建源于对标注者交互模式的深入探索。该数据集依托Toloka众包平台,通过采集标注者在特定项目中的行为数据,构建了一个包含11,758个节点和519,000条边的无向图。每个节点代表一位标注者,其属性涵盖标注任务的批准率、跳过率、过期率及拒绝率等数值特征,以及教育背景、英语能力等分类特征。边的建立基于标注者是否共同处理过同一任务,从而形成交互网络。节点标签进一步标注了标注者是否在该项目中被封禁,为后续分析提供了监督信号。
特点
该数据集的核心特点在于其丰富的节点属性和真实的交互结构。节点特征不仅包含标注行为的量化指标,如各类任务完成率,还整合了标注者的背景信息,如教育水平和语言能力,这些特征共同构成了多维度的标注者画像。图的边基于任务共现关系构建,反映了标注者之间的协作或竞争模式。数据集规模适中,节点与边的数量平衡,适合进行图神经网络模型的训练与验证。此外,节点标签的引入使得该数据集能够支持节点分类等监督学习任务,为研究标注者行为预测提供了宝贵资源。
使用方法
在应用层面,TolokerGraph数据集主要用于图机器学习任务,特别是节点分类。研究者可加载nodes.tsv和edges.tsv文件,分别获取节点特征与边列表,构建无向图结构。节点特征中的数值与分类变量需进行标准化或编码处理,以适配模型输入。标签信息存储在banned字段,可用于训练分类模型,预测标注者被封禁的风险。该数据集亦适用于图表示学习,通过节点嵌入技术挖掘标注者社区的潜在模式。使用时应遵循CC-BY-4.0许可,并引用相关文献,确保学术规范性。
背景与挑战
背景概述
在众包标注领域,标注者的行为模式与交互关系对数据质量具有深远影响。Toloker Graph数据集由Toloka平台的研究团队于2023年创建,核心研究问题聚焦于通过图结构建模标注者之间的协作网络,以揭示标注者行为特征与标注结果之间的潜在关联。该数据集包含11,758个节点与519,000条边,每个节点代表一名标注者,并附有标注批准率、教育背景等多维度特征,旨在推动众包质量控制与异常检测方法的发展,为标注者可靠性评估提供了新颖的结构化数据基础。
当前挑战
该数据集致力于解决众包标注中标注者可靠性评估与异常行为检测的挑战,其核心在于如何从复杂的标注者交互网络中识别低质量或恶意标注行为。构建过程中的挑战主要包括标注者特征的稀疏性与异质性整合,例如教育水平等类别特征与数值特征的融合;同时,标注任务的动态性与标注者行为的时序变化也为图的静态表示带来了局限性,需进一步探索动态图建模以捕捉标注者行为的演变规律。
常用场景
经典使用场景
在众包标注领域,TolokerGraph数据集为研究者提供了一个独特的图结构视角,用以探索标注者之间的交互模式。该数据集通过节点表示个体标注者,边代表共同标注任务的关系,结合标注者的行为特征与教育背景等信息,经典地应用于图神经网络模型的训练与评估。研究者能够利用此数据集,深入分析标注者社区的结构特性,以及行为特征如何影响标注质量与社区动态,为众包平台的管理与优化提供数据驱动的见解。
解决学术问题
该数据集有效解决了众包标注研究中关于标注者行为建模与质量控制的若干关键问题。通过整合标注者的批准率、跳过率、拒绝率等行为指标,以及教育水平和语言能力等属性,它支持对标注者可靠性与作弊行为的识别研究。其图结构进一步允许学者探究社交影响或任务分配网络如何作用于标注一致性,从而在数据质量评估、异常检测以及标注者信誉系统构建等学术方向上提供了实证基础,推动了众包计算与人类计算交叉领域的理论发展。
衍生相关工作
围绕TolokerGraph数据集,已衍生出一系列聚焦于图机器学习与众包分析的研究工作。经典研究包括基于图神经网络(GNN)的标注者分类模型,用于预测标注者被禁用的风险;以及利用图嵌入技术分析标注者社区结构,以发现协作模式或潜在作弊团伙。这些工作不仅验证了图结构在建模人类协作中的有效性,也促进了如节点分类、链接预测等图学习任务在真实工业场景中的应用,为后续研究提供了可复现的基准与算法改进的起点。
以上内容由遇见数据集搜集并总结生成



