victoriadreis/TuPY_dataset_binary
收藏Hugging Face2023-12-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/victoriadreis/TuPY_dataset_binary
下载链接
链接失效反馈官方服务:
资源简介:
葡萄牙语仇恨言论数据集(TuPy)是一个标注语料库,旨在促进使用机器学习(ML)和自然语言处理(NLP)技术开发高级仇恨言论检测模型。TuPy由2023年收集的10000条未发布的标注推文组成。数据集的组织结构包括注释、原始语料库、TuPy数据集和README文件。生成二进制矩阵的投票过程包括对每个文档进行三次独立评估,如果文档获得两次或更多相同的分类,则采用值为1,否则标记为0。该项目是Felipe Oliveira论文开发的结果,并得到了里约热内卢联邦大学(UFRJ)和阿尔贝托·路易斯·科英布拉工程研究生院和研究学院(COPPE)的资助。
葡萄牙语仇恨言论数据集(TuPy)是一个标注语料库,旨在促进使用机器学习(ML)和自然语言处理(NLP)技术开发高级仇恨言论检测模型。TuPy由2023年收集的10000条未发布的标注推文组成。数据集的组织结构包括注释、原始语料库、TuPy数据集和README文件。生成二进制矩阵的投票过程包括对每个文档进行三次独立评估,如果文档获得两次或更多相同的分类,则采用值为1,否则标记为0。该项目是Felipe Oliveira论文开发的结果,并得到了里约热内卢联邦大学(UFRJ)和阿尔贝托·路易斯·科英布拉工程研究生院和研究学院(COPPE)的资助。
提供机构:
victoriadreis
原始信息汇总
葡萄牙语仇恨言论数据集 (TuPy)
概述
葡萄牙语仇恨言论数据集 (TuPy) 是一个标注语料库,旨在促进使用机器学习和自然语言处理技术开发高级仇恨言论检测模型。TuPy 由 2023 年收集的 10,000 条未发表的标注推文组成。
数据集结构
数据集结构如下: sh root. ├── annotations : 标注者的分类结果 ├── raw corpus : 标注者分割前的数据集 ├── tupy datasets : 标注结果的合并 └── README.md
投票过程
为了生成二元矩阵,我们采用了一个简单的投票过程。每个文档被分配三个不同的评估。如果一个文档收到两个或更多相同的分类,则采用值为 1;否则,标记为 0。
数据集详情
- 标注创建者: 众包
- 语言创建者: 众包
- 语言: 葡萄牙语
- 许可证: CC BY-SA 4.0
- 多语言性: 单语
- 大小类别: 1K<n<10K
- 源数据集: 原始数据
- 任务类别: 文本分类
- 任务ID: 无
- 名称: TuPy
- 语言BCP47: pt-BR
- 标签: 仇恨言论检测
- 配置:
- 配置名称: binary
- 数据文件:
- 分割: full
- 路径: tupy_binary_vote.csv



