pietrolesci/wikitoxic

Name: pietrolesci/wikitoxic
Creator: pietrolesci
Published: 2023-09-13 12:03:54
License: 暂无描述

Hugging Face2023-09-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/pietrolesci/wikitoxic

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Toxic Wikipedia Comments，主要包含来自维基百科的有毒评论。数据集的特征包括id、text、labels和uid，其中labels用于分类，表示是否为有毒评论。此外，数据集还包含了三个不同的句子嵌入模型生成的嵌入向量。数据集的创建者为众包，语言为英语，许可证为cc0-1.0，属于单语言数据集，规模在10万到100万之间。数据集的任务类别为文本分类，具体任务为仇恨言论检测。

This dataset is named Toxic Wikipedia Comments, primarily consisting of toxic comments sourced from Wikipedia. Its core attributes include id, text, labels and uid, where the labels are used for classification to indicate whether a comment is toxic. Additionally, the dataset also contains embedding vectors generated by three distinct sentence embedding models. Developed via crowdsourcing, this is an English-language monolingual dataset with a scale ranging from 100,000 to 1,000,000 instances, licensed under cc0-1.0. The task category of this dataset is text classification, and its specific task is hate speech detection.

提供机构：

pietrolesci

原始信息汇总

数据集概述

数据集配置

默认配置 (default)
- 数据文件路径
  - 训练集: data/train-*
  - 验证集: data/validation-*
  - 测试集: data/test-*
- 特征
  - id: 字符串
  - text: 字符串
  - labels: 类别标签，包含 non 和 tox
  - uid: 整数
- 数据分割
  - 训练集: 127656个样本, 55430581字节
  - 验证集: 31915个样本, 13936861字节
  - 测试集: 63978个样本, 27474227字节
- 数据大小
  - 下载大小: 62548640字节
  - 数据集大小: 96841669字节
嵌入配置 (embedding_all-MiniLM-L12-v2)
- 数据文件路径
  - 训练集: embedding_all-MiniLM-L12-v2/train-*
  - 验证集: embedding_all-MiniLM-L12-v2/validation-*
  - 测试集: embedding_all-MiniLM-L12-v2/test-*
- 特征
  - uid: 整数
  - embedding_all-MiniLM-L12-v2: 浮点数序列
- 数据分割
  - 训练集: 127656个样本, 197611488字节
  - 验证集: 31915个样本, 49404420字节
  - 测试集: 63978个样本, 99037944字节
- 数据大小
  - 下载大小: 484421377字节
  - 数据集大小: 346053852字节
嵌入配置 (embedding_all-mpnet-base-v2)
- 数据文件路径
  - 训练集: embedding_all-mpnet-base-v2/train-*
  - 验证集: embedding_all-mpnet-base-v2/validation-*
  - 测试集: embedding_all-mpnet-base-v2/test-*
- 特征
  - uid: 整数
  - embedding_all-mpnet-base-v2: 浮点数序列
- 数据分割
  - 训练集: 127656个样本, 393691104字节
  - 验证集: 31915个样本, 98425860字节
  - 测试集: 63978个样本, 197308152字节
- 数据大小
  - 下载大小: 827919212字节
  - 数据集大小: 689425116字节
嵌入配置 (embedding_multi-qa-mpnet-base-dot-v1)
- 数据文件路径
  - 训练集: embedding_multi-qa-mpnet-base-dot-v1/train-*
  - 验证集: embedding_multi-qa-mpnet-base-dot-v1/validation-*
  - 测试集: embedding_multi-qa-mpnet-base-dot-v1/test-*
- 特征
  - uid: 整数
  - embedding_multi-qa-mpnet-base-dot-v1: 浮点数序列
- 数据分割
  - 训练集: 127656个样本, 393691104字节
  - 验证集: 31915个样本, 98425860字节
  - 测试集: 63978个样本, 197308152字节
- 数据大小
  - 下载大小: 827907964字节
  - 数据集大小: 689425116字节

数据集信息

数据集名称: Toxic Wikipedia Comments
语言: 英语
多语言性: 单语
数据集大小: 100K<n<1M
标签: wikipedia, toxicity, toxic comments
任务类别: 文本分类
任务ID: 仇恨言论检测
许可证: CC0-1.0
数据来源: 扩展自其他数据集
注释创建者: 众包
语言创建者: 发现

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是一个用于仇恨言论检测的文本分类数据集，包含来自维基百科的英文评论，分为毒性和非毒性两类标签，适用于自然语言处理任务。数据集还提供了多种句子嵌入模型的嵌入结果，便于模型训练和评估。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集