five

pietrolesci/wikitoxic

收藏
Hugging Face2023-09-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pietrolesci/wikitoxic
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Toxic Wikipedia Comments,主要包含来自维基百科的有毒评论。数据集的特征包括id、text、labels和uid,其中labels用于分类,表示是否为有毒评论。此外,数据集还包含了三个不同的句子嵌入模型生成的嵌入向量。数据集的创建者为众包,语言为英语,许可证为cc0-1.0,属于单语言数据集,规模在10万到100万之间。数据集的任务类别为文本分类,具体任务为仇恨言论检测。

This dataset is named Toxic Wikipedia Comments, primarily consisting of toxic comments sourced from Wikipedia. Its core attributes include id, text, labels and uid, where the labels are used for classification to indicate whether a comment is toxic. Additionally, the dataset also contains embedding vectors generated by three distinct sentence embedding models. Developed via crowdsourcing, this is an English-language monolingual dataset with a scale ranging from 100,000 to 1,000,000 instances, licensed under cc0-1.0. The task category of this dataset is text classification, and its specific task is hate speech detection.
提供机构:
pietrolesci
原始信息汇总

数据集概述

数据集配置

  • 默认配置 (default)

    • 数据文件路径
      • 训练集: data/train-*
      • 验证集: data/validation-*
      • 测试集: data/test-*
    • 特征
      • id: 字符串
      • text: 字符串
      • labels: 类别标签,包含 nontox
      • uid: 整数
    • 数据分割
      • 训练集: 127656个样本, 55430581字节
      • 验证集: 31915个样本, 13936861字节
      • 测试集: 63978个样本, 27474227字节
    • 数据大小
      • 下载大小: 62548640字节
      • 数据集大小: 96841669字节
  • 嵌入配置 (embedding_all-MiniLM-L12-v2)

    • 数据文件路径
      • 训练集: embedding_all-MiniLM-L12-v2/train-*
      • 验证集: embedding_all-MiniLM-L12-v2/validation-*
      • 测试集: embedding_all-MiniLM-L12-v2/test-*
    • 特征
      • uid: 整数
      • embedding_all-MiniLM-L12-v2: 浮点数序列
    • 数据分割
      • 训练集: 127656个样本, 197611488字节
      • 验证集: 31915个样本, 49404420字节
      • 测试集: 63978个样本, 99037944字节
    • 数据大小
      • 下载大小: 484421377字节
      • 数据集大小: 346053852字节
  • 嵌入配置 (embedding_all-mpnet-base-v2)

    • 数据文件路径
      • 训练集: embedding_all-mpnet-base-v2/train-*
      • 验证集: embedding_all-mpnet-base-v2/validation-*
      • 测试集: embedding_all-mpnet-base-v2/test-*
    • 特征
      • uid: 整数
      • embedding_all-mpnet-base-v2: 浮点数序列
    • 数据分割
      • 训练集: 127656个样本, 393691104字节
      • 验证集: 31915个样本, 98425860字节
      • 测试集: 63978个样本, 197308152字节
    • 数据大小
      • 下载大小: 827919212字节
      • 数据集大小: 689425116字节
  • 嵌入配置 (embedding_multi-qa-mpnet-base-dot-v1)

    • 数据文件路径
      • 训练集: embedding_multi-qa-mpnet-base-dot-v1/train-*
      • 验证集: embedding_multi-qa-mpnet-base-dot-v1/validation-*
      • 测试集: embedding_multi-qa-mpnet-base-dot-v1/test-*
    • 特征
      • uid: 整数
      • embedding_multi-qa-mpnet-base-dot-v1: 浮点数序列
    • 数据分割
      • 训练集: 127656个样本, 393691104字节
      • 验证集: 31915个样本, 98425860字节
      • 测试集: 63978个样本, 197308152字节
    • 数据大小
      • 下载大小: 827907964字节
      • 数据集大小: 689425116字节

数据集信息

  • 数据集名称: Toxic Wikipedia Comments
  • 语言: 英语
  • 多语言性: 单语
  • 数据集大小: 100K<n<1M
  • 标签: wikipedia, toxicity, toxic comments
  • 任务类别: 文本分类
  • 任务ID: 仇恨言论检测
  • 许可证: CC0-1.0
  • 数据来源: 扩展自其他数据集
  • 注释创建者: 众包
  • 语言创建者: 发现
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个用于仇恨言论检测的文本分类数据集,包含来自维基百科的英文评论,分为毒性和非毒性两类标签,适用于自然语言处理任务。数据集还提供了多种句子嵌入模型的嵌入结果,便于模型训练和评估。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作