five

systemk/c4-toxic-eval

收藏
Hugging Face2024-03-07 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/systemk/c4-toxic-eval
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: - config_name: balanced features: - name: text dtype: string - name: toxic dtype: bool - name: hate dtype: bool - name: harassment dtype: bool - name: self-harm dtype: bool - name: sexual dtype: bool - name: violence dtype: bool - name: sexual/minors dtype: bool - name: hate/threatening dtype: bool - name: violence/graphic dtype: bool - name: self-harm/intent dtype: bool - name: self-harm/instructions dtype: bool - name: harassment/threatening dtype: bool splits: - name: train num_bytes: 13545733.26234375 num_examples: 1404 - name: test num_bytes: 1505081.47359375 num_examples: 156 download_size: 7146035 dataset_size: 15050814.735937499 - config_name: default features: - name: text dtype: string - name: toxic dtype: bool - name: hate dtype: bool - name: harassment dtype: bool - name: self-harm dtype: bool - name: sexual dtype: bool - name: violence dtype: bool - name: sexual/minors dtype: bool - name: hate/threatening dtype: bool - name: violence/graphic dtype: bool - name: self-harm/intent dtype: bool - name: self-harm/instructions dtype: bool - name: harassment/threatening dtype: bool splits: - name: train num_bytes: 493975458 num_examples: 51200 download_size: 258423078 dataset_size: 493975458 configs: - config_name: balanced data_files: - split: train path: balanced/train-* - split: test path: balanced/test-* - config_name: default data_files: - split: train path: data/train-* ---

数据集信息: - 配置名称:平衡版(balanced) 特征: - 文本(text):字符串类型 - 毒性(toxic):布尔类型 - 仇恨言论(hate):布尔类型 - 骚扰(harassment):布尔类型 - 自残(self-harm):布尔类型 - 色情内容(sexual):布尔类型 - 暴力(violence):布尔类型 - 针对未成年人的色情内容(sexual/minors):布尔类型 - 仇恨威胁言论(hate/threatening):布尔类型 - 具象化暴力内容(violence/graphic):布尔类型 - 自残意图(self-harm/intent):布尔类型 - 自残指导(self-harm/instructions):布尔类型 - 骚扰威胁言论(harassment/threatening):布尔类型 数据集划分: - 划分名称:训练集(train),字节数:13545733.26234375,样本数量:1404 - 划分名称:测试集(test),字节数:1505081.47359375,样本数量:156 下载大小:7146035 数据集总大小:15050814.735937499 - 配置名称:默认版(default) 特征: - 文本(text):字符串类型 - 毒性(toxic):布尔类型 - 仇恨言论(hate):布尔类型 - 骚扰(harassment):布尔类型 - 自残(self-harm):布尔类型 - 色情内容(sexual):布尔类型 - 暴力(violence):布尔类型 - 针对未成年人的色情内容(sexual/minors):布尔类型 - 仇恨威胁言论(hate/threatening):布尔类型 - 具象化暴力内容(violence/graphic):布尔类型 - 自残意图(self-harm/intent):布尔类型 - 自残指导(self-harm/instructions):布尔类型 - 骚扰威胁言论(harassment/threatening):布尔类型 数据集划分: - 划分名称:训练集(train),字节数:493975458,样本数量:51200 下载大小:258423078 数据集总大小:493975458 配置项: - 配置名称:平衡版(balanced),数据文件: - 数据集划分:训练集(train),文件路径:balanced/train-* - 数据集划分:测试集(test),文件路径:balanced/test-* - 配置名称:默认版(default),数据文件: - 数据集划分:训练集(train),文件路径:data/train-*
提供机构:
systemk
原始信息汇总

数据集概述

数据集配置

配置名称:balanced

  • 特征
    • text: 字符串类型
    • toxic: 布尔类型
    • hate: 布尔类型
    • harassment: 布尔类型
    • self-harm: 布尔类型
    • sexual: 布尔类型
    • violence: 布尔类型
    • sexual/minors: 布尔类型
    • hate/threatening: 布尔类型
    • violence/graphic: 布尔类型
    • self-harm/intent: 布尔类型
    • self-harm/instructions: 布尔类型
    • harassment/threatening: 布尔类型
  • 分割
    • train: 1404个样本,13545733.26234375字节
    • test: 156个样本,1505081.47359375字节
  • 下载大小:7146035字节
  • 数据集大小:15050814.735937499字节

配置名称:default

  • 特征
    • text: 字符串类型
    • toxic: 布尔类型
    • hate: 布尔类型
    • harassment: 布尔类型
    • self-harm: 布尔类型
    • sexual: 布尔类型
    • violence: 布尔类型
    • sexual/minors: 布尔类型
    • hate/threatening: 布尔类型
    • violence/graphic: 布尔类型
    • self-harm/intent: 布尔类型
    • self-harm/instructions: 布尔类型
    • harassment/threatening: 布尔类型
  • 分割
    • train: 51200个样本,493975458字节
  • 下载大小:258423078字节
  • 数据集大小:493975458字节

数据文件路径

配置名称:balanced

  • 训练集balanced/train-*
  • 测试集balanced/test-*

配置名称:default

  • 训练集data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作