Thanmay/implicit_hate-hi
收藏Hugging Face2024-01-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Thanmay/implicit_hate-hi
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: label
dtype: string
- name: text
dtype: string
- name: target_groups
sequence: string
- name: id
dtype: int64
- name: toxicity_score
dtype: float64
- name: itv2 hi text
dtype: string
splits:
- name: validation
num_bytes: 3207
num_examples: 9
- name: test
num_bytes: 5347462
num_examples: 14191
download_size: 2361315
dataset_size: 5350669
configs:
- config_name: default
data_files:
- split: validation
path: data/validation-*
- split: test
path: data/test-*
---
数据集信息:
## 特征字段
1. 标签(label):数据类型为字符串(string)
2. 文本(text):数据类型为字符串(string)
3. 目标群体(target_groups):数据类型为字符串序列
4. 编号(id):数据类型为64位整型(int64)
5. 毒性评分(toxicity_score):数据类型为64位浮点型(float64)
6. itv2 hi 文本(itv2 hi text):数据类型为字符串(string)
## 数据集拆分
- 验证集(validation):占用字节数3207,共9条样本
- 测试集(test):占用字节数5347462,共14191条样本
## 统计参数
下载总大小:2361315,数据集总存储大小:5350669
## 配置信息
默认配置(default)对应数据文件路径:
- 验证集:`data/validation-*`
- 测试集:`data/test-*`
提供机构:
Thanmay
原始信息汇总
数据集信息
特征
- label: 类型为字符串
- text: 类型为字符串
- target_groups: 类型为字符串序列
- id: 类型为整数
- toxicity_score: 类型为浮点数
- itv2 hi text: 类型为字符串
数据分割
- validation: 字节数为3207,样本数为9
- test: 字节数为5347462,样本数为14191
数据大小
- 下载大小: 2361315字节
- 数据集大小: 5350669字节
配置
- default:
- validation: 文件路径为
data/validation-* - test: 文件路径为
data/test-*
- validation: 文件路径为



