safety-aya/fineweb2-hindi-safety
收藏Hugging Face2026-03-24 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/safety-aya/fineweb2-hindi-safety
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
config_name: hin_Deva
features:
- name: text
dtype: large_string
- name: id
dtype: large_string
- name: dump
dtype: large_string
- name: url
dtype: large_string
- name: date
dtype: large_string
- name: file_path
dtype: large_string
- name: language
dtype: large_string
- name: language_score
dtype: float64
- name: language_script
dtype: large_string
- name: minhash_cluster_size
dtype: int64
- name: top_langs
dtype: large_string
- name: safety_label
dtype: large_string
- name: safety_categories
list: string
- name: safety_severity
dtype: large_string
- name: safety_confidence
dtype: float64
- name: safety_reason
dtype: large_string
- name: safety_words
list: string
- name: safety_model
dtype: large_string
- name: safety_scored_at
dtype: large_string
splits:
- name: train
num_bytes: 282339351
num_examples: 43226
download_size: 102975974
dataset_size: 282339351
configs:
- config_name: hin_Deva
data_files:
- split: train
path: hin_Deva/train-*
---
数据集信息:
配置名称:hin_Deva
特征字段:
- 名称:text,数据类型:大字符串类型
- 名称:id,数据类型:大字符串类型
- 名称:dump,数据类型:大字符串类型
- 名称:url,数据类型:大字符串类型
- 名称:date,数据类型:大字符串类型
- 名称:file_path,数据类型:大字符串类型
- 名称:language,数据类型:大字符串类型
- 名称:language_score,数据类型:64位浮点型
- 名称:language_script,数据类型:大字符串类型
- 名称:minhash_cluster_size,数据类型:64位整型
- 名称:top_langs,数据类型:大字符串类型
- 名称:safety_label,数据类型:大字符串类型
- 名称:safety_categories,数据类型:字符串列表
- 名称:safety_severity,数据类型:大字符串类型
- 名称:safety_confidence,数据类型:64位浮点型
- 名称:safety_reason,数据类型:大字符串类型
- 名称:safety_words,数据类型:字符串列表
- 名称:safety_model,数据类型:大字符串类型
- 名称:safety_scored_at,数据类型:大字符串类型
拆分集:
- 拆分名称:train,字节数:282339351,样本数量:43226
下载大小:102975974
数据集大小:282339351
配置项:
- 配置名称:hin_Deva
数据文件:
- 拆分集:train,文件路径:hin_Deva/train-*
提供机构:
safety-aya



