mtalrefaie/arallama-dataset-v1.0
收藏Hugging Face2024-01-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mtalrefaie/arallama-dataset-v1.0
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: int64
- name: text
dtype: string
- name: meta
struct:
- name: warc_headers
struct:
- name: warc-record-id
dtype: string
- name: warc-date
dtype: string
- name: content-type
dtype: string
- name: content-length
dtype: int32
- name: warc-type
dtype: string
- name: warc-identified-content-language
dtype: string
- name: warc-refers-to
dtype: string
- name: warc-target-uri
dtype: string
- name: warc-block-digest
dtype: string
- name: identification
struct:
- name: label
dtype: string
- name: prob
dtype: float32
- name: harmful_pp
dtype: float32
- name: tlsh
dtype: string
- name: quality_warnings
sequence: string
- name: categories
sequence: string
- name: sentence_identifications
list:
- name: label
dtype: string
- name: prob
dtype: float32
splits:
- name: train
num_bytes: 63195041070
num_examples: 4975268
download_size: 29939473314
dataset_size: 63195041070
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
mtalrefaie
原始信息汇总
数据集概述
数据集信息
- 特征列表:
- id: 数据类型为
int64。 - text: 数据类型为
string。 - meta: 结构化数据,包含以下字段:
- warc_headers: 结构化数据,包含以下字段:
- warc-record-id: 数据类型为
string。 - warc-date: 数据类型为
string。 - content-type: 数据类型为
string。 - content-length: 数据类型为
int32。 - warc-type: 数据类型为
string。 - warc-identified-content-language: 数据类型为
string。 - warc-refers-to: 数据类型为
string。 - warc-target-uri: 数据类型为
string。 - warc-block-digest: 数据类型为
string。
- warc-record-id: 数据类型为
- identification: 结构化数据,包含以下字段:
- label: 数据类型为
string。 - prob: 数据类型为
float32。
- label: 数据类型为
- harmful_pp: 数据类型为
float32。 - tlsh: 数据类型为
string。 - quality_warnings: 序列类型,数据类型为
string。 - categories: 序列类型,数据类型为
string。 - sentence_identifications: 列表类型,包含以下字段:
- label: 数据类型为
string。 - prob: 数据类型为
float32。
- label: 数据类型为
- warc_headers: 结构化数据,包含以下字段:
- id: 数据类型为
数据集分割
- train:
- 字节数: 63195041070
- 样本数: 4975268
数据集大小
- 下载大小: 29939473314
- 数据集大小: 63195041070
配置
- default:
- 数据文件:
- split: train
- path: data/train-*
- 数据文件:



