eduagarcia-temp/OSCAR-2301_meta
收藏Hugging Face2023-08-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/eduagarcia-temp/OSCAR-2301_meta
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: int64
- name: text
dtype: string
- name: meta
struct:
- name: categories
sequence: string
- name: dedup
struct:
- name: exact_norm
struct:
- name: cluster_main_idx
dtype: int64
- name: cluster_size
dtype: int64
- name: exact_hash_idx
dtype: int64
- name: is_duplicate
dtype: bool
- name: minhash
struct:
- name: cluster_main_idx
dtype: int64
- name: cluster_size
dtype: int64
- name: is_duplicate
dtype: bool
- name: minhash_idx
dtype: int64
- name: harmful_pp
dtype: float64
- name: identification
struct:
- name: label
dtype: string
- name: prob
dtype: float64
- name: quality_warnings
sequence: string
- name: sentence_identifications
list:
- name: label
dtype: string
- name: prob
dtype: float64
- name: tlsh
dtype: string
- name: warc_headers
struct:
- name: content-length
dtype: int64
- name: content-type
dtype: string
- name: warc-block-digest
dtype: string
- name: warc-date
dtype: string
- name: warc-identified-content-language
dtype: string
- name: warc-record-id
dtype: string
- name: warc-refers-to
dtype: string
- name: warc-target-uri
dtype: string
- name: warc-type
dtype: string
splits:
- name: train
num_bytes: 127702717461
num_examples: 18031400
download_size: 40317121912
dataset_size: 127702717461
---
# Dataset Card for "OSCAR-2301_meta"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
eduagarcia-temp
原始信息汇总
数据集概述
数据集信息
- 特征结构:
- id: 数据类型为
int64。 - text: 数据类型为
string。 - meta: 结构化数据,包含以下字段:
- categories: 序列类型,数据类型为
string。 - dedup: 结构化数据,包含以下字段:
- exact_norm: 结构化数据,包含以下字段:
- cluster_main_idx: 数据类型为
int64。 - cluster_size: 数据类型为
int64。 - exact_hash_idx: 数据类型为
int64。 - is_duplicate: 数据类型为
bool。
- cluster_main_idx: 数据类型为
- minhash: 结构化数据,包含以下字段:
- cluster_main_idx: 数据类型为
int64。 - cluster_size: 数据类型为
int64。 - is_duplicate: 数据类型为
bool。 - minhash_idx: 数据类型为
int64。
- cluster_main_idx: 数据类型为
- exact_norm: 结构化数据,包含以下字段:
- harmful_pp: 数据类型为
float64。 - identification: 结构化数据,包含以下字段:
- label: 数据类型为
string。 - prob: 数据类型为
float64。
- label: 数据类型为
- quality_warnings: 序列类型,数据类型为
string。 - sentence_identifications: 列表类型,包含以下字段:
- label: 数据类型为
string。 - prob: 数据类型为
float64。
- label: 数据类型为
- tlsh: 数据类型为
string。 - warc_headers: 结构化数据,包含以下字段:
- content-length: 数据类型为
int64。 - content-type: 数据类型为
string。 - warc-block-digest: 数据类型为
string。 - warc-date: 数据类型为
string。 - warc-identified-content-language: 数据类型为
string。 - warc-record-id: 数据类型为
string。 - warc-refers-to: 数据类型为
string。 - warc-target-uri: 数据类型为
string。 - warc-type: 数据类型为
string。
- content-length: 数据类型为
- categories: 序列类型,数据类型为
- id: 数据类型为
数据集分割
- train:
- 字节数: 127702717461 字节。
- 样本数: 18031400 个样本。
数据集大小
- 下载大小: 40317121912 字节。
- 数据集大小: 127702717461 字节。



