davanstrien/test-sink
收藏Hugging Face2025-12-12 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/davanstrien/test-sink
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: large_string
- name: url
dtype: large_string
- name: text
dtype: large_string
- name: language
dtype: large_string
- name: token_count
dtype: int64
- name: dump
dtype: large_string
- name: page_average_lid_score
dtype: float64
splits:
- name: train
num_bytes: 3706571
num_examples: 50
download_size: 1790640
dataset_size: 3706571
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息:
特征:
- 字段名:id,数据类型:大字符串类型(large_string)
- 字段名:url,数据类型:大字符串类型(large_string)
- 字段名:text,数据类型:大字符串类型(large_string)
- 字段名:language,数据类型:大字符串类型(large_string)
- 字段名:token_count,数据类型:64位整数类型(int64)
- 字段名:dump,数据类型:大字符串类型(large_string)
- 字段名:page_average_lid_score,数据类型:64位浮点类型(float64)
数据划分:
- 划分名称:train(训练集),该划分占用字节数:3706571,样本数量:50
下载大小:1790640,数据集总存储大小:3706571
配置项:
- 配置名称:default(默认配置),数据文件:
- 对应划分:train(训练集),文件路径:data/train-*
提供机构:
davanstrien



