thachhoang/cypress_test
收藏Hugging Face2024-06-11 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/thachhoang/cypress_test
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: string
- name: id
dtype: string
- name: metadata
struct:
- name: file_path
dtype: string
- name: repo_id
dtype: string
- name: token_count
dtype: int64
- name: __index_level_0__
dtype: int64
splits:
- name: train
num_bytes: 22265334
num_examples: 5340
download_size: 7028499
dataset_size: 22265334
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息:
特征字段:
- 名称:text,数据类型:字符串类型
- 名称:id,数据类型:字符串类型
- 名称:元数据 (metadata),数据类型:结构体,结构体包含以下子字段:
- 名称:file_path,数据类型:字符串类型
- 名称:repo_id,数据类型:字符串类型
- 名称:Token 计数 (token_count),数据类型:64位整型
- 名称:__index_level_0__,数据类型:64位整型
数据集拆分:
- 拆分名称:train(训练集),字节占用量:22265334,样本总数:5340
下载大小:7028499
数据集存储总大小:22265334
配置项:
- 配置名称:default(默认配置),数据文件:
- 拆分:train(训练集),路径:data/train-*
提供机构:
thachhoang
原始信息汇总
数据集概述
数据集信息
特征
- text: 数据类型为
string - id: 数据类型为
string - metadata: 结构化数据
- file_path: 数据类型为
string - repo_id: 数据类型为
string - token_count: 数据类型为
int64
- file_path: 数据类型为
- index_level_0: 数据类型为
int64
数据分割
- train: 包含 5340 个样本,总字节数为 22265334
数据集大小
- 下载大小: 7028499 字节
- 数据集大小: 22265334 字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:



