shalib/test
收藏Hugging Face2024-07-05 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/shalib/test
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含文本数据,每个条目包括文本内容、唯一标识符、元数据(如文件路径、仓库ID和令牌计数)以及一个索引级别。数据集被分割为训练集,包含3545个示例,总大小为55909932字节。数据集的结构和配置信息表明它可能用于文本分析或机器学习任务。
The dataset includes text, identifier, metadata (containing file path, repository ID, and token count), and index level information. It consists of a single training set with 3545 examples, totaling 55909932 bytes, with a download size of 14485823 bytes.
提供机构:
shalib
原始信息汇总
数据集概述
数据集信息
- 特征:
- text: 数据类型为
string。 - id: 数据类型为
string。 - metadata: 结构化数据,包含以下字段:
- file_path: 数据类型为
string。 - repo_id: 数据类型为
string。 - token_count: 数据类型为
int64。
- file_path: 数据类型为
- index_level_0: 数据类型为
int64。
- text: 数据类型为
数据集分割
- train:
- 数据量: 3545 条记录。
- 数据大小: 55909932 字节。
数据集大小
- 下载大小: 14485823 字节。
- 总数据大小: 55909932 字节。
配置
- default:
- 数据文件:
- train: 路径为
data/train-*。
- train: 路径为
- 数据文件:



