Synthyra/uniref50
收藏Hugging Face2025-07-03 更新2025-07-05 收录
下载链接:
https://hf-mirror.com/datasets/Synthyra/uniref50
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含文本序列作为特征,有三个数据划分:训练集包含68340540个示例,大小为19850004390.27字节;验证集和测试集各包含10000个示例,大小均为2904572.37字节。整个数据集的大小为19855813535.0字节,下载大小为19881625108字节。
The dataset includes text sequences as features, and is divided into three splits: the training set contains 68340540 examples, with a size of 19850004390.27 bytes; the validation set and test set each contain 10000 examples, with a size of 2904572.37 bytes respectively. The total size of the dataset is 19855813535.0 bytes, and the download size is 19881625108 bytes.
提供机构:
Synthyra
搜集汇总
数据集介绍

背景与挑战
背景概述
Synthyra/uniref50是一个大型文本数据集,采用parquet格式,数据规模在10M到100M之间,包含超过6800万行数据,主要分为train、valid和test三个子集。数据集由Hugging Face托管,支持多种数据处理库。
以上内容由遇见数据集搜集并总结生成



