five

Synthyra/uniref50

收藏
Hugging Face2025-07-03 更新2025-07-05 收录
下载链接:
https://hf-mirror.com/datasets/Synthyra/uniref50
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含文本序列作为特征,有三个数据划分:训练集包含68340540个示例,大小为19850004390.27字节;验证集和测试集各包含10000个示例,大小均为2904572.37字节。整个数据集的大小为19855813535.0字节,下载大小为19881625108字节。

The dataset includes text sequences as features, and is divided into three splits: the training set contains 68340540 examples, with a size of 19850004390.27 bytes; the validation set and test set each contain 10000 examples, with a size of 2904572.37 bytes respectively. The total size of the dataset is 19855813535.0 bytes, and the download size is 19881625108 bytes.
提供机构:
Synthyra
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Synthyra/uniref50是一个大型文本数据集,采用parquet格式,数据规模在10M到100M之间,包含超过6800万行数据,主要分为train、valid和test三个子集。数据集由Hugging Face托管,支持多种数据处理库。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作