five

zevatov/nra-benchmarks

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/zevatov/nra-benchmarks
下载链接
链接失效反馈
官方服务:
资源简介:
NRA Benchmark Datasets是一个用于机器学习训练的流式格式数据集集合,支持无需下载即可直接从云端流式传输数据。数据集涵盖多个领域,包括视觉(如food-101.nra)、文本(如wikitext.nra)、多模态(如pokemon.nra)、音频(如minds14.nra)、张量(如gpt2-weights.nra)和合成数据(如synthetic.nra)。NRA格式支持随机访问、去重、加密和快速启动训练,相比传统格式(如tar.gz和ZIP)具有显著优势。

NRA Benchmark Datasets is a collection of streaming format datasets for machine learning training, enabling direct streaming from the cloud without downloading. The datasets cover multiple domains, including vision (e.g., food-101.nra), text (e.g., wikitext.nra), multimodal (e.g., pokemon.nra), audio (e.g., minds14.nra), tensors (e.g., gpt2-weights.nra), and synthetic data (e.g., synthetic.nra). The NRA format supports random access, deduplication, encryption, and fast training startup, offering significant advantages over traditional formats like tar.gz and ZIP.
提供机构:
zevatov
搜集汇总
数据集介绍
main_image_url
构建方式
nra-benchmarks 数据集是 Neural Ready Archive (NRA) 格式的基准测试集合,涵盖了视觉、文本、多模态、音频、张量及合成数据六大领域。其构建方式依托于 Rust 原生流式存储格式 NRA,将原有的分散式数据集如 Food-101、Wikitext、Pokemon BLIP Captions、Minds14 及 GPT-2 权重等,通过零下载流式归档技术打包为单一 .nra 文件。该过程基于 NRA 的特性实现了高效的随机访问、内建去重、AES-256 逐块加密以及云上流式读取功能,用户无需将数据下载至本地即可直接进行训练。所有文件均经过 CRC32 和 BLAKE3 双校验机制,确保数据完整性与一致性。
特点
该数据集的核心优势在于突破性的流式训练架构,允许用户在不消耗本地存储空间的前提下,通过 URL 直接访问高达 4.7 GB 的视觉数据或 7.6 MB 的文本数据,首批次数据加载时间从传统压缩格式的约 7 分钟缩短至 0.6 秒。其内在去重机制可节省 4 至 8 倍的存储空间,且提供 O(1) 时间复杂度的随机文件访问能力,远优于 ZIP 格式的缓慢定位。此外,数据集广泛覆盖图像分类、文本生成、语音识别等主流任务,并附带了合成数据用于验证算法鲁棒性,具备极高的实用性。
使用方法
用户可通过 pip 安装 nra 和 torch 库后,直接定义一个继承自 torch.utils.data.Dataset 的 NRAStreamDataset 类,利用 nra.CloudArchive 从 Hugging Face 数据集仓库的 URL 中流式读取 .nra 文件。例如,通过 'https://huggingface.co/datasets/zevatov/nra-benchmarks/resolve/main/food-101.nra' 即可实例化数据集,随后将其传递给 DataLoader,设置 batch_size、num_workers 及 shuffle 参数即可启动训练。对于数据完整性验证,可安装 nra-cli 工具并运行 'nra-cli verify-beta' 命令对指定文件进行 CRC32 和 BLAKE3 校验。
背景与挑战
背景概述
nra-benchmarks数据集由开发者zevatov于近年创建,旨在为Neural Ready Archive(NRA)格式提供全面的基准测试资源。NRA是一种专为机器学习训练设计的Rust原生流式数据集格式,致力于取代传统的tar.gz和zip压缩方案。该数据集涵盖计算机视觉、自然语言处理、语音识别及多模态等核心领域,包含Food-101、Wikitext、Minds14等经典子集,总样本量超过10万。其核心研究问题在于验证NRA格式在零下载、随机访问和去重等关键特性上的性能优势,为AI训练的数据存储与传输提供高效解决方案。nra-benchmarks通过开箱即用的基准测试,显著推动了流式数据格式在ML社区中的标准化进程。
当前挑战
在领域问题层面,传统数据压缩格式如tar.gz和zip因不支持云端随机访问和流式加载,在模型训练中常导致冗长的下载与解压延迟,尤其在大规模数据集(如5GB)上,首次训练批次等待时间可达数分钟,严重制约迭代效率。nra-benchmarks面临的核心挑战是验证NRA格式能否将首次批处理时间压缩至亚秒级,并实现O(1)复杂度的随机存取与4-8倍的去重压缩比。在构建过程中,数据集需整合多种异质模态(图像、文本、音频、张量等)并以统一NRA格式封装,最大挑战在于确保跨领域数据在流式传输中的完整性校验(如CRC32与BLAKE3双重哈希)和不丢失原始语义信息,同时兼顾加密安全性(AES-256)与高效并发加载。
常用场景
经典使用场景
在机器学习和深度学习领域中,数据集的加载与预处理通常是训练流程中的主要瓶颈之一。NRA基准数据集的出现,为这一痛点提供了优雅的解决方案。该数据集以Neural Ready Archive(NRA)格式封装,涵盖图像分类(如Food-101)、文本生成(如Wikitext)、语音识别(如Minds14)以及多模态任务(如宝可梦图文对)等经典场景。其最经典的使用场景在于实现零下载的流式训练,研究者无需将整个数据集存储至本地磁盘,即可直接从云端按需读取数据,单机或分布式训练均可瞬间启动,极大地简化了实验迭代流程。
解决学术问题
传统压缩格式(如tar.gz或ZIP)在面对大规模训练数据时,存在解压耗时、无法随机访问、不支持云端流式读取等固有问题,严重制约了学术研究的效率与可复现性。NRA基准数据集通过引入支持O(1)随机访问的流式架构、内置去重机制与基于BLAKE3的完整性校验,显著缓解了数据加载瓶颈。研究者可基于此数据集在严苛的算力环境下开展公平的模型对比实验,探索数据去重对模型泛化能力的影响,并在无本地存储的前提下验证大规模数据训练的可行性,为数据高效利用与分布式学习研究提供了坚实的实验基底。
衍生相关工作
NRA基准数据集的出现催生了一系列与之密切相关的研究工作。在数据工程领域,研究者围绕NRA格式本身展开了优化探索,包括设计更高效的去重哈希算法以进一步提升压缩比,以及将NRA集成至Spark等大数据框架中以支持超大规模训练流程。在可重复性研究方面,基于NRA的流式训练模式被用于复现经典论文结果,验证从零开始训练的性能。部分工作还探讨了在联邦学习环境下利用NRA的加密分块特性实现安全参数聚合,以及将其作为标准数据集容器格式与模型注册表协同使用的可能性,为未来数据与模型的统一管理架构奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作