burtenshaw/1-million-rows

Name: burtenshaw/1-million-rows
Creator: burtenshaw
Published: 2026-04-30 18:15:58
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/burtenshaw/1-million-rows

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含100万行相同数据的测试数据集，这些数据都是从单一行复制而来的。该数据集用于压力测试数据加载器、批处理I/O和Hub上传管道。数据集包含id、name、value、category和timestamp五个字段，数据被分片成10个CSV文件，每个文件包含10万行数据。

A test dataset of one million identical rows, duplicated from a single source row. Useful for stress-testing data loaders, batch I/O, and Hub upload pipelines. The dataset includes five fields: id, name, value, category, and timestamp. The data is sharded into 10 CSV files, each containing 100,000 rows.

提供机构：

burtenshaw

搜集汇总

数据集介绍

构建方式

1-million-rows数据集是一种专为压力测试而设计的大规模基准数据集，其构建方式极为简明：通过对单一源行进行一百万次复制，生成了一百万条完全相同的记录。为避免单文件承载过重，数据被均匀切分为十个批处理文件（batch_000.csv至batch_009.csv），每个文件包含十万行数据，且均保留了统一的表头信息。这种构建策略使得数据具有高度可控性与可重复性，尤其适用于评估数据加载器、批处理输入输出系统以及Hub上传管道的性能极限。

特点

该数据集最显著的特点在于其内容的高度一致性——所有行均源自同一条基准记录，因而具备完全相同的结构化字段，包括整型id、字符串name、浮点型value、类别型category以及时间戳型timestamp。这种均匀性和重复性在常规数据集中罕见，却恰好为基准测试提供了理想的控制变量环境。数据量级恰好位于一百万至一千万行之间，兼顾了规模与可管理性，使其成为验证系统吞吐量、并行处理效率及容错能力的理想工具。

使用方法

使用时，用户可通过HuggingFace Datasets库加载默认配置，并读取'train'分割对应的所有batch文件。由于数据以标准CSV格式分片存储，兼容绝大多数数据处理框架如Pandas、Dask或PySpark。建议将数据集作为性能测试的输入负载，监测不同加载策略下的内存占用、读取耗时及吞吐量变化。此外，由于其行间无差异特性，亦可用于评估数据去重算法的处理逻辑，或验证管道在极端重复数据模式下的行为稳定性。

背景与挑战

背景概述

在现代机器学习和数据处理流程中，数据加载与传输效率是制约模型训练与系统稳定性的关键瓶颈之一。为评估大规模数据管道的吞吐能力和鲁棒性，研究人员于近期构建了名为“1-million-rows”的专用测试数据集，其核心研究问题聚焦于在高并发、重复数据的极端场景下，数据加载器、批处理输入输出（I/O）系统以及云端上传流水线（如HuggingFace Hub）的压力测试与性能评估。该数据集由单一源行复制生成，包含一千万条完全相同的行，并以10个分片文件（每个含10万行）的形式组织。尽管其来源与发布机构尚未在公开信息中明确标注，但其设计理念直接服务于数据工程与机器学习基础设施的可靠性验证，对社区优化数据管线、识别系统极限具有重要参考价值。

当前挑战

该数据集所解决的领域挑战是数据加载与处理系统的压力测试。在真实场景中，数据分布往往复杂多变，但系统在面对极端重复、无信息增益的数据时的表现（如内存占用、I/O等待时间、去重机制、并行处理效率）常被忽视，而这恰恰是评估系统鲁棒性的重要维度。此外，构建过程中也面临独特挑战：如何通过高效的复制与分片策略生成大规模测试数据，确保每个分片格式一致且无数据丢失；同时，在缺乏真实语义信息的前提下，如何设计出能够有效模拟实际负载且不引入额外噪声的数据结构，从而为基准测试提供公平、可复现的评估环境。

常用场景

经典使用场景

在数据工程与机器学习管道开发领域，1-million-rows数据集扮演着基准测试工具的角色。研究人员利用其高度重复且规模可控的特性，评估数据加载器在不同批处理策略下的吞吐能力，检验分布式存储系统对大规模数据集的读写性能，以及测试数据预处理流程的稳定性。该数据集通常作为压力测试的标准化输入，用以量化系统在高负载场景下的响应时间与资源消耗。

解决学术问题

该数据集解决了大规模数据系统性能评估中缺乏标准化测试基准的问题。学术研究常面临数据规模与多样性难以统一控制的困境，而1-million-rows通过简单的重复结构，隔离了数据分布的复杂性，使研究者能够聚焦于系统级瓶颈分析。其意义在于为数据管道优化、并行计算效率及缓存机制设计提供了可复现的定量评估基础，推动了数据工程领域方法论的系统化发展。

衍生相关工作

基于1-million-rows，衍生出多项经典工作。例如，有研究将其改造为多变量重复模式的数据集，用于检验去重算法的鲁棒性；另一些工作通过添加轻微噪声，探索数据一致性校验工具在近似重复场景下的错误率。这些变体拓展了原始数据集的应用边界，从单纯的性能测试延伸到数据质量评估与异常检测领域，形成了围绕压力测试的标准化工具链。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集