nietras/1brc.data
收藏Hugging Face2024-01-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nietras/1brc.data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为The One Billion Row Challenge提供的数据文件,适用于那些不想使用Java或编写生成器,而是希望直接下载超过3GB数据的用户。数据文件是在本地机器上生成的,由于官方Java生成器是随机的(未设定种子,因此不具有确定性),因此这些文件与官方文件不同。数据集包含超过1000万行的文件,这些文件已使用7-zip压缩,并分割为1GB的卷,使用git lfs上传。预期的输出文件(`.out`)是使用Java实现生成的,但未验证结果的正确性。其他文件来自https://github.com/gunnarmorling/1brc/tree/main/src/test/resources/samples,并包含预期的输出。
该数据集是为The One Billion Row Challenge提供的数据文件,适用于那些不想使用Java或编写生成器,而是希望直接下载超过3GB数据的用户。数据文件是在本地机器上生成的,由于官方Java生成器是随机的(未设定种子,因此不具有确定性),因此这些文件与官方文件不同。数据集包含超过1000万行的文件,这些文件已使用7-zip压缩,并分割为1GB的卷,使用git lfs上传。预期的输出文件(`.out`)是使用Java实现生成的,但未验证结果的正确性。其他文件来自https://github.com/gunnarmorling/1brc/tree/main/src/test/resources/samples,并包含预期的输出。
提供机构:
nietras
原始信息汇总
1brc.data 数据集概述
数据集描述
- 名称: 1brc.data
- 别名: 1️⃣🐝🏎️ The One Billion Row Challenge - Data
- 语言: 英语
- 大小: 10亿到100亿行之间
- 许可: Apache-2.0
数据文件
- 数据文件大小超过3GB。
- 数据文件是随机生成的,与官方Java生成器生成的文件不同。
- 数据文件已使用7-zip压缩,并根据需要分割成1GB的卷。
- 数据文件已通过git lfs上传。
预期输出
- 预期输出文件(
.out)是使用Java实现生成的。 - 未验证输出结果的正确性。
其他文件
- 其他文件来自gunnarmorling/1brc,包含预期输出。
下载方式
-
通过以下命令下载或克隆数据集:
git clone https://huggingface.co/datasets/nietras/1brc.data



