five

nietras/1brc.data

收藏
Hugging Face2024-01-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nietras/1brc.data
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是为The One Billion Row Challenge提供的数据文件,适用于那些不想使用Java或编写生成器,而是希望直接下载超过3GB数据的用户。数据文件是在本地机器上生成的,由于官方Java生成器是随机的(未设定种子,因此不具有确定性),因此这些文件与官方文件不同。数据集包含超过1000万行的文件,这些文件已使用7-zip压缩,并分割为1GB的卷,使用git lfs上传。预期的输出文件(`.out`)是使用Java实现生成的,但未验证结果的正确性。其他文件来自https://github.com/gunnarmorling/1brc/tree/main/src/test/resources/samples,并包含预期的输出。

该数据集是为The One Billion Row Challenge提供的数据文件,适用于那些不想使用Java或编写生成器,而是希望直接下载超过3GB数据的用户。数据文件是在本地机器上生成的,由于官方Java生成器是随机的(未设定种子,因此不具有确定性),因此这些文件与官方文件不同。数据集包含超过1000万行的文件,这些文件已使用7-zip压缩,并分割为1GB的卷,使用git lfs上传。预期的输出文件(`.out`)是使用Java实现生成的,但未验证结果的正确性。其他文件来自https://github.com/gunnarmorling/1brc/tree/main/src/test/resources/samples,并包含预期的输出。
提供机构:
nietras
原始信息汇总

1brc.data 数据集概述

数据集描述

  • 名称: 1brc.data
  • 别名: 1️⃣🐝🏎️ The One Billion Row Challenge - Data
  • 语言: 英语
  • 大小: 10亿到100亿行之间
  • 许可: Apache-2.0

数据文件

  • 数据文件大小超过3GB。
  • 数据文件是随机生成的,与官方Java生成器生成的文件不同。
  • 数据文件已使用7-zip压缩,并根据需要分割成1GB的卷。
  • 数据文件已通过git lfs上传。

预期输出

  • 预期输出文件(.out)是使用Java实现生成的。
  • 未验证输出结果的正确性。

其他文件

下载方式

  • 通过以下命令下载或克隆数据集:

    git clone https://huggingface.co/datasets/nietras/1brc.data

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作