JSONBench Dataset

github2025-01-29 更新2025-02-10 收录

下载链接：

https://github.com/ClickHouse/JSONBench

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含10亿个Bluesky事件的集合，数据以JSON对象的形式存储，每行一个对象（ndjson格式）。数据集通过Jetstream收集，并托管在公共的S3存储桶中。

This dataset is a collection of 1 billion Bluesky events. The data is stored as JSON objects, with one object per line in ndjson format. The dataset was collected via Jetstream and hosted in a public S3 bucket.

创建时间：

2025-01-26

原始信息汇总

JSONBench 数据集概述

数据集简介

JSONBench 是一个用于比较最受欢迎的分析数据库原生JSON支持的基准测试。

数据集详情

数据格式：JSON 对象，以换行符为分隔符的文件集合（ndjson）。
数据来源：使用 Jetstream 收集的 Bluesky 事件。
数据量：1亿个 Bluesky 事件。
存储位置：公共 S3 存储桶。
相关博客：JSONBench 博客详细解释了其工作原理和前五个数据库（ClickHouse、MongoDB、Elasticsearch、DuckDB 和 PostgreSQL）的基准测试结果。

基准测试原则

可复现性：测试可以半自动化地轻松复现，测试设置文档化，使用 inexpensive cloud VMs。
真实性：使用真实世界生产数据，允许正确计算压缩、索引、编解码器、自定义数据结构等。
公平性：应尽最大努力了解每个测试系统的细节，以进行公平比较。

测试目标

旨在推进半结构化数据分析的可能性。

限制

基准测试专注于数据分析查询，而不是搜索、单值检索或变更操作。

硬件要求

为运行 1 亿行数据，需要配置资源充足、磁盘空间足够的机器。压缩后数据集大小为 125 Gb，解压后可达 425 Gb。

使用说明

数据下载：使用 copy_data.sh 脚本下载数据集，可以选择不同大小（1m、10m、100m、1000m）。
运行基准测试：根据数据库选择相应文件夹，运行 main.sh 脚本执行基准测试。
结果获取：结果存储在每个数据库文件夹中的文件里，文件以 _m6i.8xlarge 为前缀。

添加新数据库

欢迎为基准测试贡献新的数据库条目，包括开源和商业、实验性和嵌入式数据库。

类似项目

查询大型 JSON 数据集的最快命令行工具

搜集汇总

数据集介绍

构建方式

JSONBench Dataset 乃是通过 Jetstream 收集 Bluesky 事件所得，包含 1 亿条 Bluesky 事件，并以 newline 分隔的 JSON 对象文件形式存在。该数据集旨在对比不同分析数据库对原生 JSON 支持的性能差异，其构建过程体现了对实际生产数据的采集与应用。

特点

该数据集具备高度的现实性，采用真实世界的生产数据，允许对压缩、索引、编解码器、自定义数据结构等方面进行准确考量。此外，它还能够测试硬件的多种方面，如存储吞吐量、CPU 核心数量、单核速度以及主内存带宽等。数据集的构建遵循了可重现性、现实性和公平性原则，以确保测试结果的客观有效。

使用方法

使用该数据集时，首先需要通过提供的脚本下载所需大小的数据集。之后，根据具体数据库，在相应的文件夹中运行 benchmark 脚本，脚本会自动安装数据库系统、准备数据并执行 benchmark。最后，结果将被存储在指定的文件中，以便进行后续的分析和比较。

背景与挑战

背景概述

JSONBench Dataset是一项针对最流行分析数据库的原生JSON支持性能的比较基准。该数据集由1亿个Bluesky事件的JSON对象组成，以换行符分隔的JSON对象集合（ndjson）形式存在，旨在推动半结构化数据上的数据分析可能性。JSONBench受到2022年发布的ClickBench的启发，并期望能对其性能、功能和稳定性带来相似的积极影响。

当前挑战

该数据集在研究领域中的挑战主要包括：如何准确高效地在多个数据库系统之间比较原生JSON处理能力，以及如何确保测试的再现性、真实性和公平性。在构建过程中，数据集的构建者面临了如何处理大规模数据、优化数据加载流程以及如何平衡不同数据库系统间的性能比较等挑战。此外，数据集还专注于数据分析查询，而非搜索、单值检索或变更操作，这限制了其应用范围的广泛性。

常用场景

经典使用场景

JSONBench Dataset乃是一项针对最流行分析数据库的原生JSON支持进行比较的评测基准。该数据集典型的使用场景在于，通过对比不同数据库系统处理大规模JSON数据的性能，以评估其在数据分析和查询方面的效率与优劣。

实际应用

在实际应用中，JSONBench Dataset被用于指导数据库系统的优化与升级，以及为需要处理大量JSON格式数据的企业或研究机构提供性能选择的参考。其评测结果有助于用户了解不同数据库在处理实际生产数据时的表现，从而作出更加明智的技术选择。

衍生相关工作

基于JSONBench Dataset的研究衍生出了一系列相关工作，包括对各类数据库系统进行性能评测和对比分析的论文，以及对评测方法论和工具的改进。这些工作进一步拓展了JSONBench的应用范围，为其在数据库性能研究领域的意义和影响增添了更多维度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集