JSONSchemaBench

github2025-01-22 更新2025-01-24 收录

下载链接：

https://github.com/guidance-ai/jsonschemabench

下载链接

链接失效反馈

官方服务：

资源简介：

JSONSchemaBench是一个包含约10,000个真实世界JSON模式的基准数据集，用于评估结构化输出生成的效率和覆盖率。数据集涵盖了从GitHub、Kubernetes配置和API规范等多种来源的JSON模式，并根据复杂性和领域进行了分类。

JSONSchemaBench is a benchmark dataset consisting of approximately 10,000 real-world JSON schemas, dedicated to evaluating the efficiency and coverage of structured output generation. The dataset encompasses JSON schemas from a variety of sources such as GitHub, Kubernetes configurations, and API specifications, and has been categorized based on complexity and domain.

创建时间：

2025-01-15

原始信息汇总

JSONSchemaBench 数据集概述

数据集简介

JSONSchemaBench 是一个包含约10,000个真实世界 JSON Schema 的基准测试集，旨在评估结构化输出生成引擎的效率和覆盖率。这些 JSON Schema 涵盖了广泛的约束和复杂性，适用于现代 LLM 应用中的结构化输出生成。

数据集来源

数据集中的 JSON Schema 来源于多个真实世界的场景，包括 GitHub、Kubernetes 配置和 API 规范。数据集经过精心筛选，确保其符合标准且可满足性。

数据集分类

数据集根据复杂性和领域进行了分类，具体分类如下：

数据集	类别	数量
GlaiveAI-2K	函数调用	1707
Github-Trivial	杂项	444
Github-Easy	杂项	1943
Snowplow	操作 API	403
Github-Medium	杂项	1976
Kubernetes	Kubernetes API	1064
Washington Post	资源访问 API	125
Github-Hard	杂项	1240
JSONSchemaStore	杂项	492
Github-Ultra	杂项	164
总计		9558

数据文件结构

数据集文件按类别存储在 data 目录下，每个文件夹包含相应的 JSON Schema 文件。例如：

data ├── Github_easy ├── Github_hard ├── Github_medium ├── Github_trivial ├── Github_ultra ├── Glaiveai2K ├── JsonSchemaStore ├── Kubernetes ├── Snowplow └── WashingtonPost

快速开始

加载 JSON Schema：可以从 GlaiveAI 数据集中加载一个 JSON Schema 文件。
生成结构化输出：使用提示词生成符合 Schema 的结构化输出。
使用结构化输出生成引擎：支持多种引擎，如 OpenAI、Gemini、Guidance、XGrammar、Outlines 和 Llamacpp。

输出验证

使用 jsonschema 库对生成的输出进行验证，确保其符合 JSON Schema Draft 2012 规范。

引用

如需引用该数据集，请使用以下 BibTeX 格式：

bibtex @misc{geng2025jsonschemabench, title={Generating Structured Outputs from Language Models: Benchmark and Studies}, author={Saibo Geng and Hudson Cooper and Michał Moskal and Samuel Jenkins and Julian Berman and Nathan Ranchin and Robert West and Eric Horvitz and Harsha Nori}, year={2025}, eprint={2501.10868}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2501.10868}, }

搜集汇总

数据集介绍

构建方式

JSONSchemaBench的构建基于真实世界的JSON模式，涵盖了从GitHub、Kubernetes配置到API规范等多种来源。该数据集从[json-schema-corpus](https://github.com/sdbs-uni-p/json-schema-corpus)中提取了大量模式，并进行了严格的筛选和标准化处理，以确保其符合JSON Schema规范。此外，还引入了来自[GlaiveAI函数调用模式](https://huggingface.co/datasets/glaiveai/glaive-function-calling-v2)和[Kubernetes模式](https://github.com/instrumenta/kubernetes-json-schema)的额外数据，以增强数据集的多样性。最终，这些模式根据复杂度和领域被分类为多个子集，形成了一个包含约10,000个模式的综合基准。

特点

JSONSchemaBench的核心特点在于其广泛覆盖了真实世界中的JSON模式，涵盖了从简单到复杂的多种约束条件。该数据集不仅包含了来自不同领域的模式，还通过分类和标注，使得用户能够根据需求选择特定复杂度的子集进行测试。此外，JSONSchemaBench还特别关注了模式的可满足性和标准合规性，确保了其在评估结构化输出生成引擎时的可靠性和有效性。通过这种方式，该数据集能够全面衡量生成引擎的效率和覆盖率，为开发者提供了强有力的工具来优化其应用。

使用方法

使用JSONSchemaBench时，用户首先可以通过加载数据集中的JSON模式文件，生成符合特定模式的结构化输出。数据集提供了详细的代码示例，展示了如何与多种结构化输出生成引擎（如OpenAI、Gemini、Guidance等）进行集成。用户可以根据需求选择不同的引擎，并通过生成的结构化输出来评估其性能和覆盖范围。此外，数据集还提供了输出验证工具，使用[jsonschema](https://pypi.org/project/jsonschema/)库对生成的输出进行验证，确保其符合JSON Schema Draft 2012规范。通过这些步骤，用户可以全面测试和优化其结构化输出生成引擎的性能。

背景与挑战

背景概述

JSONSchemaBench 是一个专注于结构化输出生成的基准测试数据集，旨在评估现代大语言模型（LLM）在生成符合 JSON Schema 标准的输出时的效率和覆盖率。该数据集由 Saibo Geng 等研究人员于 2025 年提出，包含了约 10,000 个真实世界的 JSON Schema，涵盖了从简单到复杂的多种约束条件。这些 Schema 来源于 GitHub、Kubernetes 配置和 API 规范等多样化场景，经过严格筛选以确保其符合标准且可满足性。JSONSchemaBench 的推出填补了结构化输出生成领域系统性评估的空白，为相关研究提供了重要的数据支持。

当前挑战

JSONSchemaBench 面临的挑战主要体现在两个方面。首先，在解决领域问题时，如何准确衡量不同结构化输出生成引擎的效率、覆盖率和质量是一个复杂的问题。尽管 JSON Schema 已成为结构化数据的标准格式，但其多样化的约束条件和复杂性使得评估变得极具挑战性。其次，在数据集的构建过程中，研究人员需要从大量真实世界的 JSON Schema 中进行筛选和分类，确保其标准合规性和可满足性，同时还要平衡数据集的多样性和代表性。此外，如何将不同来源的 Schema 整合到一个统一的基准中，并确保其在不同应用场景下的适用性，也是构建过程中需要克服的难题。

常用场景

经典使用场景

在自然语言处理领域，JSONSchemaBench数据集被广泛应用于评估和优化结构化输出生成模型的性能。通过提供多样化的真实世界JSON模式，该数据集能够帮助研究人员测试模型在处理复杂约束和多样化数据结构时的表现。特别是在生成符合特定JSON模式的输出时，JSONSchemaBench为模型提供了丰富的测试场景，涵盖了从简单到复杂的各种数据结构。

衍生相关工作

JSONSchemaBench数据集催生了一系列相关研究工作，特别是在结构化输出生成领域。基于该数据集，研究人员开发了多种新的算法和模型，用于提高生成结构化输出的准确性和效率。此外，该数据集还促进了不同结构化输出生成引擎之间的比较研究，帮助学术界和工业界更好地理解各种引擎的优缺点，推动了相关技术的进一步发展。

数据集最近研究