JSONSchemaBench
收藏arXiv2025-01-19 更新2025-01-23 收录
下载链接:
https://github.com/guidance-ai/jsonschemabench
下载链接
链接失效反馈官方服务:
资源简介:
JSONSchemaBench是一个由瑞士洛桑联邦理工学院和微软等机构共同创建的数据集,旨在评估语言模型在生成结构化输出时的性能。该数据集包含10,000个真实世界的JSON模式,涵盖了从简单到复杂的多种约束类型,适用于函数签名、服务API和系统配置等领域。数据集的创建过程包括从公开的GitHub仓库、JSON Schema测试套件等来源收集数据,并经过标准化处理以确保一致性。该数据集的应用领域主要集中在结构化生成任务中,旨在解决语言模型在生成符合预定义格式和约束的输出时的挑战。
JSONSchemaBench is a dataset co-created by institutions including École Polytechnique Fédérale de Lausanne (EPFL) of Switzerland and Microsoft, aiming to evaluate the performance of language models when generating structured outputs. This dataset contains 10,000 real-world JSON schemas, covering a wide range of constraint types from simple to complex, and is applicable to domains such as function signatures, service APIs, and system configurations. The creation process of this dataset involves collecting data from sources including public GitHub repositories and JSON Schema test suites, followed by standardization processing to ensure consistency. The application scenarios of this dataset mainly focus on structured generation tasks, aiming to address the challenges faced by language models when generating outputs that comply with predefined formats and constraints.
提供机构:
瑞士洛桑联邦理工学院, 微软, JSON Schema
创建时间:
2025-01-19
搜集汇总
数据集介绍

构建方式
JSONSchemaBench数据集的构建基于10,000个真实世界的JSON模式,这些模式来自多个来源,包括GitHub、Snowplow、Kubernetes、华盛顿邮报和GlaiveAI等。数据集的构建过程首先从这些来源收集JSON模式,随后通过严格的验证和清理步骤,确保每个模式都符合JSON Schema规范。数据集进一步根据模式的复杂性和多样性进行了分类,涵盖了从简单类型约束到复杂嵌套对象和数组的各种约束类型。最终,数据集被组织成10个子集,每个子集代表不同的应用领域和复杂度。
使用方法
JSONSchemaBench数据集的使用方法主要包括对约束解码框架的评估。用户可以通过该数据集评估框架在生成符合约束的输出时的效率、覆盖范围和质量。具体来说,数据集可以用于测试框架在处理不同复杂度和类型的JSON模式时的表现,并通过与JSON Schema官方测试套件的结合,进一步验证框架的覆盖率和合规性。此外,数据集还支持对框架的生成速度、首令牌生成时间和每个输出令牌的生成时间等效率指标进行详细分析。通过这些评估,用户可以选择最适合其应用场景的约束解码框架。
背景与挑战
背景概述
JSONSchemaBench 是一个用于评估约束解码框架的基准数据集,旨在解决现代语言模型(LM)应用中生成结构化输出的关键问题。该数据集由 EPFL 和 Microsoft 的研究团队于 2025 年创建,核心研究问题在于如何系统评估约束解码框架在生成符合 JSON Schema 约束的输出时的效率、覆盖范围和生成质量。JSONSchemaBench 包含 10,000 个真实世界的 JSON Schema,涵盖了从简单到复杂的多种约束类型,广泛应用于函数签名、服务 API 和系统配置等领域。该数据集的发布为约束解码框架的评估提供了新的标准,推动了结构化生成任务的研究进展。
当前挑战
JSONSchemaBench 面临的挑战主要体现在两个方面。首先,约束解码框架在生成结构化输出时,需要平衡效率、覆盖范围和生成质量。尽管约束解码可以显著提高输出的结构合规性,但其对生成速度的影响尚不明确,且不同框架对 JSON Schema 功能的支持程度差异较大。其次,数据集的构建过程中,研究人员需要从多个来源收集和标准化 JSON Schema,确保其多样性和复杂性能够反映真实世界的应用场景。此外,评估框架的设计需要综合考虑语法编译时间、生成速度以及输出质量,这对实验设计和指标选择提出了较高的要求。
常用场景
经典使用场景
JSONSchemaBench 数据集主要用于评估语言模型在生成结构化输出时的约束解码性能。该数据集包含10,000个真实世界的JSON Schema,涵盖了从简单到复杂的多种约束类型,适用于评估不同约束解码框架在生成符合特定结构要求的JSON输出时的表现。通过该数据集,研究人员可以系统地评估约束解码框架的效率、覆盖范围和输出质量,从而为实际应用中的结构化生成任务提供参考。
解决学术问题
JSONSchemaBench 数据集解决了语言模型在生成结构化输出时面临的约束解码问题。传统语言模型生成过程是概率性的,无法保证输出符合预定义的结构要求,而约束解码技术通过屏蔽无效的token来确保输出符合JSON Schema的约束。该数据集通过提供多样化的JSON Schema,帮助研究人员评估不同约束解码框架在生成符合约束的输出时的表现,填补了该领域系统性评估的空白,并为改进约束解码框架提供了数据支持。
实际应用
在实际应用中,JSONSchemaBench 数据集可以用于优化语言模型在生成结构化输出时的性能。例如,在API调用、数据提取和系统配置等场景中,生成的JSON输出必须严格符合预定义的结构要求。通过使用该数据集,开发者可以评估和选择最适合其应用场景的约束解码框架,确保生成的输出既符合结构要求,又具有较高的语义质量。此外,该数据集还可以用于训练和微调语言模型,使其在生成结构化输出时更加高效和准确。
数据集最近研究
最新研究方向
近年来,随着语言模型(LM)在复杂任务中的应用日益广泛,生成结构化输出的需求变得尤为迫切。JSONSchemaBench作为一个包含10K真实世界JSON模式的基准数据集,为评估约束解码框架的性能提供了重要工具。该数据集的研究方向主要集中在三个方面:生成效率、约束覆盖范围和输出质量。通过对比Guidance、Outlines、Llamacpp、XGrammar、OpenAI和Gemini等六种先进的约束解码框架,研究发现Guidance在生成效率、覆盖范围和输出质量上均表现优异,尤其在处理复杂JSON模式时展现出显著优势。这一研究不仅为约束解码技术的优化提供了实证依据,还为未来结构化生成任务的标准评估奠定了基础。
相关研究论文
- 1Generating Structured Outputs from Language Models: Benchmark and Studies瑞士洛桑联邦理工学院, 微软, JSON Schema · 2025年
以上内容由遇见数据集搜集并总结生成



