DeepJSONEval

github2025-07-29 更新2025-07-31 收录

下载链接：

https://github.com/GTS-AI-Infra-Lab-SotaS/DeepJSONEval

下载链接

链接失效反馈

官方服务：

资源简介：

DeepJSONEval是一个用于评估大型语言模型在复杂嵌套JSON生成方面能力的基准测试和框架。它包含525个高质量数据实例，涵盖旅游景点、数字设备、医疗保健、运动员、自然植物、股票、学生记录、车辆、电影和视频游戏等十个不同领域。数据集通过嵌套深度进行系统难度分级，3-4级结构为中等难度，5-7级结构为高难度。

DeepJSONEval is a benchmark and framework for evaluating the capabilities of large language models in complex nested JSON generation. It contains 525 high-quality data instances spanning ten distinct domains: tourist attractions, digital devices, healthcare, athletes, natural plants, stocks, student records, vehicles, movies, and video games. The dataset is systematically graded for difficulty based on nesting depth, where structures with 3–4 nesting levels are classified as medium-difficulty, and those with 5–7 nesting levels are high-difficulty.

创建时间：

2025-07-26

原始信息汇总

DeepJSONEval数据集概述

数据集简介

DeepJSONEval是一个用于评估大型语言模型(LLM)在复杂嵌套JSON生成能力的基准测试框架。该数据集具有以下创新特点：

采用DFS子树搜索算法生成复杂嵌套结构
全面覆盖多种数据类型(字符串、数字、布尔值、枚举和列表)
提供多维度的细粒度评估框架
专门针对3-7层深度嵌套结构设计

数据集规模与领域

包含525个高质量数据实例
覆盖10个不同领域：
- 旅游景点
- 数字设备
- 医疗保健
- 运动员
- 自然植物
- 股票
- 学生记录
- 车辆
- 电影
- 视频游戏

难度分级

中等难度：3-4层嵌套结构
困难难度：5-7层嵌套结构

数据集生成方法

基于树的伪模式候选生成：使用树状迭代搜索方法生成多样化模式变体
标准JSON模式生成：使用LLM将中间结构转换为标准JSON模式
JSON对象生成：生成严格符合模式约束的JSON对象
文本生成：生成包含JSON结构和语义信息的自然语言文本

评估标准

格式分数：评估生成语法有效JSON的能力
详细内容分数：执行全面的属性级比较
严格分数：通过严格相等验证实现二进制精确匹配评估

数据格式

数据集包含5列：

schema：JSON输出模式
text：待提取的自然语言文本
json：与模式匹配的基准真实JSON
category：数据所属领域
true_depth：嵌套深度级别数

数据获取

可从Github项目下载DeepJSONEval.xlsx
也可从HuggingFace获取jsonl格式数据集：https://huggingface.co/datasets/GTSAIInfraLabSOTAS/DeepJSON

使用说明

环境准备

安装requirements.txt中列出的所有包： bash pip install -r requirements.txt

运行推理

使用OpenRouter网站API运行推理： python python running_infenrence.py --base-url url --key api-key --model-name model_name --saving-path whre to save the inference result

继续运行推理

对标记为"Need Retry"的数据重新请求： python python running_infenrence_continue.py --base-url url --key api-key --model-name model_name --saving-path whre to save the inference result

运行评估

python python running_evaluation.py --load-path whre to save the inference result --saving-path where to save the evaluation result

搜集汇总

数据集介绍

构建方式

DeepJSONEval数据集通过创新的树状结构迭代搜索方法生成多样化的伪模式候选，确保结构有效性和语义连贯性。随后利用大型语言模型将伪模式转化为标准JSON模式，并生成严格遵循模式约束的JSON对象。最终通过精心设计的提示模板，生成包含结构化和语义信息的自然语言文本，形成包含文本、JSON模式和JSON对象的三元组数据集。

特点

该数据集包含525个高质量数据实例，涵盖旅游景点、数字设备、医疗保健等十个多样化领域。通过3至7层嵌套深度实现系统难度分级，将3-4层结构归类为中等难度，5-7层结构归类为高难度。数据集采用多维度的精细评估框架，包括格式匹配准确度、字段正确性和完整结构正确性，为JSON生成质量提供多视角详细评估。

使用方法

使用该数据集需先安装requirements.txt中的依赖包，并下载DeepJSONEval.xlsx或HuggingFace上的jsonl格式数据。通过running_infenrence.py脚本调用OpenRouter网站的API进行推理，或自定义推理方法修改脚本第35行。若推理过程中出现不稳定情况，可使用running_infenrence_continue.py对标记为'Need Retry'的数据重新请求。最后通过running_evaluation.py脚本加载推理结果进行多维度评估。

背景与挑战

背景概述

DeepJSONEval作为一项开创性的深度嵌套JSON评估基准与框架，由前沿研究团队于近期推出，旨在系统评估大语言模型在复杂结构化输出生成中的能力。该数据集通过创新的深度优先搜索子树算法构建多层级嵌套结构，覆盖字符串、数字、布尔值等多种数据类型，并设计了包含格式匹配、字段准确性和完整结构正确性的多维评估体系。其525个高质量数据实例横跨旅游景点、数字设备、医疗健康等十大领域，依据3-7层嵌套深度划分为中高难度等级，为模型能力评估提供了渐进式基准。这一研究填补了复杂嵌套结构生成评估的空白，显著提升了相关领域测试的严谨性与现实适用性。

当前挑战

在解决复杂嵌套JSON生成这一核心问题上，DeepJSONEval面临着多重挑战：模型需同时处理深层结构逻辑与多类型数据语义，保持格式规范与内容准确性的平衡；评估过程中需克服严格模式匹配与语义理解之间的张力，尤其当嵌套层级达到5层以上时，现有模型的字段缺失率显著上升。数据集构建阶段，研究团队需攻克伪模式候选生成中的组合爆炸问题，通过树形迭代搜索算法确保结构有效性；在标准JSON模式转换环节，依赖大语言模型进行中间结构转化时面临语义一致性与语法正确性的双重校验挑战；最终文本生成阶段要求实现自然语言与结构化数据的精确对应，这对数据合成管道的设计提出了极高要求。

常用场景

经典使用场景

在自然语言处理领域，DeepJSONEval数据集为评估大型语言模型（LLM）生成复杂嵌套JSON结构的能力提供了标准化基准。该数据集通过多层级嵌套结构和多样化数据类型的组合，模拟了真实世界中数据结构化的复杂场景，成为研究者在模型能力评估、性能对比以及算法优化中的首选工具。尤其在需要精确结构化输出的任务中，如自动文档生成、数据转换和API响应模拟，DeepJSONEval展现了其不可替代的价值。

实际应用

在实际应用中，DeepJSONEval数据集已被广泛应用于智能客服系统、自动化数据录入工具和跨平台数据集成解决方案的开发。医疗健康领域利用其评估电子病历结构化处理的准确性，金融科技行业则通过该数据集优化股票交易数据的自动解析系统。旅游景点信息管理和数字设备规格生成等场景中，基于DeepJSONEval优化的模型展现出显著的效率提升和错误率降低。

衍生相关工作

该数据集的发布催生了一系列创新性研究，包括基于子树搜索的Schema生成算法改进、多模态结构化输出评估框架的构建，以及面向特定领域的嵌套JSON优化模型。在ACL、EMNLP等顶级会议上，已有研究团队借鉴DeepJSONEval的评估维度，开发出针对法律文书和学术论文的专用结构化生成系统，推动了领域适应性研究的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集