json-mode-eval-extended

Hugging Face2025-08-15 更新2025-08-16 收录

下载链接：

https://huggingface.co/datasets/eth-sri/json-mode-eval-extended

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于评估大型语言模型（LLM）在遵循JSON Schema从自然语言中提取数据能力的数据集。数据集通过清洗和标准化 NousResearch 的 json-mode-eval 和 eth-sri 的 json-mode-eval-cleaned 生成，确保每个schema都符合非空约束，并且顶层没有额外的键。数据集包含输入文本、输出文本、实例ID和JSON Schema，用于训练和评估模型。

This is a dataset for evaluating the capability of Large Language Models (LLMs) to extract data from natural language in compliance with JSON Schema. The dataset is generated by cleaning and standardizing two existing resources: NousResearch's json-mode-eval and eth-sri's json-mode-eval-cleaned. It ensures that each schema complies with non-null constraints and has no extra top-level keys. The dataset includes input texts, output texts, instance IDs, and JSON Schemas, and is intended for model training and evaluation.

创建时间：

2025-08-13

原始信息汇总

JSON-Mode-eval extended 数据集概述

数据集基本信息

来源数据集:
- NousResearch/json-mode-eval
- eth-sri/json-mode-eval-cleaned
特征:
- instance_id: string
- input: string
- output: string
- schema: string
数据分割:
- test: 272个样本，322620字节
下载大小: 133014字节
数据集大小: 322620字节

数据集描述

用途: 评估大语言模型（LLM）从自然语言中提取数据并遵循JSON Schema的能力。
生成方法:
- 对Nous-Research的json-mode-eval进行清理和标准化，生成json-mode-eval-cleaned。
- 使用Gemini 2.5 Pro为每个schema生成额外的10个样本，并筛选符合给定schema的有效输出。
应用场景: 用于论文《Constrained Decoding of Diffusion LLMs with Context-Free Grammars》中的评估。

示例用法

python from datasets import load_dataset import json

dataset = load_dataset(eth-sri/json-mode-eval-extended) for instance in dataset[test]: print(json.dumps(instance, indent=2)) break

示例实例

json { "instance_id": "jsonschema_0", "input": "Okay, this is a report for a problematic batch we just processed. The ID is PROTOTYPE-GAMMA-FAIL-03. We finished producing it on May 5th, 2024. Unfortunately, the yield was terrible, only 45.7%. Weve identified several critical defects: Substrate cracking, Photolithography misalignment, Incomplete metal deposition, and High dopant variation. This is a significant setback, and we need to document it thoroughly. The team lead also mentioned something about a new supplier for one of the materials, but thats for a separate investigation.", "output": "{ "batchID": "PROTOTYPE-GAMMA-FAIL-03", "productionDate": "2024-05-05", "yieldRate": 45.7, "defects": [ "Substrate cracking", "Photolithography misalignment", "Incomplete metal deposition", "High dopant variation" ] }", "schema": "{"title": "SemiconductorProductionBatchTracking", "type": "object", "properties": {"batchID": {"title": "Batch ID", "type": "string"}, "productionDate": {"title": "Production Date", "type": "string", "format": "date"}, "yieldRate": {"title": "Yield Rate", "type": "number", "minimum": 0, "maximum": 100}, "defects": {"title": "Defects", "type": "array", "items": {"type": "string"}}}, "required": ["batchID", "productionDate", "yieldRate"], "additionalProperties": false}" }

相关资源

论文: Constrained Decoding of Diffusion LLMs with Context-Free Grammars
代码仓库: the project GitHub Repository

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估大语言模型从文本中提取结构化数据的能力至关重要。json-mode-eval-extended数据集基于NousResearch的原始数据集，经过清洗和标准化处理，确保每个JSON模式都强制执行非空约束，并且不允许在顶层添加额外键。研究者进一步使用Gemini 2.5 Pro模型为每个模式生成了10个额外样本，并通过严格的模式验证筛选出符合要求的数据。该数据集构建过程严谨，为评估语言模型的JSON模式遵循能力提供了可靠基准。

特点

该数据集以其严格的数据规范和丰富的实例类型脱颖而出。每个样本包含自然语言输入、符合JSON模式的输出以及详细的模式定义，确保了评估的全面性和准确性。数据集特别强调非空约束和键值限制，能够有效检验模型对复杂模式的理解能力。272个测试实例覆盖了多样化的应用场景，为研究者提供了丰富的评估素材。数据集的紧凑性和高质量使其成为评估语言模型结构化输出能力的理想选择。

使用方法

使用该数据集时，研究者可通过Hugging Face的datasets库轻松加载。数据集仅包含测试集，每个实例都包含instance_id、input、output和schema四个字段。典型的评估流程包括加载数据集、解析JSON模式、将自然语言输入传递给待测模型，并验证输出是否符合给定模式。示例代码展示了如何迭代数据集中的实例，研究者可在此基础上构建更复杂的评估流程。该数据集特别适合用于验证模型在受约束解码场景下的表现。

背景与挑战

背景概述

json-mode-eval-extended数据集由NousResearch和eth-sri团队联合构建，旨在评估大型语言模型（LLM）从自然语言中提取数据并遵循JSON Schema的能力。该数据集基于json-mode-eval原始数据集，经过清洗和规范化处理，确保每个模式都强制执行非空约束，并且不允许在顶层添加额外键。数据集扩展部分通过Gemini 2.5 Pro生成额外样本，并筛选符合给定模式的输出。该数据集在论文《Constrained Decoding of Diffusion LLMs with Context-Free Grammars》中被用于评估，推动了LLM在结构化数据生成领域的研究。

当前挑战

该数据集面临的挑战主要包括两个方面：一是领域问题的挑战，即如何准确评估LLM在遵循复杂JSON Schema约束下从自然语言中提取结构化数据的能力，这对模型的语义理解和模式匹配能力提出了较高要求；二是构建过程中的挑战，包括确保数据模式的严格一致性、处理自然语言输入的多样性，以及通过自动化流程生成和验证大量样本时保持数据质量。这些挑战需要通过精细的模式设计和严格的验证流程来解决。

常用场景

经典使用场景

在自然语言处理领域，json-mode-eval-extended数据集被广泛用于评估大型语言模型从自然语言文本中提取结构化数据的能力。该数据集通过严格的JSON Schema约束，要求模型准确识别并提取关键信息，同时遵循特定的数据格式和类型要求。这种评估方式特别适用于测试模型在信息抽取和结构化数据生成任务中的表现，为研究者提供了标准化的测试基准。

实际应用

在实际应用中，json-mode-eval-extended数据集可用于开发自动化文档处理系统，例如从工业报告或医疗记录中提取关键信息并生成结构化数据。这种技术可以显著提高数据处理的效率和准确性，减少人工干预的需求。此外，该数据集还可用于训练和优化聊天机器人，使其能够更好地理解和生成符合特定格式的响应。

衍生相关工作

json-mode-eval-extended数据集衍生了一系列经典研究工作，其中最著名的是《Constrained Decoding of Diffusion LLMs with Context-Free Grammars》一文。该研究利用该数据集评估了受约束解码技术在扩散语言模型中的应用效果。此外，许多后续研究也基于该数据集开发了新的信息抽取和结构化数据生成方法，进一步扩展了其应用范围。

以上内容由遇见数据集搜集并总结生成