SchemaBench

github2025-03-02 更新2025-03-11 收录

下载链接：

https://github.com/thunlp/SchemaReinforcementLearning

下载链接

链接失效反馈

官方服务：

资源简介：

SchemaBench是一个用于研究和教育目的的数据集，包含了从JSON Schema Store和GitHub上爬取的40K+真实世界模式文件构建而成。下面我们展示了我们的数据清洗和构建流程的常见案例。

SchemaBench is a dataset intended for research and educational purposes, constructed from over 40,000 real-world schema files crawled from JSON Schema Store and GitHub. Below, we present common case studies of our data cleaning and construction workflow.

创建时间：

2025-02-26

原始信息汇总

Schema Reinforcement Learning 数据集概述

数据集基本信息

名称: SchemaBench
用途: 仅供研究和教育用途
数据来源:
- JSON Schema Store (https://www.schemastore.org/json/)
- GitHub
数据规模: 40K+ 真实世界模式文件

数据内容

文件结构:

├── /schemabench/ │ └── /data/ │ ├── /custom/ // 自定义格式 │ ├── /schema/ // 复杂模式 │ ├── custom_append.jsonl │ └── translation_test.jsonl // 转义翻译 ├── /train/ │ └── /data/ │ ├── mix_train_no_collected_json.json // SFT - 无收集的JSON │ ├── mix_train.json // SFT - 有收集的JSON │ ├── train_with_tool_ToS.parquet // SRL - 训练集 │ └── val_with_tool_ToS.parquet // SRL - 验证集

数据下载

下载链接:
- Google Drive: https://drive.google.com/drive/folders/1NOx6xzS30HHRk5rikUdNOXvOT7UtwstR
- 清华云: https://cloud.tsinghua.edu.cn/d/732f121b7b0044798190/

模型性能

评估指标:
- 模式生成 (Schema-only Generation)
  - 复杂模式 (Complex)
  - 自定义格式 (Custom)
  - 转义 (Escape)
  - 总体 (Overall)
- 模式约束推理 (Schema-constrained Reasoning)
  - GSM8K
  - MATH500
  - MMLU
  - ARC-C
性能表现:
- LLaMA-3.2 3B SRL:
  - 复杂模式: 82.25
  - 自定义格式: 66.13
  - 转义: 69.10
  - 总体: 72.50
  - GSM8K: 84.23
  - MATH500: 43.20
  - MMLU: 57.99
  - ARC-C: 78.24

训练与评估

训练步骤:
- 环境初始化 (python==3.11)
- 数据准备
- 微调 (Fine-Tuning)
- 模式强化学习 (Schema Reinforcement Learning, SRL)
评估步骤:
- 初始化配置文件
- 运行评估脚本

引用

bibtex @misc{lu2025learninggeneratestructuredoutput, title={Learning to Generate Structured Output with Schema Reinforcement Learning}, author={Yaxi Lu and Haolun Li and Xin Cong and Zhong Zhang and Yesai Wu and Yankai Lin and Zhiyuan Liu and Fangming Liu and Maosong Sun}, year={2025}, eprint={2502.18878}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.18878}, }

搜集汇总

数据集介绍

构建方式

SchemaBench数据集的构建是通过从JSON Schema Store和GitHub爬取超过40,000个真实世界的模式文件，进而进行数据清洗与结构化处理，形成了该数据集。数据清洗包括去除无效或不合规的条目，并确保每个模式文件符合研究需求。在此基础上，构建了包括自定义格式、复杂模式和转义翻译等类型的数据子集，以适应不同的研究场景。

特点

SchemaBench数据集的特点在于其来源的真实性，覆盖了广泛的应用场景。数据集不仅包含了复杂的模式，还包含了自定义格式和转义翻译测试，这使得该数据集在结构化输出生成任务中具有独特的价值。此外，数据集提供了不同粒度的数据划分，包括训练集和验证集，以及针对不同模型的预训练和微调数据，为研究者提供了极大的便利。

使用方法

使用SchemaBench数据集，用户首先需要从提供的链接中下载数据，并将其放置在相应的目录下。数据集的使用包括模型训练和评估两个阶段。训练阶段涉及环境初始化、数据准备、模型微调和强化学习模型的训练。评估阶段则需要初始化配置文件，并使用CodeLinker进行性能评估。整个使用过程遵循清晰的指令和脚本，使得用户能够高效地利用该数据集进行研究和开发。

背景与挑战

背景概述

SchemaBench数据集的研究背景源于对结构化输出生成任务的需求，旨在通过强化学习技术生成符合JSON Schema的结构化数据。该数据集创建于2025年，由Yaxi Lu、Haolun Li等研究人员以及清华大学自然语言处理实验室共同开发。SchemaBench的构建基于从JSON Schema Store和GitHub上抓取的40K+真实世界schema文件，其核心研究问题是如何有效学习和生成符合复杂schema的结构化输出。该数据集在自然语言处理和机器学习领域具有显著的影响力，为相关研究提供了宝贵的资源。

当前挑战

SchemaBench数据集在构建过程中遇到的挑战主要包括：1)如何从大量的非结构化数据中提取和构建有效的训练样本；2)如何设计和优化强化学习算法以生成符合复杂schema的结构化输出；3)所解决的领域问题，即结构化输出生成任务中的挑战，包括如何处理schema的多样性和复杂性，以及如何确保生成的结构化数据既准确又符合预期格式。

常用场景

经典使用场景

SchemaBench数据集作为研究生成结构化输出的重要资源，其经典使用场景在于训练与评估模型在处理复杂数据模式、自定义格式以及转义翻译任务上的性能。该数据集为研究人员提供了一个标准化的平台，用以开发和测试能够在结构化数据生成和推理方面表现出色的算法。

实际应用

在实际应用中，SchemaBench数据集可用于提高机器学习模型在处理JSON等结构化数据时的准确性，这对于数据验证、API设计、自动化测试等领域具有重要价值。企业可以利用该数据集来优化数据处理流程，提升系统的鲁棒性和可靠性。

衍生相关工作

SchemaBench数据集的发布促进了相关领域的研究，如结构化学习、强化学习等。基于该数据集，衍生出了众多经典工作，包括对现有模型的改进、新算法的提出以及性能评估方法的创新，进一步推动了自然语言处理和机器学习领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集