five

SchemaBench

收藏
github2025-03-02 更新2025-03-11 收录
下载链接:
https://github.com/thunlp/SchemaReinforcementLearning
下载链接
链接失效反馈
官方服务:
资源简介:
SchemaBench是一个用于研究和教育目的的数据集,包含了从JSON Schema Store和GitHub上爬取的40K+真实世界模式文件构建而成。下面我们展示了我们的数据清洗和构建流程的常见案例。

SchemaBench is a dataset intended for research and educational purposes, constructed from over 40,000 real-world schema files crawled from JSON Schema Store and GitHub. Below, we present common case studies of our data cleaning and construction workflow.
创建时间:
2025-02-26
原始信息汇总

Schema Reinforcement Learning 数据集概述

数据集基本信息

  • 名称: SchemaBench
  • 用途: 仅供研究和教育用途
  • 数据来源:
    • JSON Schema Store (https://www.schemastore.org/json/)
    • GitHub
  • 数据规模: 40K+ 真实世界模式文件

数据内容

  • 文件结构:

    ├── /schemabench/ │ └── /data/ │ ├── /custom/ // 自定义格式 │ ├── /schema/ // 复杂模式 │ ├── custom_append.jsonl │ └── translation_test.jsonl // 转义翻译 ├── /train/ │ └── /data/ │ ├── mix_train_no_collected_json.json // SFT - 无收集的JSON │ ├── mix_train.json // SFT - 有收集的JSON │ ├── train_with_tool_ToS.parquet // SRL - 训练集 │ └── val_with_tool_ToS.parquet // SRL - 验证集

数据下载

  • 下载链接:
    • Google Drive: https://drive.google.com/drive/folders/1NOx6xzS30HHRk5rikUdNOXvOT7UtwstR
    • 清华云: https://cloud.tsinghua.edu.cn/d/732f121b7b0044798190/

模型性能

  • 评估指标:

    • 模式生成 (Schema-only Generation)
      • 复杂模式 (Complex)
      • 自定义格式 (Custom)
      • 转义 (Escape)
      • 总体 (Overall)
    • 模式约束推理 (Schema-constrained Reasoning)
      • GSM8K
      • MATH500
      • MMLU
      • ARC-C
  • 性能表现:

    • LLaMA-3.2 3B SRL:
      • 复杂模式: 82.25
      • 自定义格式: 66.13
      • 转义: 69.10
      • 总体: 72.50
      • GSM8K: 84.23
      • MATH500: 43.20
      • MMLU: 57.99
      • ARC-C: 78.24

训练与评估

  • 训练步骤:

    • 环境初始化 (python==3.11)
    • 数据准备
    • 微调 (Fine-Tuning)
    • 模式强化学习 (Schema Reinforcement Learning, SRL)
  • 评估步骤:

    • 初始化配置文件
    • 运行评估脚本

引用

bibtex @misc{lu2025learninggeneratestructuredoutput, title={Learning to Generate Structured Output with Schema Reinforcement Learning}, author={Yaxi Lu and Haolun Li and Xin Cong and Zhong Zhang and Yesai Wu and Yankai Lin and Zhiyuan Liu and Fangming Liu and Maosong Sun}, year={2025}, eprint={2502.18878}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.18878}, }

搜集汇总
数据集介绍
main_image_url
构建方式
SchemaBench数据集的构建是通过从JSON Schema Store和GitHub爬取超过40,000个真实世界的模式文件,进而进行数据清洗与结构化处理,形成了该数据集。数据清洗包括去除无效或不合规的条目,并确保每个模式文件符合研究需求。在此基础上,构建了包括自定义格式、复杂模式和转义翻译等类型的数据子集,以适应不同的研究场景。
特点
SchemaBench数据集的特点在于其来源的真实性,覆盖了广泛的应用场景。数据集不仅包含了复杂的模式,还包含了自定义格式和转义翻译测试,这使得该数据集在结构化输出生成任务中具有独特的价值。此外,数据集提供了不同粒度的数据划分,包括训练集和验证集,以及针对不同模型的预训练和微调数据,为研究者提供了极大的便利。
使用方法
使用SchemaBench数据集,用户首先需要从提供的链接中下载数据,并将其放置在相应的目录下。数据集的使用包括模型训练和评估两个阶段。训练阶段涉及环境初始化、数据准备、模型微调和强化学习模型的训练。评估阶段则需要初始化配置文件,并使用CodeLinker进行性能评估。整个使用过程遵循清晰的指令和脚本,使得用户能够高效地利用该数据集进行研究和开发。
背景与挑战
背景概述
SchemaBench数据集的研究背景源于对结构化输出生成任务的需求,旨在通过强化学习技术生成符合JSON Schema的结构化数据。该数据集创建于2025年,由Yaxi Lu、Haolun Li等研究人员以及清华大学自然语言处理实验室共同开发。SchemaBench的构建基于从JSON Schema Store和GitHub上抓取的40K+真实世界schema文件,其核心研究问题是如何有效学习和生成符合复杂schema的结构化输出。该数据集在自然语言处理和机器学习领域具有显著的影响力,为相关研究提供了宝贵的资源。
当前挑战
SchemaBench数据集在构建过程中遇到的挑战主要包括:1)如何从大量的非结构化数据中提取和构建有效的训练样本;2)如何设计和优化强化学习算法以生成符合复杂schema的结构化输出;3)所解决的领域问题,即结构化输出生成任务中的挑战,包括如何处理schema的多样性和复杂性,以及如何确保生成的结构化数据既准确又符合预期格式。
常用场景
经典使用场景
SchemaBench数据集作为研究生成结构化输出的重要资源,其经典使用场景在于训练与评估模型在处理复杂数据模式、自定义格式以及转义翻译任务上的性能。该数据集为研究人员提供了一个标准化的平台,用以开发和测试能够在结构化数据生成和推理方面表现出色的算法。
实际应用
在实际应用中,SchemaBench数据集可用于提高机器学习模型在处理JSON等结构化数据时的准确性,这对于数据验证、API设计、自动化测试等领域具有重要价值。企业可以利用该数据集来优化数据处理流程,提升系统的鲁棒性和可靠性。
衍生相关工作
SchemaBench数据集的发布促进了相关领域的研究,如结构化学习、强化学习等。基于该数据集,衍生出了众多经典工作,包括对现有模型的改进、新算法的提出以及性能评估方法的创新,进一步推动了自然语言处理和机器学习领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作