The Structured Output Benchmark
收藏github2026-04-29 更新2026-04-30 收录
下载链接:
https://github.com/JigsawStack/sob
下载链接
链接失效反馈官方服务:
资源简介:
SOB测量LLM生成的JSON的值级正确性,而不仅仅是JSON是否有效。我们在一个统一的评估框架下评估模型在三种源模态(文本、图像和音频)上的表现。
SOB measures the value-level correctness of JSON generated by large language models (LLMs), rather than merely verifying whether the JSON is syntactically valid. We evaluate model performance across three source modalities (text, image, and audio) under a unified evaluation framework.
创建时间:
2026-04-26
原始信息汇总
数据集概述
数据集名称: SOB (Structured Output Benchmark) 发布机构: Interfaze AI 数据集地址: https://huggingface.co/datasets/interfaze-ai/sob 数据集论文: https://interfaze.ai/sob_paper.pdf
数据集核心目标
SOB 是一个多源基准测试,用于评估大语言模型(LLMs)生成的结构化输出(JSON)的质量。它评估的是值级别的正确性,而不仅仅是 JSON 格式是否有效。
数据集模态与规模
数据集覆盖三种输入模态,所有模态均在统一的评估框架下进行评测:
| 模态 | 数据集子集 | 记录数 | 加载方式 |
|---|---|---|---|
| 文本 (Text) | test | 5,000 条 | load_dataset("interfaze-ai/sob", split="test") |
| 图像 (Image) | train | 209 条 | load_dataset("interfaze-ai/sob", "image", split="train") |
| 音频 (Audio) | train | 115 条 | load_dataset("interfaze-ai/sob", "audio", split="train") |
评估指标
基准测试使用七项指标,全面衡量结构化输出质量:
- Overall (总体评分): 覆盖度调整后的综合得分,聚合文本、图像、音频三个模态的结果。
- Val. Acc. (值准确率): 值级别的正确性。
- Faithful. (忠实度): 模型输出是否忠实于输入源信息。
- JSON Pass (JSON通过率): 生成有效 JSON 的比例。
- Path Rec. (路径召回率): JSON 路径的召回情况。
- Str. Cov. (结构覆盖率): 对预期输出结构的覆盖程度。
- Type Saf. (类型安全性): 数据类型的正确性。
- Perfect (完美响应): 完美响应率(仅聚合文本和图像模态)。
排行榜(截至数据集发布时)
综合排名前五 (Overall 分数):
| 排名 | 模型 | Overall | Val. Acc. | Faithful. | JSON Pass | Path Rec. | Str. Cov. | Type Saf. | Perfect |
|---|---|---|---|---|---|---|---|---|---|
| 1 | GPT-5.4 | 0.870 | 0.798 | 0.869 | 0.993 | 0.988 | 0.981 | 0.993 | 0.469 |
| 2 | GLM-4.7 | 0.861 | 0.804 | 0.868 | 0.965 | 0.959 | 0.957 | 0.965 | 0.508 |
| 3 | Qwen3.5-35B | 0.861 | 0.801 | 0.863 | 0.969 | 0.962 | 0.960 | 0.969 | 0.500 |
| 4 | Gemini-2.5-Flash | 0.860 | 0.796 | 0.856 | 0.972 | 0.967 | 0.961 | 0.972 | 0.498 |
| 5 | Qwen3-235B | 0.857 | 0.786 | 0.854 | 0.978 | 0.970 | 0.968 | 0.978 | 0.463 |
各模态最佳模型:
- 文本: GLM-4.7 (0.830)
- 图像: Gemma-4-31B (0.672)
- 音频: Gemini-2.5-Flash (0.237)
完整的实时排行榜请参阅:interfaze-ai/sob-leaderboard
使用方法
1. 安装 bash git clone https://github.com/JigsawStack/sob && cd sob uv venv && source .venv/bin/activate make install
2. 运行推理
- 支持多种后端:OpenRouter、OpenAI、Anthropic、Gemini、vLLM(本地部署)。
- 示例(运行文本模态,5条记录): bash python -m sob.run --provider openrouter --modality text --model-id google/gemma-4-31b-it --sample-size 5
3. 评估
- 对生成的响应文件进行评测: bash python evaluate.py data/text_responses/response_google_gemma-4-31b-it.jsonl
数据来源与许可证
- 数据集许可证: MIT License。
- 源数据许可证:
- HotpotQA: CC-BY-SA-4.0
- AMI Meeting Corpus: CC-BY-4.0
- olmOCR-bench / olmOCR: ODC-BY / Apache-2.0
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,结构化输出的质量直接决定了大型语言模型在实际应用中的可靠性。SOB数据集(The Structured Output Benchmark)由此应运而生,其构建方式别具匠心,融合了文本、图像与音频三种源模态的数据。文本子集源自HotpotQA,图像子集依托olmOCR-bench,而音频子集则取材于AMI Meeting Corpus,每种模态均包含丰富的结构化输出任务。数据集通过统一的评估框架整合,精心设计了覆盖文本5,000条、图像209条、音频115条记录的测试集,旨在全面衡量模型生成JSON结构输出的真值级正确性。
特点
该数据集的独特之处在于对结构化输出质量的深度剖析,不仅评估JSON语法的有效性,更聚焦于值级别的正确性,涵盖准确性、忠实度、路径召回、结构覆盖、类型安全及完美响应六大维度。其指标设计细腻,能精准反映模型在复杂指令下的表现。此外,SOB采用覆盖度调整的聚合方式,综合考量文本、图像、音频三种模态,提供统一的排名机制,并支持实时更新的排行榜,为研究者提供了动态追踪模型性能的窗口。
使用方法
使用SOB数据集简便而高效,用户可通过Hugging Face Datasets库直接加载各模态数据。运行推理时,支持OpenRouter、OpenAI、Anthropic、Gemini及本地vLLM等多种推理后端,通过指定--modality参数选择文本、图像或音频模态。评估环节通过evaluate.py脚本完成,输出详细的评估摘要,确保结果可复现。提交新模型时,只需在fork仓库中运行推理与评估,将生成的评估摘要文件放置于指定目录,并通过PR贡献至主仓库,排行榜便会自动更新。
背景与挑战
背景概述
大规模语言模型(LLM)的迅猛发展推动了结构化输出能力的评估需求,然而现有基准多聚焦于JSON格式的语法合法性,忽视了其语义层面的值级正确性。由Interfaze-ai团队于近期创建的Structured Output Benchmark(SOB),旨在填补这一空白。该基准由Abhinav、Harsha、Yoeven和Vineet等研究者主导,核心研究问题在于如何统一评估LLM在文本、图像与音频三种模态下生成的JSON输出的质量。SOB通过引入价值准确性、忠实度、模式覆盖与类型安全等多维度指标,为模型的结构化输出能力提供了精细化的量化标准,已在社区中引发广泛关注,成为评估LLM结构化输出性能的重要参考。
当前挑战
SOB面临的核心挑战在于如何精准衡量LLM生成的JSON输出在语义层面的正确性,而非仅仅关注其语法有效性。当前模型在文本模态下表现尚可,但在图像与音频模态中,perfect response率极低,如音频模态最佳模型仅达0.237,反映了跨模态结构化输出的显著难度。构建过程中,数据集的整合亦面临挑战:需从HotpotQA、AMI Meeting Corpus和olmOCR-bench等多源数据中提取并统一标注格式,确保跨模态评估框架的一致性与公平性。此外,保持基准的时效性与模型榜的自动更新,要求在社区协作与自动化流程之间取得平衡,以持续反映最新模型的能力边界。
常用场景
经典使用场景
在自然语言处理与多模态人工智能的交叉领域,如何精确评估大语言模型对非文字输入的语义理解与结构化输出能力,始终是制约模型实用化的核心难题。The Structured Output Benchmark(SOB)为此提供了一个多源异构的标准化评测框架,其经典使用场景在于统一评估模型对文本、图像与音频三种模态输入的结构化JSON输出质量。评测体系不再局限于语法层面的JSON格式校验,而是深入至值级正确性,涵盖数值准确性、语义忠实度、路径召回率、结构覆盖率与类型安全等七个细粒度维度。研究者可通过SOB快速对比不同模型在多模态环境下的结构化表达能力,从而识别出各模型在特定模态上的强项与短板。
衍生相关工作
SOB的提出已催生多项后续研究与应用。围绕该基准,学界与工业界积极开发支持结构化输出的模型微调算法,如基于值级损失函数的训练策略以提升JSON忠实度。同步涌现的还有面向特定模态的适配工作,例如针对图像模态的视觉JSON解码器,以及针对音频模态的实时结构化转写管道。SOB所开源的多模态评测工具链与排行榜也激发了社区对模型结构约束的解码机制进行深入分析,例如比较结构化解码与自由生成在忠实度与覆盖度上的差异。此外,部分研究团队将SOB扩展至更多结构化格式,如YAML与Protocol Buffers,进一步拓展了结构化输出评测的边界。
数据集最近研究
最新研究方向
随着大型语言模型在复杂应用场景中的广泛部署,确保其输出的结构化数据不仅语法有效、更在语义层面精确无误,已成为衡量模型实用性的关键标尺。SOB数据集应运而生,它开创性地构建了一个涵盖文本、图像与音频三模态的统一评估框架,将评测焦点从传统的JSON格式正确性转向了更深层的值级准确性、忠实度与类型安全性。当前,该基准正引领着学界与工业界对前沿模型如GPT-5.4、GLM-4.7等进行细粒度的结构化输出质量较量,尤其关注跨模态场景下模型的路径覆盖与完美响应能力。这一方向不仅揭示了当前顶尖模型在处理非文本输入时仍存在的显著性能瓶颈,更直接关联到AI Agent在金融、医疗、自动驾驶等高风险领域落地时的可靠性与可信度,为下一代可控生成与结构化理解系统设定了严苛且务实的演进坐标。
以上内容由遇见数据集搜集并总结生成



