five

DeepJSONEval

收藏
arXiv2025-09-30 更新2025-11-21 收录
下载链接:
https://hf-mirror.com/datasets/GTSAIInfraLabSOTAS/DeepJSONEval
下载链接
链接失效反馈
官方服务:
资源简介:
DeepJSONEval是一个多语言深度嵌套JSON评估基准和框架,旨在全面评估大型语言模型(LLMs)将原始文本映射到给定JSON模式并返回语法和语义正确的多层嵌套JSON对象的能力。该基准包含2100个高质量数据实例,涵盖十个多样化的网络应用领域,如旅游景点推广、电子产品介绍、患者信息等。数据集根据嵌套深度进行系统性难度分级,为模型能力提供渐进式评估。
提供机构:
GTS,华为技术有限公司
创建时间:
2025-09-30
搜集汇总
数据集介绍
main_image_url
构建方式
在信息抽取领域面临网络数据稀疏性与冗余性挑战的背景下,DeepJSONEval采用四阶段系统化构建流程。首先通过多文档聚合策略整合异构网络文本,利用大语言模型对原始内容进行去冗余重构,生成信息密集的合成文本。随后基于领域专业知识构建层次化属性树结构,通过实时路径价值更新的束搜索算法动态提取符合深度嵌套约束的子树,该算法结合节点关联度计算与结构奖励机制,确保生成3至7层嵌套复杂度的JSON模式。最终通过人工循环质量验证流程,建立包含2100个实例的黄金标准数据集。
特点
该数据集显著特征体现在其深度嵌套结构与多维度评估体系。嵌套层级达到3至7层,平均包含17.5个属性节点,远超传统基准的复杂度水平。数据集涵盖旅游推广、医疗信息、金融证券等十大网络应用领域,每个实例配备详细字段描述与语义约束。通过系统化难度分级机制,将3-4层结构划分为中等难度,5-7层划分为困难难度,为模型能力评估提供渐进式基准。其创新性还体现在全面数据类型覆盖与多粒度评估框架,能够系统检验大语言模型在复杂格式约束下的指令遵循与语义理解能力。
使用方法
在结构化数据生成评估场景中,该数据集通过标准化流程支持大语言模型能力验证。研究者可将原始文本输入与预设JSON模式作为提示,要求模型执行从非结构化文本到深度嵌套结构的转换任务。评估采用三维度指标体系:语法有效性检验输出结构的JSON合规性,层次化键匹配度通过杰卡德相似性量化属性提取完整性,严格评分则实施二进制精确匹配验证。数据集支持约束解码配置,通过实时路径更新机制确保输出符合模式规范,其端到端网络管道验证进一步证实了基准得分的实际应用关联性。
背景与挑战
背景概述
随着数字信息爆炸式增长,互联网环境中充斥着大量低密度、高冗余的非结构化数据,如社交媒体评论与重复新闻,导致有效信息提取面临严峻挑战。华为技术有限公司GTS团队于2025年提出DeepJSONEval基准数据集,旨在解决大语言模型在多层嵌套JSON数据结构挖掘中的评估缺陷。该数据集聚焦于从非结构化文本到复杂JSON模式的信息提取能力评测,通过构建包含2100个多领域实例的深度嵌套结构,填补了传统基准仅关注JSON生成而忽视实际数据理解能力的空白,为结构化输出研究提供了标准化评估框架。
当前挑战
在领域问题层面,DeepJSONEval需应对大语言模型从信息稀疏的原始文本中精准提取语义关系并构建深度嵌套JSON的挑战,涉及跨层级语义依赖保持与复杂结构一致性维护。构建过程中面临多重技术难题:需设计实时路径价值更新的束搜索算法以高效生成3至7层嵌套模式,同时通过多文档聚合消除源数据冗余,并建立人类参与的质量控制机制确保语义忠实度与结构合理性,最终在十类网络应用领域实现难度分级与多维评估指标的统一。
常用场景
解决学术问题
DeepJSONEval针对当前大语言模型评估体系中的关键缺陷提供了系统性解决方案。传统基准测试过度关注JSON格式生成而忽视信息理解与抽取能力,该数据集通过设计基于真实网络文本的抽取式任务,有效填补了结构化输出评估的空白。其实验结果揭示了不同模型在处理深度嵌套结构时的显著性能差异,特别是在严格评估标准下所有模型得分均低于60%,这为研究社区提供了量化模型结构化输出能力的可靠标尺,推动了信息抽取技术向更深层次语义理解方向发展。
衍生相关工作
基于DeepJSONEval开创的深度嵌套结构评估范式,研究社区已衍生出多个重要研究方向。在算法层面,其实时路径值更新束搜索算法为复杂树结构生成提供了新的技术思路;在评估框架方面,其多维细粒度评估标准被后续工作如StructEval、JSONSchemaBench等借鉴发展;在应用扩展领域,该数据集启发了对多语言嵌套结构处理、动态模式适配等前沿问题的探索,为构建更可靠的现实世界信息抽取系统奠定了理论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作