Text2Zinc

Name: Text2Zinc
Creator: 富达投资·人工智能卓越中心; 布朗大学·计算机科学系
Published: 2026-04-15 00:51:29
License: 暂无描述

arXiv2026-04-15 更新2026-04-16 收录

下载链接：

https://huggingface.co/datasets/skadio/text2zinc

下载链接

链接失效反馈

官方服务：

资源简介：

Text2Zinc是由富达投资与布朗大学联合创建的跨领域数据集，旨在统一自然语言描述的优化与满足问题的建模。该数据集整合了来自LPW、Nlp4lp、ComplexOR等多个权威资源的多样化问题类型，经过重新表述、元数据丰富和人工验证以确保质量。其创新性在于首次将满足问题与优化问题纳入同一架构，并采用与求解器无关的MiniZinc建模语言，支持编译至CP、MIP等多种求解后端。该数据集为文本到模型转换的基准测试提供了坚实基础，并配套发布了交互式编辑器以支持持续数据扩展。

提供机构：

富达投资·人工智能卓越中心; 布朗大学·计算机科学系

创建时间：

2026-04-15

搜集汇总

数据集介绍

构建方式

在自然语言处理与运筹学交叉领域，Text2Zinc数据集通过系统化整合与标准化流程构建而成。该数据集汇集了来自NLP4LP、ComplexOR、LPWP、CspLib、Hakank收藏、IndustryOR、MAMO及NL4Opt等多个权威资源的1775个自然语言问题实例，并从中精选110个实例进行人工验证与增强。构建过程中，研究团队将多样化的原始格式（如JSON、DZN、MZN等）统一为结构化模式，明确划分每个实例为输入、数据、模型与输出四大组件。输入部分采用JSON文件封装问题描述、参数定义与元数据；数据部分以DZN文件提供具体实例参数；模型部分以MiniZinc代码呈现形式化约束模型；输出部分则记录参考解或验证器。通过自动化验证与人工校验相结合的方式，确保了数据的一致性与质量，并借助MiniZinc的求解器无关特性，使生成模型可编译至多种后端求解器。

特点

Text2Zinc数据集在文本到模型翻译任务中展现出多项鲜明特征。作为首个跨领域且求解器无关的基准数据集，它同时涵盖满足性问题与优化问题，突破了以往数据集仅聚焦单一目标的局限。数据集采用统一的模式设计，将问题描述、实例数据、形式化模型与参考输出有机分离，既支持端到端的翻译评估，也便于模块化研究。其问题来源覆盖调度、资源分配、组合数学等11个应用领域，涉及线性规划、整数规划、混合整数规划及约束编程等多种问题类型，具有显著的多样性与代表性。此外，数据集通过丰富的元数据标注（如领域分类、目标类型、约束关键词等）增强了可检索性与可解释性，为基于上下文的示例检索与领域自适应研究提供了便利。

使用方法

Text2Zinc数据集为评估大型语言模型在文本到模型翻译任务上的性能提供了标准化基准。研究人员可利用该数据集训练或测试模型将自然语言问题描述转化为MiniZinc形式化模型的能力。典型使用流程包括：首先加载数据集的输入组件获取问题描述与参数定义；随后基于描述生成MiniZinc代码；接着将生成的模型与数据组件提供的实例参数结合，调用MiniZinc编译器及后端求解器进行执行验证；最后通过对比输出组件中的参考解，计算执行准确率与求解准确率以评估模型性能。数据集附带的交互式编辑器支持动态浏览、验证与增补实例，其内置的AI助手可辅助进行问题描述精化与模型调试。开源的数据集与在线排行榜进一步促进了方法比较与社区协作，推动该领域性能差距的缩小。

背景与挑战

背景概述

Text2Zinc数据集由Fidelity Investments AI卓越中心与布朗大学计算机科学系的研究团队于2026年提出，旨在推动大型语言模型在文本到模型翻译与优化任务中的应用。该数据集首次将满足性问题与优化问题统一于一个跨领域架构中，并采用MiniZinc这一求解器无关的建模语言，以增强组合问题建模的通用性与灵活性。其核心研究问题聚焦于如何自动将自然语言描述转化为形式化的约束模型，从而降低领域专家在建模过程中的认知壁垒，对运筹学、人工智能与自然语言处理的交叉领域产生了深远影响。

当前挑战

Text2Zinc数据集所解决的领域问题在于文本到组合模型翻译的自动化，其挑战包括自然语言描述的模糊性、数学逻辑表达的精确性要求，以及模型生成中执行准确性与解决方案准确性的双重评估。在构建过程中，研究团队面临多源数据集格式与模式的统一难题，需将来自NLP4LP、ComplexOR、CspLib等异构资源的问题进行标准化与质量验证。此外，确保生成的MiniZinc模型在语法与语义上的正确性，同时保持求解器无关的特性，亦是数据集构建中的关键挑战。

常用场景

经典使用场景

在自然语言处理与运筹学交叉领域，Text2Zinc数据集为文本到模型转换任务提供了统一的评估基准。该数据集通过整合来自多个领域的自然语言问题描述及其对应的MiniZinc形式化模型，支持研究者测试和比较不同大型语言模型在自动生成约束满足与优化问题模型方面的性能。其经典使用场景包括评估零样本提示、思维链推理、知识图谱中间表示等多种策略在生成可执行且正确的MiniZinc代码时的准确性与鲁棒性。

衍生相关工作

Text2Zinc数据集衍生了一系列经典研究工作，包括基于思维链的CoT策略、知识图谱中间表示方法以及语法约束生成技术。这些方法在数据集上进行了系统评估，并与Gala、Orlm、OptiMind等最新模型进行了对比。此外，该数据集还启发了面向全局约束的智能体框架、检索增强生成技术以及多轮交互式建模助手的设计，推动了文本到模型转换领域的方法创新与性能提升。

数据集最近研究