five

ModelingBench

收藏
github2025-05-25 更新2025-05-29 收录
下载链接:
https://github.com/qiancheng0/ModelingAgent
下载链接
链接失效反馈
官方服务:
资源简介:
数据包括ModelingBench数据集,包含详细的问题描述、要求和评估标准。

The dataset includes the ModelingBench dataset, which contains detailed problem descriptions, requirements, and evaluation criteria.
创建时间:
2025-05-21
原始信息汇总

ModelingAgent数据集概述

数据集基本信息

  • 名称:ModelingBench
  • 用途:用于连接大型语言模型(LLMs)与数学建模,解决现实世界挑战
  • 数据位置data目录
  • 许可:可自由用于各种用途

数据结构

每个数据点包含以下字段: json { "year": "年份", "title": "标题", "level": "难度级别", "source": "来源", "link": "问题链接", "question": "问题描述", "requirements": [ { "category": "需求类别", "description": "需求描述" } ], "eval_roles": [ { "name": "评估角色名称", "details": "角色详细信息" } ] }

数据集示例

json "2001_Adolescent_Pregnancy": { "year": "2001", "title": "Adolescent Pregnancy", "level": "High School", "source": "HiMCM", "link": "Problems/2001/HIMCM-A-2/index.html", "question": "You are working temporarily for the Department of Health ...", "requirements": [ { "category": "Data Analysis", "description": "Evaluate the accuracy and completeness of the data ..." } ], "eval_roles": [ { "name": "Mathematician", "details": "You are a mathematician with expertise in ..." } ] }

相关资源

  • 论文:https://www.arxiv.org/pdf/2505.15068
  • 代码结构
    • ModelAgent:ModelingAgent方法代码
    • ModelBase:Vanilla Generation基线代码
    • ModelTool:Tool Agent基线代码
    • judger:ModelingJudge评估框架代码
    • tools:沙箱环境中可能调用的工具

引用格式

text @article{qian2025modelingagent, title={ModelingAgent: Bridging LLMs and Mathematical Modeling for Real-World Challenges}, author={Qian, Cheng and Du, Hongyi and Wang, Hongru and Chen, Xiusi and Zhang, Yuji and Sil, Avirup and Zhai, Chengxiang and McKeown, Kathleen and Ji, Heng}, journal={arXiv preprint arXiv:2505.15068}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
ModelingBench数据集通过系统化收集和整理现实世界中的数学建模问题构建而成,涵盖多领域挑战性问题。数据来源于HiMCM等权威竞赛,每个样本包含年份、标题、难度等级等元数据,并采用结构化JSON格式存储问题描述、建模要求和评估标准。研究人员通过专业标注流程,为每道题目配置数据分析和模型构建等具体需求,同时设计数学家等专业角色作为评估视角,确保数据集的学术严谨性。
特点
该数据集以解决现实世界复杂问题为导向,突出跨学科整合特性。其核心价值在于完整保留原始问题的上下文信息,包括详细的需求分解和多维度评估标准。独特之处在于嵌入了角色化评估体系,通过不同专业视角的评判标准,为大型语言模型在数学建模领域的表现提供细粒度评估框架。数据覆盖高中至专业级别的建模问题,时间跨度与领域分布均衡,具有显著的学术研究和教育应用价值。
使用方法
使用该数据集需配置Python环境及相应API密钥,通过提供的标准化脚本即可开展三类实验:基础模型测试、工具增强型代理测试以及完整建模代理测试。评估阶段需运行ModelingJudge框架,该框架自动匹配问题对应的专家角色进行评估。数据集目录结构清晰,实验代码按功能模块化分离,研究者可根据需要调用特定工具或修改评估标准。特别注意需妥善处理沙箱环境中的工具调用权限,并参照示例文件格式准备输入数据。
背景与挑战
背景概述
ModelingBench数据集由Qian Cheng等研究人员于2025年提出,旨在构建连接大语言模型与数学建模的桥梁,以解决现实世界中的复杂挑战。该数据集源自论文《ModelingAgent: Bridging LLMs and Mathematical Modeling for Real-World Challenges》,由伊利诺伊大学厄巴纳-香槟分校等机构联合开发,收录了来自HiMCM等国际数学建模竞赛的真实问题案例。数据集通过结构化的问题描述、需求分析和多角色评估框架,为研究社区提供了测试大语言模型在数学建模任务中表现的标准基准,推动了人工智能与跨学科问题解决能力的融合研究。
当前挑战
该数据集面临的核心挑战体现在两个维度:在领域问题层面,如何精准评估大语言模型对开放式数学建模问题的解决能力,需克服主观评判标准不统一、多学科知识融合困难等障碍;在构建过程中,需平衡真实竞赛问题的复杂性与数据标准化需求,同时设计兼顾专家视角与自动化评估的评判体系。技术实现上还需解决工具调用不稳定、模型指令遵循偏差等问题,这些挑战直接影响着智能体在数学建模任务中的可靠性和实用性。
常用场景
经典使用场景
在数学建模与大型语言模型(LLM)交叉领域的研究中,ModelingBench数据集为研究者提供了一个标准化的测试平台。该数据集整合了来自真实世界的高中数学建模问题,如青少年怀孕率分析等案例,通过结构化的问题描述、需求说明和评估标准,支持研究者对LLM在数学建模任务中的表现进行系统性评估。其典型应用场景包括验证模型在数据分析和数学推理方面的能力,以及探索LLM在解决复杂实际问题中的潜力。
衍生相关工作
基于ModelingBench的评估范式,研究者开发了ModelingJudge自动评分系统,该工作成为衡量数学建模能力的基准工具。开源社区衍生出QwQ-32B等专用模型微调方案,显著提升了模型在数值计算任务的表现。相关研究还催生了工具增强型代理架构的创新,如将Serper搜索API与符号计算工具集成,推动了LLM在复杂问题求解中的工具协同方法论发展。
数据集最近研究
最新研究方向
在人工智能与数学建模交叉领域,ModelingBench数据集正推动大语言模型(LLMs)解决现实世界复杂问题的能力边界。最新研究聚焦于构建智能体框架,通过整合数学建模专家角色、多维度评估标准及工具调用机制,显著提升了模型在开放场景下的推理与决策能力。该数据集已被应用于教育、公共卫生等领域的建模竞赛题目分析,为验证LLMs的符号推理、数据解释和方案优化能力提供了标准化测试平台。其创新性在于将传统数学建模流程转化为可计算的评估体系,促进了认知智能与数值计算的技术融合。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作