five

Mamo|数学建模数据集|人工智能评估数据集

收藏
arXiv2024-05-22 更新2024-08-06 收录
数学建模
人工智能评估
下载链接:
http://arxiv.org/abs/2405.13144v1
下载链接
链接失效反馈
资源简介:
Mamo数据集是由香港中文大学(深圳)创建,专注于评估大型语言模型(LLMs)在数学建模中的能力。该数据集包含1059个精心设计的问题,涵盖普通微分方程和线性规划等优化问题。创建过程中,数据集结合了人工选择和GPT生成的题目,确保了问题的多样性和实用性。Mamo数据集的应用领域主要在于评估和提升LLMs在复杂问题解决场景中的数学建模能力,为人工智能领域提供了一个新的评估标准。
提供机构:
香港中文大学(深圳)
创建时间:
2024-05-22
AI搜集汇总
数据集介绍
main_image_url
构建方式
Mamo数据集的构建方式独特之处在于其采用了求解器作为评估数学建模能力的工具。该数据集包含了来自常微分方程和优化问题的各种建模问题,例如线性规划和混合整数线性规划。通过将求解器集成到评估过程中,Mamo数据集提供了一种新的评估范式,不再仅仅关注最终答案的正确性,而是深入分析LLMs在建模过程中的策略。这种方法有助于更全面地了解LLMs的数学建模能力,并为其在复杂问题解决中的应用提供了新的标准。
特点
Mamo数据集的特点在于它超越了传统的结果导向评估方法,专注于LLMs在数学建模过程中的策略和技巧。该数据集涵盖了1059个精心设计的数学建模问题,旨在评估LLMs在抽象概念化和逻辑推理等方面的能力。此外,Mamo数据集的构建过程经过严格审查,确保了其可靠性和有效性,使其成为评估LLMs数学建模能力的有力工具。
使用方法
Mamo数据集的使用方法主要分为三个步骤。首先,用户需要选择一个LLM模型,然后使用Mamo数据集中的问题对其进行评估。评估过程中,LLMs需要根据自然语言描述生成Python代码或.lp文件,然后使用求解器来验证其数学模型的准确性。最后,根据LLMs的输出与正确答案之间的比较,用户可以评估LLMs在数学建模过程中的表现。此外,Mamo数据集还提供了各种工具和指导,以帮助用户更好地理解和使用该数据集。
背景与挑战
背景概述
Mamo数据集,全称为'Mathematical Modeling Benchmark with Solvers',由香港中文大学(深圳)与深圳大数据研究院的研究人员共同开发。该数据集旨在评估大型语言模型(LLMs)在数学建模领域的潜力,特别是关注LLMs在自然语言领域内建立数学模型的能力。与传统的以结果为导向的评估方法不同,Mamo数据集采用了一种以过程为导向的评估方法,通过分析LLMs建立数学模型的过程来深入理解其问题解决策略。Mamo数据集的创建对于推动LLMs在数学建模领域的应用具有重要意义,它不仅为评估LLMs的数学建模能力提供了新的标准,也为未来的研究指明了方向。
当前挑战
Mamo数据集面临着一系列挑战。首先,它所解决的领域问题是LLMs在自然语言领域内建立数学模型的能力,这是一个高层次的认知任务,需要LLMs具备类似于通用人工智能(AGI)的高级认知技能。其次,在构建过程中,Mamo数据集面临着如何确保数据质量和问题的可解决性的挑战。为了解决这个问题,Mamo数据集采用了多种方法,包括手动选择和GPT生成问题,以及对所有问题进行严格的审查和验证。此外,Mamo数据集还面临着如何评估LLMs的数学建模能力的挑战。为了解决这个问题,Mamo数据集采用了以过程为导向的评估方法,通过分析LLMs建立数学模型的过程来深入理解其问题解决策略。
常用场景
经典使用场景
Mamo 数据集作为评估大型语言模型(LLM)数学建模能力的基准,其经典使用场景在于为 LLM 提供自然语言描述的问题,并要求其生成相应的数学模型。这些问题涵盖了常微分方程和优化问题,包括线性规划(LP)和混合整数线性规划(MILP)框架。Mamo 数据集通过提供精确的答案,允许使用求解器来验证 LLM 生成的数学模型的准确性,从而深入理解 LLM 的建模过程和问题解决策略。
解决学术问题
Mamo 数据集解决了当前 LLM 评估中存在的局限性,即过于关注最终答案的正确性而忽视建模过程。它通过引入求解器来验证 LLM 生成的数学模型,从而更全面地评估 LLM 的建模能力和问题解决策略。这种新的评估范式为 LLM 在数学建模领域的应用提供了新的研究方向,并有助于推动 LLM 在解决复杂问题方面的能力。
衍生相关工作
Mamo 数据集的衍生相关工作包括但不限于基于求解器的 LLM 数学建模评估、LLM 在优化问题中的应用、LLM 在常微分方程中的应用等。这些相关工作旨在进一步推动 LLM 在数学建模领域的发展,并探索其在解决复杂问题方面的潜力。例如,基于求解器的 LLM 数学建模评估可以用于评估 LLM 在不同类型数学问题上的建模能力,而 LLM 在优化问题中的应用可以用于解决实际问题,如资源分配和路径规划。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

ERIC (Education Resources Information Center)

ERIC (Education Resources Information Center) 是一个广泛的教育文献数据库,包含超过130万条记录,涵盖从1966年至今的教育研究、政策和实践。数据集内容包括教育相关的期刊文章、书籍、研究报告、会议论文、技术报告、政策文件等。

eric.ed.gov 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

UAV123

从低空无人机捕获的视频与流行的跟踪数据集 (如OTB50,OTB100,VOT2014,VOT2015,TC128和ALOV300) 中的视频本质上不同。因此,我们提出了一个新的数据集 (UAV123),其序列来自空中视点,其子集用于长期空中跟踪 (UAV20L)。我们新的UAV123数据集包含总共123个视频序列和超过110K帧,使其成为仅次于ALOV300的第二大对象跟踪数据集。所有序列都用直立的边界框完全注释。数据集可以很容易地与视觉跟踪器基准集成。它包括无人机数据集的所有边界框和属性注释。还请使用包含序列和跟踪器配置的修改后的文件 “configSeqs.m” 和 “configTrackers.m” 下载修改后的跟踪器基准。另外,请注意,文件 “perfPlot.m” 已根据本文中描述的属性进行了修改以进行评估。

OpenDataLab 收录

RadDet

RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录