ORQA

github2025-01-05 更新2025-01-08 收录

下载链接：

https://github.com/nl4opt/ORQA

下载链接

链接失效反馈

官方服务：

资源简介：

ORQA是一个新的问答基准，旨在评估大型语言模型（LLMs）在运筹学（OR）这一专门技术领域的推理能力。该基准测试评估LLMs在面对复杂的优化建模任务时，是否能够模拟OR专家的知识和推理技能。数据集由OR专家手工制作，包含需要多步数学推理来解决的现实世界优化问题。

ORQA is a novel question answering benchmark designed to evaluate the reasoning capabilities of Large Language Models (LLMs) in the specialized technical domain of Operations Research (OR). This benchmark assesses whether LLMs can simulate the knowledge and reasoning skills of OR experts when confronted with complex optimization modeling tasks. The dataset is handcrafted by OR experts and contains real-world optimization problems that require multi-step mathematical reasoning to solve.

创建时间：

2024-12-21

原始信息汇总

ORQA 数据集概述

数据集简介

ORQA（Operations Research Question Answering）是一个新的基准测试，旨在评估大型语言模型（LLMs）在运筹学（Operations Research, OR）这一专业领域中的推理能力。该基准测试评估LLMs在面对复杂优化问题时，是否能够模拟OR专家的知识和推理技能。数据集由OR专家精心设计，包含需要多步数学推理才能解决的现实世界优化问题。

数据集结构

数据集位于目录 src/task/dataset 中，包含以下两个文件：

测试集（1468个实例）: ORQA_test.jsonl
验证集（45个实例）: ORQA_validation.jsonl

每个实例包含的内容

CONTEXT: 以自然语言描述的优化问题的案例研究。
QUESTION: 与问题规范、模型组件或优化模型逻辑相关的问题。问题可能涉及：
- 目标标准或约束
- 模型组件（例如优化中的元素）
- 组件之间的关系
OPTIONS: 由OR专家创建的四个可能的答案选项，LLM必须从中选择正确答案。
TARGET_ANSWER: 问题的正确答案。
REASONING: 仅验证集包含，包含专家创建的解释如何得出正确答案的推理步骤。

示例实例（验证集）

以下是一个验证集中的示例实例，包含用于上下文学习的专家创建的推理步骤： json instance = { "QUESTION_TYPE": "Q6", "CONTEXT": "As a programming director at the Starlight Network, youre tasked with creating a lineup for the prime-time broadcasting...", "QUESTION": " What are the decision activities of the optimization problem?", "OPTIONS": ["Due date", "Show broadcast order", "Show broadcast indicator", "Processing time"], "ARGET_ANSWER": 2, "REASONING": "The possible decision activities mentioned in options ..." }

数据集下载

数据集可以通过以下命令下载： bash !wget https://vbdai-notebooks.obs.cn-north-4.myhuaweicloud.com/orqa/code.zip !unzip -qo code.zip

数据集位于 /src/task/dataset/ 目录下。

搜集汇总

数据集介绍

构建方式

ORQA数据集由运筹学专家精心构建，旨在评估大型语言模型在运筹学领域的推理能力。该数据集包含真实世界的优化问题，这些问题需要多步数学推理才能得出解决方案。每个问题实例均由专家手工设计，确保其复杂性和专业性，涵盖了优化问题的各个关键组成部分及其相互关系。数据集的构建过程严格遵循科学方法，确保了问题的高质量和多样性。

特点

ORQA数据集的特点在于其专注于运筹学领域的复杂优化问题，要求模型具备多步推理能力。数据集包含1468个测试实例和45个验证实例，每个实例均包含问题的上下文描述、相关问题、四个选项、正确答案以及验证集中的推理步骤。这些推理步骤由专家提供，详细解释了如何从问题描述中推导出正确答案，为模型的推理过程提供了宝贵的参考。

使用方法

ORQA数据集的使用方法相对直观，用户可以通过下载代码包并解压后访问数据集文件。数据集分为测试集和验证集，分别存储在`ORQA_test.jsonl`和`ORQA_validation.jsonl`文件中。用户可以通过加载这些文件，获取每个实例的上下文、问题、选项、正确答案及推理步骤。验证集中的推理步骤可用于模型的上下文学习，而测试集则用于评估模型在复杂优化问题上的推理能力。

背景与挑战

背景概述

ORQA（Operations Research Question Answering）数据集是一个专门设计用于评估大语言模型（LLMs）在运筹学（Operations Research, OR）领域推理能力的新基准。该数据集由运筹学专家精心构建，旨在测试LLMs在面对复杂优化问题时是否能够模拟专家的知识和推理能力。ORQA数据集包含真实世界的优化问题，这些问题通常需要多步数学推理才能得出解决方案。通过评估多个开源LLMs（如LLaMA 3.1、DeepSeek和Mixtral），研究人员发现这些模型在专业领域中的泛化能力仍有显著差距。该数据集的研究成果已被AAAI 2025会议接受，并已在arXiv上发布。

当前挑战

ORQA数据集的核心挑战在于如何有效评估LLMs在高度专业化领域中的推理能力。首先，运筹学问题通常涉及复杂的数学模型和多步推理，这对LLMs的数学理解和逻辑推理能力提出了极高要求。其次，构建该数据集时，研究人员需要确保问题的多样性和复杂性，以充分测试模型的泛化能力。此外，数据集中每个问题的选项设计也极具挑战性，必须由领域专家精心设计，以确保问题的难度和区分度。最后，尽管数据集提供了验证集中的专家推理步骤，但测试集并未包含这些信息，这进一步增加了模型在无监督情况下的推理难度。

常用场景

经典使用场景

ORQA数据集专为评估大语言模型（LLMs）在运筹学领域的推理能力而设计，其经典使用场景包括对复杂优化问题的多步数学推理。通过提供真实世界的优化问题案例，ORQA能够测试LLMs是否能够模拟运筹学专家的知识和推理技能，从而在技术领域中进行有效的知识迁移和应用。

解决学术问题

ORQA数据集解决了LLMs在技术领域中的泛化能力问题。当前LLMs在通用领域表现优异，但在运筹学等专业领域中的表现仍有显著差距。ORQA通过精心设计的优化问题，揭示了LLMs在处理复杂数学推理时的局限性，为改进模型在技术领域的推理能力提供了重要参考。

衍生相关工作

ORQA数据集的发布推动了相关领域的研究进展。基于ORQA，研究人员开发了多种改进LLMs在技术领域推理能力的方法，例如引入专家知识增强的预训练模型和多步推理优化算法。此外，ORQA还为运筹学与人工智能交叉领域的研究提供了新的研究方向，促进了技术领域知识图谱的构建与应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集