ORQA
收藏ORQA 数据集概述
数据集简介
ORQA(Operations Research Question Answering)是一个新的基准测试,旨在评估大型语言模型(LLMs)在运筹学(Operations Research, OR)这一专业领域中的推理能力。该基准测试评估LLMs在面对复杂优化问题时,是否能够模拟OR专家的知识和推理技能。数据集由OR专家精心设计,包含需要多步数学推理才能解决的现实世界优化问题。
数据集结构
数据集位于目录 src/task/dataset 中,包含以下两个文件:
- 测试集(1468个实例):
ORQA_test.jsonl - 验证集(45个实例):
ORQA_validation.jsonl
每个实例包含的内容
- CONTEXT: 以自然语言描述的优化问题的案例研究。
- QUESTION: 与问题规范、模型组件或优化模型逻辑相关的问题。问题可能涉及:
- 目标标准或约束
- 模型组件(例如优化中的元素)
- 组件之间的关系
- OPTIONS: 由OR专家创建的四个可能的答案选项,LLM必须从中选择正确答案。
- TARGET_ANSWER: 问题的正确答案。
- REASONING: 仅验证集包含,包含专家创建的解释如何得出正确答案的推理步骤。
示例实例(验证集)
以下是一个验证集中的示例实例,包含用于上下文学习的专家创建的推理步骤: json instance = { "QUESTION_TYPE": "Q6", "CONTEXT": "As a programming director at the Starlight Network, youre tasked with creating a lineup for the prime-time broadcasting...", "QUESTION": " What are the decision activities of the optimization problem?", "OPTIONS": ["Due date", "Show broadcast order", "Show broadcast indicator", "Processing time"], "ARGET_ANSWER": 2, "REASONING": "The possible decision activities mentioned in options ..." }
数据集下载
数据集可以通过以下命令下载: bash !wget https://vbdai-notebooks.obs.cn-north-4.myhuaweicloud.com/orqa/code.zip !unzip -qo code.zip
数据集位于 /src/task/dataset/ 目录下。




