RuleArena

github2024-12-21 更新2024-12-22 收录

下载链接：

https://github.com/SkyRiver-2000/RuleArena

下载链接

链接失效反馈

官方服务：

资源简介：

RuleArena是一个具有挑战性的基准测试，用于评估大型语言模型在现实场景中的规则引导推理任务。它包括航空、NBA和税务三个领域的任务，要求模型根据给定的任务指令、参考规则和用户实例进行推理和计算。

RuleArena is a challenging benchmark designed to evaluate large language models (LLMs) on rule-guided reasoning tasks in real-world scenarios. It covers three task domains: aviation, NBA, and taxation, requiring models to perform reasoning and calculations based on provided task instructions, reference rules, and user instances.

创建时间：

2024-12-12

原始信息汇总

RuleArena

数据集简介

RuleArena 是一个用于评估大型语言模型（LLMs）在真实世界场景中规则引导推理任务的挑战性基准。该数据集包含以下三个领域的任务：

Airline（航空）：计算乘客的总费用，包括机票和托运行李费。
NBA（美国职业篮球联赛）：确定一个或多个指定交易（合同签订或交易）是否允许。
Tax（税务）：根据个人或家庭的财务信息计算所得税。

LLMs 在执行任务时，会接收到任务指令、参考规则和用户实例，并需要在参考规则的指导下进行推理和计算。

使用方法

主要结果

进入相应领域（airline、nba 或 tax）文件夹，运行评估脚本 auto_test.py，并指定以下参数：

要评估的 LLM（--llm）
问题的难度级别（--complexity）
是否使用 1-shot 示例（--use_example）

例如，评估 Claude-3.5 Sonnet 在航空任务中的表现： bash cd ./airline python auto_test.py --llm claude-3-5-sonnet-20241022 --complexity 1 --use_example

不同规则表示的实验

运行规则表示实验时，添加 --textual 参数，将表格规则转换为文本规则： bash cd ./airline python auto_test.py --llm claude-3-5-sonnet-20241022 --complexity 0 --use_example --textual

干扰规则实验

运行干扰规则实验时，添加 --distractor 或 --placeholder 参数，插入干扰规则或无意义的占位符： bash cd ./tax python auto_test.py --llm claude-3-5-sonnet-20241022 --complexity 0 --use_example --distractor python auto_test.py --llm claude-3-5-sonnet-20241022 --complexity 0 --use_example --placeholder

注意：不要同时使用这两个参数。

引用

如果使用 RuleArena 并发现它对您的工作有帮助，请考虑引用我们的论文并给我们一个星标。如有任何问题，请联系 Ruiwen Zhou 或在 GitHub 上提出问题。

@article{zhou2024rulearena, author={Ruiwen Zhou and Wenyue Hua and Liangming Pan and Sitao Cheng and Xiaobao Wu and En Yu and William Yang Wang}, title={RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios}, journal={arXiv preprint arXiv:2412.08972}, year={2024} }

搜集汇总

数据集介绍

构建方式

RuleArena数据集的构建基于真实世界场景中的规则导向推理任务，涵盖了航空、NBA和税务三大领域。每个任务均包含详细的任务指令、参考规则以及用户实例，要求大语言模型（LLMs）在给定规则的指导下进行推理和计算。数据集通过精心设计的规则和实例，模拟了复杂且实际的场景，确保了测试的挑战性和实用性。

特点

RuleArena数据集的显著特点在于其高度模拟真实世界场景，涵盖了多个领域的复杂规则推理任务。数据集不仅提供了多样化的任务类型，还通过不同难度级别和规则表示方式，增强了测试的灵活性和全面性。此外，数据集支持对大语言模型在规则导向推理中的表现进行深入评估，为研究者提供了丰富的实验场景。

使用方法

使用RuleArena数据集时，用户需先安装必要的依赖项，并设置相应的API密钥。随后，用户可通过指定领域（如航空、NBA或税务）和评估脚本，选择不同的大语言模型、难度级别和是否使用示例进行测试。数据集还支持对规则表示方式和干扰规则的实验，进一步扩展了其应用范围。

背景与挑战

背景概述

RuleArena数据集由Ruiwen Zhou等人于2024年创建，旨在评估大型语言模型（LLMs）在真实世界场景中的规则引导推理能力。该数据集的核心研究问题是如何在复杂的规则指导下，使LLMs能够准确执行推理和计算任务。RuleArena涵盖了航空、NBA和税务等多个领域，要求模型根据给定的任务指令、参考规则和用户实例，进行推理和计算。这一研究不仅推动了LLMs在实际应用中的能力评估，还为规则引导推理领域提供了新的基准。

当前挑战

RuleArena数据集面临的挑战主要集中在两个方面。首先，如何在复杂的规则体系下，确保LLMs能够准确理解和执行推理任务，尤其是在涉及多步骤计算和逻辑判断的场景中。其次，数据集的构建过程中，如何设计多样化的规则表示形式和干扰项，以测试模型的鲁棒性和适应性。此外，不同领域规则的复杂性和多样性也为模型的泛化能力提出了更高的要求。

常用场景

经典使用场景

RuleArena数据集的经典使用场景主要集中在评估大型语言模型（LLMs）在规则引导的推理任务中的表现。该数据集通过模拟真实世界的复杂场景，如航空票价计算、NBA交易合法性判断以及个人所得税计算，要求LLMs在给定的任务指令、参考规则和用户实例的基础上，进行精确的推理和计算。这种场景不仅测试了LLMs的计算能力，还评估了其在复杂规则下的逻辑推理能力。

解决学术问题

RuleArena数据集解决了在复杂规则指导下，大型语言模型如何进行有效推理和计算的学术问题。通过提供多样化的真实世界场景和详细的规则集，该数据集为研究者提供了一个标准化的测试平台，用以评估和改进LLMs的推理能力。这不仅推动了自然语言处理领域的发展，还为智能系统在实际应用中的可靠性提供了理论支持。

衍生相关工作

基于RuleArena数据集，许多相关工作得以展开，特别是在规则表示和干扰规则处理方面。研究者们探索了不同的规则表示方法，如将表格规则转换为文本规则，以及如何处理干扰规则和无意义占位符，以提高LLMs的推理准确性。这些研究不仅丰富了数据集的应用场景，还为LLMs在更广泛领域的应用提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集