RuleArena
收藏RuleArena
数据集简介
RuleArena 是一个用于评估大型语言模型(LLMs)在真实世界场景中规则引导推理任务的挑战性基准。该数据集包含以下三个领域的任务:
- Airline(航空):计算乘客的总费用,包括机票和托运行李费。
- NBA(美国职业篮球联赛):确定一个或多个指定交易(合同签订或交易)是否允许。
- Tax(税务):根据个人或家庭的财务信息计算所得税。
LLMs 在执行任务时,会接收到任务指令、参考规则和用户实例,并需要在参考规则的指导下进行推理和计算。
使用方法
主要结果
进入相应领域(airline、nba 或 tax)文件夹,运行评估脚本 auto_test.py,并指定以下参数:
- 要评估的 LLM(
--llm) - 问题的难度级别(
--complexity) - 是否使用 1-shot 示例(
--use_example)
例如,评估 Claude-3.5 Sonnet 在航空任务中的表现: bash cd ./airline python auto_test.py --llm claude-3-5-sonnet-20241022 --complexity 1 --use_example
不同规则表示的实验
运行规则表示实验时,添加 --textual 参数,将表格规则转换为文本规则:
bash
cd ./airline
python auto_test.py --llm claude-3-5-sonnet-20241022 --complexity 0 --use_example --textual
干扰规则实验
运行干扰规则实验时,添加 --distractor 或 --placeholder 参数,插入干扰规则或无意义的占位符:
bash
cd ./tax
python auto_test.py --llm claude-3-5-sonnet-20241022 --complexity 0 --use_example --distractor
python auto_test.py --llm claude-3-5-sonnet-20241022 --complexity 0 --use_example --placeholder
注意:不要同时使用这两个参数。
引用
如果使用 RuleArena 并发现它对您的工作有帮助,请考虑引用我们的论文并给我们一个星标。如有任何问题,请联系 Ruiwen Zhou 或在 GitHub 上提出问题。
@article{zhou2024rulearena, author={Ruiwen Zhou and Wenyue Hua and Liangming Pan and Sitao Cheng and Xiaobao Wu and En Yu and William Yang Wang}, title={RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios}, journal={arXiv preprint arXiv:2412.08972}, year={2024} }




