LogicBench
收藏github2024-05-02 更新2024-05-31 收录
下载链接:
https://github.com/Mihir3009/LogicBench
下载链接
链接失效反馈官方服务:
资源简介:
LogicBench是一个自然语言问答数据集,专注于使用单一推理规则,旨在系统评估大型语言模型的逻辑推理能力。该数据集包含25种推理模式,涵盖命题逻辑、一阶逻辑和非单调逻辑。
LogicBench is a natural language question-answering dataset that focuses on the use of single reasoning rules, aiming to systematically evaluate the logical reasoning capabilities of large language models. The dataset encompasses 25 reasoning patterns, covering propositional logic, first-order logic, and non-monotonic logic.
创建时间:
2024-04-24
原始信息汇总
LogicBench数据集概述
数据集描述
- 名称: LogicBench
- 目的: 评估大型语言模型(LLMs)的逻辑推理能力
- 涵盖逻辑类型: 包含25种推理规则/推理模式,涉及命题逻辑、一阶逻辑和非单调逻辑
数据集版本
- LogicBench(Eval): 高质量的人工验证评估数据集,包含两种任务类型:
- 二元问答(BQA)
- 多选问答(MCQA)
- LogicBench(Aug): 合成增强版本,用于训练目的
数据集结构
- LogicBench(Aug)
- 包含三个逻辑类型的子文件夹:
- 一阶逻辑
- 非单调逻辑
- 命题逻辑
- 包含三个逻辑类型的子文件夹:
- LogicBench(Eval)
- BQA
- 包含三个逻辑类型的子文件夹:
- 命题逻辑
- 一阶逻辑
- 非单调逻辑
- 包含三个逻辑类型的子文件夹:
- MCQA
- 包含三个逻辑类型的子文件夹:
- 命题逻辑
- 一阶逻辑
- 非单调逻辑
- 包含三个逻辑类型的子文件夹:
- BQA
文件格式
- BQA JSON格式
- 包含类型、公理和样本列表
- 每个样本包含ID、上下文和问答对列表
- MCQA JSON格式
- 包含类型、公理和样本列表
- 每个样本包含ID、上下文、问题、选择和答案
许可证
- MIT License
引用信息
- 若使用此数据集,请引用相关论文: bibtex @article{parmar2024towards, title={Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models}, author={Parmar, Mihir and Patel, Nisarg and Varshney, Neeraj and Nakamura, Mutsumi and Luo, Man and Mashetty, Santosh and Mitra, Arindam and Baral, Chitta}, journal={arXiv preprint arXiv:2404.15522}, year={2024} }
搜集汇总
数据集介绍

构建方式
LogicBench数据集的构建旨在系统评估大型语言模型(LLMs)的逻辑推理能力。该数据集涵盖了25种不同的推理模式,跨越命题逻辑、一阶逻辑和非单调逻辑。数据集分为两个版本:LogicBench(Eval)和LogicBench(Aug)。LogicBench(Eval)是一个高质量的人工验证评估数据集,而LogicBench(Aug)则是用于训练的合成增强版本。LogicBench(Eval)包含两种任务类型:二元问答(BQA)和多选问答(MCQA),分别针对不同的逻辑类型进行设计,确保了数据集的多样性和全面性。
特点
LogicBench数据集的显著特点在于其专注于单一推理规则的应用,从而能够系统地评估LLMs在不同逻辑领域中的表现。数据集涵盖了广泛的逻辑类型,包括命题逻辑、一阶逻辑和非单调逻辑,确保了测试的全面性。此外,LogicBench(Eval)的高质量人工验证确保了数据集的准确性和可靠性,而LogicBench(Aug)的合成增强版本则为模型训练提供了丰富的数据资源。
使用方法
使用LogicBench数据集时,用户可以通过访问`./data`文件夹获取数据集的两个版本。LogicBench(Eval)适用于模型评估,包含二元问答(BQA)和多选问答(MCQA)两种任务类型。每个任务类型的数据以JSON格式存储,便于解析和使用。LogicBench(Aug)则适用于模型训练,提供了合成增强的数据。用户可以根据需求选择合适的版本进行模型训练或评估,并通过提供的JSON文件格式进行数据处理和分析。
背景与挑战
背景概述
LogicBench数据集由Mihir Parmar、Nisarg Patel等研究人员于2024年创建,旨在系统评估大型语言模型(LLMs)的逻辑推理能力。该数据集涵盖了25种不同的推理模式,跨越命题逻辑、一阶逻辑和非单调逻辑,专注于单一推理规则的自然语言问答任务。通过详细分析GPT-4、ChatGPT、Gemini等LLMs的表现,研究团队发现现有模型在处理复杂推理和否定情况时表现不佳。LogicBench的推出不仅为逻辑推理能力的评估提供了标准化工具,还为未来提升LLMs的逻辑推理能力研究奠定了基础。
当前挑战
LogicBench数据集面临的挑战主要集中在两个方面。首先,构建过程中需要确保数据集覆盖多种逻辑类型,并保持高质量的人工验证,这增加了数据集的复杂性和构建难度。其次,现有LLMs在处理复杂推理和否定情况时表现不佳,表明逻辑推理能力的提升仍是一个重大挑战。此外,如何有效利用LogicBench进行模型训练和评估,以推动LLMs在逻辑推理任务中的表现,也是未来研究需要解决的问题。
常用场景
经典使用场景
LogicBench数据集的经典使用场景主要集中在对大型语言模型(LLMs)的逻辑推理能力进行系统性评估。该数据集通过涵盖25种不同的推理模式,跨越命题逻辑、一阶逻辑和非单调逻辑,为研究者提供了一个全面的测试平台。通过使用链式思维提示(chain-of-thought prompting),研究者可以详细分析LLMs在处理复杂推理和否定情况时的表现,从而为模型优化提供有力依据。
实际应用
在实际应用中,LogicBench数据集可用于开发和验证具有强大逻辑推理能力的智能系统。例如,在法律推理、医疗诊断和复杂决策支持系统等领域,逻辑推理是关键能力。通过使用LogicBench进行模型训练和评估,开发者可以确保其系统在处理复杂逻辑问题时具有更高的准确性和可靠性,从而提升系统的整体性能和用户信任度。
衍生相关工作
LogicBench数据集的发布激发了大量相关研究工作,特别是在LLMs的逻辑推理能力评估和改进方面。例如,研究者们基于LogicBench开发了新的训练方法和提示策略,以提高模型在复杂推理任务中的表现。此外,LogicBench还促进了跨学科的合作,如与认知科学和人工智能伦理学的结合,探讨如何更有效地评估和提升AI系统的逻辑推理能力,确保其符合人类逻辑和道德标准。
以上内容由遇见数据集搜集并总结生成



