cogint/LogicBench-v1.0
收藏Hugging Face2024-05-02 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/cogint/LogicBench-v1.0
下载链接
链接失效反馈官方服务:
资源简介:
LogicBench是一个专注于评估大型语言模型(LLMs)逻辑推理能力的自然语言问答数据集。该数据集涵盖了25种不同的推理模式,包括命题逻辑、一阶逻辑和非单调逻辑。数据集分为两个版本:LogicBench(Eval)和LogicBench(Aug),分别用于评估和增强模型的逻辑推理能力。数据集的目录结构包括多个文件夹,每个文件夹对应不同的逻辑类型,并包含JSON格式的文件,这些文件详细描述了每个推理规则的样本数据。数据集的发布遵循MIT License。
LogicBench是一个专注于评估大型语言模型(LLMs)逻辑推理能力的自然语言问答数据集。该数据集涵盖了25种不同的推理模式,包括命题逻辑、一阶逻辑和非单调逻辑。数据集分为两个版本:LogicBench(Eval)和LogicBench(Aug),分别用于评估和增强模型的逻辑推理能力。数据集的目录结构包括多个文件夹,每个文件夹对应不同的逻辑类型,并包含JSON格式的文件,这些文件详细描述了每个推理规则的样本数据。数据集的发布遵循MIT License。
提供机构:
cogint
原始信息汇总
数据集概述
数据集名称
- 名称: LogicBench
数据集版本
- 版本: LogicBench(Eval) 和 LogicBench(Aug)
数据集内容
- 内容描述: 包含25种推理规则/推理模式,涵盖命题逻辑、一阶逻辑和非单调逻辑。
数据集结构
- 文件结构:
- LogicBench(Aug)
- first_order_logic
- nm_logic
- propositional_logic
- LogicBench(Eval)
- BQA
- propositional_logic
- first_order_logic
- nm_logic
- MCQA
- propositional_logic
- first_order_logic
- nm_logic
- BQA
- LogicBench(Aug)
数据集文件格式
- JSON文件格式: JSON { "type": "str", "axiom": "str", "samples": [ { "id": "int", "context": "str", "qa_pairs": [ { "question": "str", "answer": "str" }, { "question": "str", "answer": "str" } ] }, { "id": "int", "context": "str", "qa_pairs": [ { "question": "str", "answer": "str" }, { "question": "str", "answer": "str" } ] } ] }
数据集许可证
- 许可证: MIT License
数据集任务类别
- 任务类别:
- text2text-generation
- question-answering
数据集语言
- 语言: en
数据集大小
- 大小: 10K<n<100K
搜集汇总
数据集介绍

构建方式
LogicBench-v1.0数据集的构建旨在系统评估大型语言模型(LLMs)的逻辑推理能力。该数据集涵盖了25种不同的推理模式,跨越命题逻辑、一阶逻辑和非单调逻辑。数据集分为两个版本:LogicBench(Eval)和LogicBench(Aug)。每个版本均包含多个子文件夹,分别对应不同的逻辑类型。每个子文件夹中的JSON文件按照特定的格式组织,包含推理规则的类型、公理以及多个样本,每个样本包括上下文、问题和答案对。
特点
LogicBench-v1.0数据集的主要特点在于其全面性和系统性。它不仅覆盖了多种逻辑推理规则,还通过详细的实验分析揭示了现有LLMs在复杂推理和否定处理上的不足。此外,数据集的设计允许使用链式思维提示(chain-of-thought prompting)进行评估,从而更深入地理解模型的推理过程。
使用方法
使用LogicBench-v1.0数据集时,研究者可以加载数据集的不同配置,如默认配置,并选择训练或测试集进行实验。数据集的JSON文件格式清晰,便于解析和处理。研究者可以通过分析模型在不同推理规则上的表现,评估和提升其逻辑推理能力。此外,数据集支持多种语言模型,如GPT-4、ChatGPT等,为跨模型比较提供了便利。
背景与挑战
背景概述
近年来,大型语言模型(LLMs)在语言理解任务中表现出色,但其逻辑推理能力仍是一个未充分探索的领域。LogicBench-v1.0数据集由cogint机构创建,旨在系统评估LLMs的逻辑推理能力。该数据集涵盖了25种不同的推理模式,跨越命题逻辑、一阶逻辑和非单调逻辑,为研究人员提供了一个全面的评估工具。通过对比GPT-4、ChatGPT、Gemini、Llama-2和Mistral等模型,研究团队发现现有LLMs在复杂推理和否定处理上表现不佳,这为未来提升LLMs的逻辑推理能力提供了重要参考。
当前挑战
LogicBench-v1.0数据集在构建过程中面临的主要挑战包括:首先,设计涵盖多种逻辑推理模式的任务,确保数据集的全面性和代表性;其次,确保数据集能够有效区分不同LLMs的推理能力,特别是在复杂推理和否定处理上的表现。此外,数据集还需克服现有LLMs在处理逻辑推理时可能出现的参数知识优先于上下文信息的问题,以及忽略正确推理链的倾向。这些挑战为未来研究提供了明确的方向,以进一步提升LLMs的逻辑推理能力。
常用场景
经典使用场景
在自然语言处理领域,LogicBench-v1.0数据集的经典使用场景主要集中在评估和提升大型语言模型(LLMs)的逻辑推理能力。该数据集通过涵盖25种不同的推理模式,包括命题逻辑、一阶逻辑和非单调逻辑,为研究人员提供了一个系统化的评估框架。通过使用链式思维提示(chain-of-thought prompting),研究人员可以详细分析如GPT-4、ChatGPT等LLMs在处理复杂推理和否定情况时的表现,从而识别和改进其逻辑推理的不足之处。
解决学术问题
LogicBench-v1.0数据集解决了当前学术界在评估LLMs逻辑推理能力方面的不足。传统研究往往仅关注少数推理规则,而该数据集全面覆盖了多种逻辑推理模式,填补了这一研究空白。通过提供一个系统化的评估工具,LogicBench-v1.0促进了逻辑推理能力的深入研究,为提升LLMs的智能水平提供了重要的理论和实践支持。
衍生相关工作
基于LogicBench-v1.0数据集,许多相关研究工作得以展开。例如,有研究者利用该数据集开发了新的逻辑推理评估指标,进一步细化了LLMs的性能评估。同时,一些研究团队基于此数据集提出了改进的训练方法,旨在提升LLMs在复杂推理任务中的表现。这些衍生工作不仅丰富了逻辑推理领域的研究内容,也为实际应用提供了更多创新解决方案。
以上内容由遇见数据集搜集并总结生成



