cogint/LogicBench-v1.0

Name: cogint/LogicBench-v1.0
Creator: cogint
Published: 2024-05-02 05:15:43
License: 暂无描述

Hugging Face2024-05-02 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/cogint/LogicBench-v1.0

下载链接

链接失效反馈

官方服务：

资源简介：

LogicBench是一个专注于评估大型语言模型（LLMs）逻辑推理能力的自然语言问答数据集。该数据集涵盖了25种不同的推理模式，包括命题逻辑、一阶逻辑和非单调逻辑。数据集分为两个版本：LogicBench(Eval)和LogicBench(Aug)，分别用于评估和增强模型的逻辑推理能力。数据集的目录结构包括多个文件夹，每个文件夹对应不同的逻辑类型，并包含JSON格式的文件，这些文件详细描述了每个推理规则的样本数据。数据集的发布遵循MIT License。

提供机构：

cogint

原始信息汇总

数据集概述

数据集名称

名称: LogicBench

数据集版本

版本: LogicBench(Eval) 和 LogicBench(Aug)

数据集内容

内容描述: 包含25种推理规则/推理模式，涵盖命题逻辑、一阶逻辑和非单调逻辑。

数据集结构

文件结构:
- LogicBench(Aug)
  - first_order_logic
  - nm_logic
  - propositional_logic
- LogicBench(Eval)
  - BQA
    - propositional_logic
    - first_order_logic
    - nm_logic
  - MCQA
    - propositional_logic
    - first_order_logic
    - nm_logic

数据集文件格式

JSON文件格式: JSON { "type": "str", "axiom": "str", "samples": [ { "id": "int", "context": "str", "qa_pairs": [ { "question": "str", "answer": "str" }, { "question": "str", "answer": "str" } ] }, { "id": "int", "context": "str", "qa_pairs": [ { "question": "str", "answer": "str" }, { "question": "str", "answer": "str" } ] } ] }

数据集许可证

许可证: MIT License

数据集任务类别

任务类别:
- text2text-generation
- question-answering

数据集语言

语言: en

数据集大小

大小: 10K<n<100K

搜集汇总

数据集介绍

构建方式

LogicBench-v1.0数据集的构建旨在系统评估大型语言模型（LLMs）的逻辑推理能力。该数据集涵盖了25种不同的推理模式，跨越命题逻辑、一阶逻辑和非单调逻辑。数据集分为两个版本：LogicBench(Eval)和LogicBench(Aug)。每个版本均包含多个子文件夹，分别对应不同的逻辑类型。每个子文件夹中的JSON文件按照特定的格式组织，包含推理规则的类型、公理以及多个样本，每个样本包括上下文、问题和答案对。

特点

LogicBench-v1.0数据集的主要特点在于其全面性和系统性。它不仅覆盖了多种逻辑推理规则，还通过详细的实验分析揭示了现有LLMs在复杂推理和否定处理上的不足。此外，数据集的设计允许使用链式思维提示（chain-of-thought prompting）进行评估，从而更深入地理解模型的推理过程。

使用方法

使用LogicBench-v1.0数据集时，研究者可以加载数据集的不同配置，如默认配置，并选择训练或测试集进行实验。数据集的JSON文件格式清晰，便于解析和处理。研究者可以通过分析模型在不同推理规则上的表现，评估和提升其逻辑推理能力。此外，数据集支持多种语言模型，如GPT-4、ChatGPT等，为跨模型比较提供了便利。

背景与挑战

背景概述

近年来，大型语言模型（LLMs）在语言理解任务中表现出色，但其逻辑推理能力仍是一个未充分探索的领域。LogicBench-v1.0数据集由cogint机构创建，旨在系统评估LLMs的逻辑推理能力。该数据集涵盖了25种不同的推理模式，跨越命题逻辑、一阶逻辑和非单调逻辑，为研究人员提供了一个全面的评估工具。通过对比GPT-4、ChatGPT、Gemini、Llama-2和Mistral等模型，研究团队发现现有LLMs在复杂推理和否定处理上表现不佳，这为未来提升LLMs的逻辑推理能力提供了重要参考。

当前挑战

LogicBench-v1.0数据集在构建过程中面临的主要挑战包括：首先，设计涵盖多种逻辑推理模式的任务，确保数据集的全面性和代表性；其次，确保数据集能够有效区分不同LLMs的推理能力，特别是在复杂推理和否定处理上的表现。此外，数据集还需克服现有LLMs在处理逻辑推理时可能出现的参数知识优先于上下文信息的问题，以及忽略正确推理链的倾向。这些挑战为未来研究提供了明确的方向，以进一步提升LLMs的逻辑推理能力。

常用场景

经典使用场景

在自然语言处理领域，LogicBench-v1.0数据集的经典使用场景主要集中在评估和提升大型语言模型（LLMs）的逻辑推理能力。该数据集通过涵盖25种不同的推理模式，包括命题逻辑、一阶逻辑和非单调逻辑，为研究人员提供了一个系统化的评估框架。通过使用链式思维提示（chain-of-thought prompting），研究人员可以详细分析如GPT-4、ChatGPT等LLMs在处理复杂推理和否定情况时的表现，从而识别和改进其逻辑推理的不足之处。

解决学术问题

LogicBench-v1.0数据集解决了当前学术界在评估LLMs逻辑推理能力方面的不足。传统研究往往仅关注少数推理规则，而该数据集全面覆盖了多种逻辑推理模式，填补了这一研究空白。通过提供一个系统化的评估工具，LogicBench-v1.0促进了逻辑推理能力的深入研究，为提升LLMs的智能水平提供了重要的理论和实践支持。

衍生相关工作

基于LogicBench-v1.0数据集，许多相关研究工作得以展开。例如，有研究者利用该数据集开发了新的逻辑推理评估指标，进一步细化了LLMs的性能评估。同时，一些研究团队基于此数据集提出了改进的训练方法，旨在提升LLMs在复杂推理任务中的表现。这些衍生工作不仅丰富了逻辑推理领域的研究内容，也为实际应用提供了更多创新解决方案。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集