合成数据集

Name: 合成数据集
Creator: 芝加哥大学, 滑铁卢大学Vector Institute, 加拿大
Published: 2025-02-14 02:46:44
License: 暂无描述

arXiv2025-02-14 更新2025-02-27 收录

下载链接：

http://arxiv.org/abs/2502.09589v1

下载链接

链接失效反馈

官方服务：

资源简介：

本研究团队创建了一个用于测量大型语言模型逻辑推理性能的合成数据集。该数据集包含命题逻辑和模态逻辑中的假设和选言三段论，通过为变量分配现实世界意义或无意义词汇，形成了24,000个问题。数据集旨在帮助理解大型语言模型在逻辑推理方面的表现，尤其是在处理不同模态和论证形式时的差异。

This research team constructed a synthetic dataset for measuring the logical reasoning performance of large language models. The dataset encompasses hypothetical syllogisms and disjunctive syllogisms from both propositional logic and modal logic, generating 24,000 questions by assigning either real-world meanings or meaningless lexical items to variables. This dataset is designed to facilitate understanding of the logical reasoning performance of large language models, particularly the differences in their performance when handling distinct logical modalities and argumentation forms.

提供机构：

芝加哥大学, 滑铁卢大学Vector Institute, 加拿大

创建时间：

2025-02-14

搜集汇总

数据集介绍

构建方式

为了系统地研究大型语言模型（LLMs）在自然语言中的逻辑推理能力，本研究构建了一个受控的假设和析取三段论数据集，该数据集基于命题逻辑和模态逻辑。数据集的构建过程首先使用了命题逻辑和模态逻辑的形式作为模板，然后为模板中的每个命题变量分配了含义（例如现实世界的解释或由无意义词语组成的短语），并将模板转换为自然语言中的是/否问题。为了平衡数据集，还引入了一些逻辑谬误，以生成带有真实标签“否”的问题。最终，数据集中包含了24种形式，每种形式有1000个解释，共计24000个问题。

特点

该数据集的特点在于其逻辑形式的多样性，包括命题逻辑和模态逻辑，以及其现实世界解释的丰富性。数据集中的问题旨在反映日常交流中的推理过程，同时避免了常识知识偏差，以确保逻辑推理过程的独立性。此外，数据集还考虑了模态性，这对于LLMs的性能预测至关重要。

使用方法

该数据集的使用方法是通过评估LLMs在不同逻辑形式上的性能来理解其逻辑推理能力。研究人员可以通过将LLMs应用于数据集中的问题，并使用概率为基础的指标来评估模型的表现。此外，数据集还可以用于比较LLMs和人类的逻辑推理能力，以揭示两者之间的相似之处和差异。

背景与挑战

背景概述

随着自然语言处理领域对大型语言模型（LLMs）在规划中应用的兴趣日益增长，理解这些模型的行为成为了一个重要的研究问题。这项工作系统地调查了LLMs在自然语言中进行逻辑推理的能力。我们引入了一个包含假设性和析取式三段论的数据集，这些三段论在命题逻辑和模态逻辑中，并使用它作为理解LLM性能的测试平台。我们的研究结果导致了预测LLM行为的新见解：除了输入的概率（Gonen et al., 2023; McCoy et al., 2024）之外，逻辑形式应该被视为正交因素。此外，我们还通过比较LLM和人类行为结果，展示了人类和LLMs在逻辑推理表现上的相似性和差异。

当前挑战

该数据集在构建过程中面临了一些挑战，包括：1)如何确保逻辑形式的自然语言表达既准确又无歧义，同时避免引入知识偏差；2)如何评估LLMs在处理不同逻辑形式时的表现，并找到影响它们性能的关键因素；3)如何将LLMs的逻辑推理能力与人类的逻辑推理能力进行比较，以揭示它们之间的相似性和差异。此外，该数据集在解决领域问题（例如：LLMs在逻辑推理问题上的表现）的挑战时，也面临了如何创建一个能够全面反映LLMs逻辑推理能力的测试平台的问题。

常用场景

经典使用场景

该数据集被广泛应用于评估大型语言模型（LLMs）在自然语言中的逻辑推理能力。通过构建一系列假说和析取三段论的数据集，研究者可以系统地研究LLMs在不同逻辑形式下的表现，从而深入理解LLMs在自然语言规划中的应用潜力。

解决学术问题

该数据集解决了LLMs在自然语言逻辑推理中的性能评估问题。以往的研究主要集中在复杂的、多跳推理问题上，而该数据集则通过控制实验，评估LLMs在假说和析取三段论上的表现，揭示了逻辑形式对于预测LLMs性能的重要性。此外，该数据集还通过比较LLMs和人类在逻辑推理方面的表现，为理解和预测LLMs行为提供了新的视角。

衍生相关工作

该数据集的衍生相关工作包括但不限于对LLMs在特定逻辑形式上的性能进行更深入的分析，以及对LLMs和人类在逻辑推理方面的表现进行比较研究。此外，该数据集还可以用于开发新的自然语言处理模型，以提高LLMs在逻辑推理方面的性能。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集