AutoLogi

Name: AutoLogi
Creator: 复旦大学计算机科学技术学院, 阿里巴巴集团
Published: 2025-02-24 15:02:31
License: 暂无描述

arXiv2025-02-24 更新2025-02-26 收录

下载链接：

https://github.com/8188zq/AutoLogi

下载链接

链接失效反馈

官方服务：

资源简介：

AutoLogi是一个自动生成的开放性问题逻辑谜题数据集，由复旦大学计算机科学技术学院和阿里巴巴集团共同创建。该数据集通过程序化验证和可控难度等级，旨在为大型语言模型提供更可靠的推理能力评估。数据集包含1575个英文逻辑谜题和883个中文逻辑谜题，全部由高级语言模型生成，并经过验证函数检查以确保正确性。该数据集的应用领域是逻辑推理能力的评估，旨在解决现有标准多项选择题格式容易导致随机猜测的问题。

AutoLogi is an automatically generated open-ended logical puzzle dataset co-created by the School of Computer Science, Fudan University and Alibaba Group. Equipped with programmatic verification and controllable difficulty levels, this dataset is designed to provide more robust evaluations of reasoning capabilities for large language models. It comprises 1,575 English logical puzzles and 883 Chinese logical puzzles, all generated by advanced large language models and validated via dedicated validation functions to ensure their correctness. Focused on logical reasoning ability evaluation, this dataset aims to resolve the problem that existing standard multiple-choice question formats are highly prone to random guessing.

提供机构：

复旦大学计算机科学技术学院, 阿里巴巴集团

创建时间：

2025-02-24

搜集汇总

数据集介绍

构建方式

AutoLogi数据集的构建方式主要分为三个阶段：问题制定、格式与验证器生成以及数据增强。首先，从包含与谜题相关内容的语料库中提取并重构文本，生成背景信息和逻辑约束。然后，使用高级语言模型生成格式要求、验证器（包括格式验证器和约束验证器）和遍历函数。最后，通过减少和扩展两种技术对数据进行增强，以构建具有平衡难度分布的数据集。

使用方法

AutoLogi数据集的使用方法包括：作为基准进行评估，通过比较模型在不同难度谜题上的表现来评估其推理能力；用于模型训练，通过拒绝抽样与验证器相结合的方式生成高质量的训练数据，包括监督微调（SFT）和直接偏好优化（DPO）两种类型的数据集。使用AutoLogi进行训练可以显著提高模型在多个独立推理基准上的表现。

背景与挑战

背景概述

AutoLogi数据集是由Qwen团队和复旦大学计算机科学学院的研究人员共同开发的，旨在为评估大型语言模型（LLMs）的逻辑推理能力提供一个自动化的开放式逻辑谜题生成方法。该数据集的创建旨在解决现有基准测试主要依赖于多项选择题格式，容易受到随机猜测的影响，导致模型性能被高估和波动性大的问题。AutoLogi通过程序化验证和控制难度级别，提供了更可靠的评估，能够更好地区分模型的推理能力。该数据集的创建对相关领域产生了显著影响，为LLMs的逻辑推理能力评估提供了新的方法和视角。

当前挑战

AutoLogi数据集面临的主要挑战包括：1) 领域问题的挑战：现有基准测试主要依赖于多项选择题格式，容易受到随机猜测的影响，导致模型性能被高估和波动性大。AutoLogi旨在通过自动化的开放式逻辑谜题生成方法解决这个问题，以提供更准确的模型性能评估。2) 构建过程中的挑战：构建AutoLogi数据集需要大量的程序化验证和难度控制，这需要依赖先进的大型语言模型（LLMs）来生成逻辑谜题和验证函数。此外，还需要设计有效的数据增强方法来平衡数据集的难度分布。这些挑战需要研究人员不断探索和改进，以提升AutoLogi数据集的质量和有效性。

常用场景

经典使用场景

AutoLogi数据集最经典的使用场景在于评估大型语言模型（LLMs）的逻辑推理能力。该数据集包含开放式的逻辑谜题，要求模型从零开始构建完整的解决方案，从而更准确地反映模型的推理能力。AutoLogi的特点是程序化验证和可控的难度级别，这使得它能够更可靠地评估模型，并且更好地区分模型的推理能力。

解决学术问题

AutoLogi数据集解决了现有基准测试中存在的三个基本挑战：易受随机猜测的影响、难度变化不足以区分模型能力以及数据集构建中的人工标注成本高。AutoLogi通过开放式的逻辑谜题设计，避免了随机猜测带来的性能虚高问题，并通过程序化验证确保了评估的可靠性。此外，AutoLogi通过自动生成不同逻辑约束的谜题，实现了难度级别的平衡分布，从而更好地区分不同模型的推理能力。

实际应用

AutoLogi数据集在实际应用中，不仅可以用于评估LLMs的逻辑推理能力，还可以用于生成高质量的训练数据。通过拒绝采样和程序化验证，AutoLogi能够生成经过验证的正确答案，以及正确-错误答案对，从而为监督微调（SFT）和直接偏好优化（DPO）提供高质量的数据。实验结果表明，使用AutoLogi生成的训练数据可以显著提高LLMs在独立推理基准测试上的性能，例如，Qwen模型在LiveBench上的性能从30%提高到35%（7B规模）和从46%提高到52%（72B规模）。

数据集最近研究