ChaosBench-Logic

github2026-01-04 更新2026-01-05 收录

下载链接：

https://github.com/11NOel11/ChaosBench-Logic

下载链接

链接失效反馈

官方服务：

资源简介：

ChaosBench-Logic是一个全面的基准数据集，旨在评估大型语言模型在混沌和非混沌动力系统中的推理能力。该数据集包含621个精心设计的问题，涵盖30个动力系统，测试模型在逻辑推理、符号操作、多跳推理、跨系统比较和反事实分析等多个维度的能力。

ChaosBench-Logic is a comprehensive benchmark dataset designed to evaluate the reasoning capabilities of large language models (LLMs) in both chaotic and non-chaotic dynamical systems. This dataset includes 621 carefully crafted questions covering 30 distinct dynamical systems, and assesses models' abilities across multiple dimensions including logical reasoning, symbolic manipulation, multi-hop reasoning, cross-system comparison, and counterfactual analysis.

创建时间：

2025-12-14

原始信息汇总

ChaosBench-Logic 数据集概述

数据集基本信息

数据集名称: ChaosBench-Logic
核心目标: 评估大语言模型在混沌和非混沌动力系统背景下的复杂推理能力。
许可证: 代码使用 MIT 许可证，数据使用 CC BY 4.0 许可证。
访问地址: https://huggingface.co/datasets/11NOel11/ChaosBench-Logic

数据集规模与构成

总问题数: 621 个独特问题（ID: q0001 至 q0621）。
任务类型: 17 种，涵盖原子推理、多跳推理、反事实分析、多轮对话、偏见探测、跨系统比较等。
动力系统: 共定义了 30 个系统，其中 27 个在数据集中被主动使用，3 个（蔡氏电路、阻尼振荡器、双摆）被保留用于未来扩展。
多轮对话: 包含 49 个对话，平均每个对话 4.1 轮（范围 3-6 轮）。
谓词: 每个系统定义了 11 个谓词，用于描述混沌性、确定性、周期性、奇怪吸引子、正李雅普诺夫指数等属性。
标签类型: 答案为 YES/NO 或 TRUE/FALSE，反事实问题包含特殊的 DISAPPEAR 标签。

关键特性

问题多样性: 621 个问题分布在 7 个高层级推理复杂度类别中。
系统覆盖: 涵盖物理、化学、生物和数学领域的 27 个动力系统，包括 Lorenz-63、Brusselator、FitzHugh-Nagumo、Logistic 映射等。
评估模型: 已评估 GPT-4、Claude-3.5、Gemini-2.5、LLaMA-3 70B；代码支持 Mixtral、OpenHermes。
推理模式: 支持零样本和思维链两种推理模式。
评估指标: 包括整体准确率、对话准确率、任务特定细分、一阶逻辑违规检测、偏见分析等。

主要评估结果

最佳模型: GPT-4（零样本）整体准确率最高，达 94.0%。
对话一致性: LLaMA-3 70B（零样本）在多轮对话中表现最佳，准确率为 75.5%。
覆盖范围: 620/621（有 1 个数据项缺少真实标签，被排除在准确率计算外）。
思维链效果: 对 GPT-4 和 LLaMA-3 70B 均产生了性能下降。

数据结构与访问

数据格式: 通过 Hugging Face datasets 库提供两种配置：
- single_turn: 单轮问题（420 个），包含 id, system_id, type, question, ground_truth, template 字段。
- multi_turn: 多轮对话（201 个对话轮次），额外包含 dialogue_id 和 turn 字段。
注意: 有 159 个问题的 system_id 为 null，这些是测试一阶逻辑公理推理的一般性问题。

任务类型分布

任务类型	数量	描述
multi_turn	213	上下文问答序列
bias	114	关于混沌和动力系统的常见误解
atomic	76	稳定性、混沌性、维度、周期性等基本属性
counterfactual	76	参数修改的“假设”场景
hard	35	偏微分方程、化学、生物学等领域特定技术推理
multi_hop	34	跨多个事实的链式逻辑推理
cross_system	26	不同系统间的相对属性比较
其他（11种类型）	47	蕴含、反事实链、有效性、类比、对抗性、陷阱、结构性、谬误、组合性等
总计	621	17种独特任务类型

支持的模型与评估

模型 ID	提供商	评估状态
`gpt4`	OpenAI	✅ 已评估
`claude3`	Anthropic	✅ 已评估
`gemini`	Google	✅ 已评估
`llama3`	HuggingFace	✅ 已评估
`mixtral`	HuggingFace	⚠️ 仅代码支持
`openhermes`	HuggingFace	⚠️ 仅代码支持

搜集汇总

数据集介绍

构建方式

在评估大语言模型对复杂动力系统推理能力的背景下，ChaosBench-Logic数据集通过精心设计的构建流程得以成型。该数据集涵盖来自物理学、化学、生物学和数学领域的30个动力系统，其中27个系统被主动用于问题生成。构建过程以形式化本体论为基础，定义了11个关键谓词，如混沌性、确定性、周期性等，并依据一阶逻辑公理确保问题的逻辑一致性。总计621个问题被划分为17种任务类型，涵盖原子推理、多跳推理、反事实分析及多轮对话等七大类复杂推理维度。问题通过分批构造完成，包括原子蕴含、多系统交叉、偏置探测及高难度反事实场景，确保了评估的广度与深度。

特点

ChaosBench-Logic数据集展现出多维度、结构化的显著特点。其核心在于覆盖广泛的动力系统范畴，既包含经典的混沌系统如洛伦兹模型，也涉及化学振荡器、生物神经元模型及随机过程，从而全面考察模型在不同科学领域的推理泛化能力。数据集精心设计了多样化的任务类型，从基础的属性判断到复杂的多轮对话和反事实情景，有效评估模型在逻辑推断、符号操作及组合推理等方面的表现。此外，数据集内置了严谨的逻辑一致性检验机制，能够追踪模型回答中违反一阶逻辑公理的情况，超越了简单的答案正确性评估，为深入分析模型的推理缺陷提供了精细化的度量工具。

使用方法

该数据集为研究者提供了便捷高效的评估框架。用户可通过HuggingFace平台直接加载数据集，其分为单轮问题与多轮对话两种配置，便于针对不同任务进行分析。评估流程通过标准化的Python脚本执行，支持零样本和思维链两种推理模式，并可灵活配置并行工作线程以适应不同API的速率限制。框架集成了对多种主流大语言模型的支持，包括GPT-4、Claude-3.5等，并允许用户扩展新的模型。运行评估后，系统会生成全面的分析报告，涵盖整体准确率、对话一致性、任务特异性表现以及逻辑违规统计等多维度指标，所有结果均以JSON和CSV格式输出，便于后续的深入研究和可视化分析。

背景与挑战

背景概述

ChaosBench-Logic是由Noel Thomas及其团队于2025年推出的一个专门用于评估大语言模型在复杂动力系统推理能力上的基准测试数据集。该数据集依托于穆罕默德·本·扎耶德人工智能大学的研究背景，旨在解决当前大语言模型在涉及混沌与非混沌动力系统的多维度逻辑推理任务中的性能评估难题。其核心研究问题聚焦于探索模型在符号操作、多跳推理、跨系统比较及反事实分析等高级认知任务上的表现，填补了现有基准测试在复杂科学推理领域的空白。该数据集的构建标志着人工智能评估从通用知识问答向专业科学逻辑推理的范式转变，为后续研究提供了严谨的评估框架。

当前挑战

该数据集所针对的领域挑战在于，传统的大语言模型评估基准多集中于通用知识或简单逻辑任务，难以有效衡量模型在复杂科学系统（如动力系统）中的深层推理能力。具体而言，挑战体现在模型需同时处理符号逻辑、动态系统特性及多步因果推断的复合任务。在构建过程中，研究团队面临三大核心挑战：首先是如何系统性地定义涵盖27种动力系统的11类谓词逻辑，确保形式化公理的严谨性与完备性；其次是如何设计621道问题以平衡任务类型的多样性，涵盖原子推理、多轮对话及反事实分析等17种任务类型；最后是如何建立可靠的评估体系，包括一阶逻辑违规检测机制与对话一致性度量，以超越传统准确率指标，深入揭示模型的逻辑一致性缺陷。

常用场景

经典使用场景

在复杂系统科学和人工智能交叉领域，ChaosBench-Logic数据集为评估大型语言模型在动力学系统复杂推理方面的能力提供了标准化测试平台。该数据集通过涵盖混沌与非混沌系统、逻辑推理、符号操作、多跳推理及反事实分析等多个维度，构建了包含621个精心设计问题的评估框架。其经典使用场景在于系统性地衡量模型对动力学系统核心概念，如稳定性、分岔、周期性和敏感性等的理解深度，尤其适用于检验模型在跨学科知识整合与高阶逻辑推理任务中的表现。

解决学术问题

该数据集有效解决了大型语言模型在复杂科学推理任务中评估标准缺失的学术问题。通过引入形式化的一阶逻辑公理和多样化任务类型，它能够精确量化模型在逻辑一致性、推理链完整性以及领域知识准确性方面的表现。其意义在于为人工智能与复杂系统科学的交叉研究提供了可复现、可比较的基准，推动了模型在科学推理透明度和可靠性方面的进步，并为理解模型在抽象概念和跨领域知识迁移中的局限性提供了实证依据。

衍生相关工作

围绕ChaosBench-Logic数据集，已衍生出多项聚焦于提升模型科学推理能力的经典研究工作。这些工作主要集中于扩展基准的评估维度，例如开发更细粒度的逻辑违反检测算法、构建针对特定科学子领域（如计算神经科学或流体力学）的专用测试集，以及探索结合符号计算与神经推理的混合架构。同时，该数据集也激励了针对链式思维提示策略的优化研究，旨在改善模型在反事实和多轮对话场景中的推理连贯性与准确性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集