ferjorosa/bnqmark-20

Name: ferjorosa/bnqmark-20
Creator: ferjorosa
Published: 2026-04-25 13:42:44
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/ferjorosa/bnqmark-20

下载链接

链接失效反馈

官方服务：

资源简介：

BNqMark-20是一个用于评估大型语言模型（LLMs）在离散贝叶斯网络中进行精确概率推理的基准数据集。它通过提供完整的条件概率表（CPT）规范并要求模型回答条件概率查询，将概率计算与语言解释隔离开来。数据集包括78个贝叶斯网络（4-20个二元变量）、434个条件概率查询和来自9个前沿模型的7,812个LLM评估结果。实验涵盖两种协议：原始推理（模型直接从CPT计算概率）和代码生成（模型编写Python代码解决相同的推理问题）。数据集结构分为三个配置：贝叶斯网络配置（bns）、推理查询（queries）和LLM评估结果（experiments）。

BNqMark-20 is a benchmark dataset for evaluating Large Language Models (LLMs) on exact probabilistic inference in discrete Bayesian Networks. It isolates probabilistic computation from linguistic interpretation by giving models complete conditional probability table (CPT) specifications and asking them to answer conditional probability queries. The dataset includes 78 Bayesian networks with 4-20 binary variables, 434 conditional probability queries, and 7,812 LLM evaluation results from 9 frontier models. Experiments cover two protocols: raw reasoning, where the model computes the probability directly from the CPTs, and code generation, where the model writes Python code to solve the same inference problem. The dataset is organized into three separate configurations: Bayesian Network Configurations (bns), Inference Queries (queries), and LLM Evaluation Results (experiments).

提供机构：

ferjorosa

搜集汇总

数据集介绍

构建方式

BNqMark-20是专为评估大语言模型在离散贝叶斯网络中进行精确概率推理能力而设计的基准数据集。其构建过程首先通过随机生成78个包含4至20个二元变量的贝叶斯网络，涵盖均匀分布与偏斜分布两种狄利克雷先验参数，并精确控制树宽与边的密度。在此基础上，为每个网络设计434个条件概率查询，确保查询在目标变量数、证据变量数以及目标与证据间距离等多个维度上具有多样性。所有查询均通过变量消元算法计算得到精确的基准概率值。最后，部署9种前沿大语言模型，分别采用原始推理与代码生成两种协议进行实验，记录模型的回答、推理过程及执行结果，从而构建出包含7,812条评估记录的综合数据集。

特点

该数据集的核心特点在于将概率计算任务与语言理解过程相分离，通过提供完整的条件概率表规范，纯粹考察模型的概率推理能力。数据集中的贝叶斯网络在节点数量、树宽、边密度及CPT确定性等结构属性上具有系统化的变化，使得能够细致分析模型在不同复杂度下的表现。查询设计涵盖了从单目标单证据到双目标双证据的各种组合，并依据目标与证据节点间的最小距离进行分层，确保了评估的全面性。此外，原始推理与代码生成两种实验协议的并行设置，使得既能评估模型本身的数学推理能力，也能考察其借助外部工具解决复杂计算问题的效能。

使用方法

该数据集通过HuggingFace Datasets库加载，支持按bns、queries和experiments三个配置分别获取贝叶斯网络、查询及实验结果数据。研究人员可将bns配置中的网络结构与queries配置中的查询条件结合，用于评估自有模型的推理能力，也可直接利用experiments配置中的现有结果进行模型间的性能对比分析。数据集以parquet格式存储，支持通过pandas等工具进行高效的数据筛选与聚合操作，例如针对特定模型或特定网络结构的实验结果进行提取与统计分析。该数据集特别适用于探究模型规模、推理策略与概率推理性能之间关联的各类研究问题。

背景与挑战

背景概述

BNqMark-20数据集由Fernando Rodriguez与Bojan Mihaljevic于2026年创建，旨在系统评估大规模语言模型在离散贝叶斯网络精确概率推断任务中的表现。该数据集精心设计了78个包含4至20个二进制节点的贝叶斯网络，并配以434个条件概率查询，通过剥离语言理解因素、直接提供完整条件概率表，从而纯粹考察模型的概率计算与推理能力。其影响力在于为LLM的符号推理与数学计算评测开辟了新的基准方向，尤其填补了现有基准在结构化概率模型评估方面的空白。

当前挑战

该数据集旨在攻克概率推断领域中LLM面临的符号计算与统计推理相融合的核心挑战。一是LLM在原始推理协议下，从多变量条件概率表中精确提取并计算边缘概率的数学能力不足，尤其在树宽增加、证据变量与目标变量距离增大时，推理复杂度急剧上升。二是代码生成协议虽允许模型编写求解程序，却引入了编程语法正确性与库API兼容性等额外约束，使模型需同时推理与编码。此外，数据集构建过程中，需确保网络拓扑结构与概率分布的多样性和可解释性，同时维持查询的信息量阈值，对参数组合的遴选构成了系统性挑战。

常用场景

经典使用场景

在贝叶斯网络与概率推理的交叉研究领域，BNqMark-20基准数据集为评估大规模语言模型在离散贝叶斯网络中的精确概率推断能力提供了标准化测试平台。该数据集包含78个结构各异的贝叶斯网络，节点规模从4到20个呈梯度分布，精心设计了434个条件概率查询问题，覆盖不同的目标与证据变量数量及距离层次。研究者可通过原始推理与代码生成两种协议，系统性地考察前沿语言模型在条件概率表完全给定的情况下，是否具备可靠的精确概率计算能力，从而将概率计算能力从语言理解研究中抽离出来进行独立评测。

衍生相关工作

BNqMark-20的发布催生了一系列富有启发性的后续研究工作。围绕该数据集，研究者已开展了针对不同推理策略的对比分析，揭示了原始推理与代码生成两种范式在计算精度与效率上的显著差异。基于所记录的7812组实验结果，涌现出关于提示工程对概率推理任务影响的系统化研究，探索了分步推理、结构化输出约束等技术手段的效果。数据集提供的精细化查询属性还催生了关于推理困难度预测的研究工作，尝试利用马尔可夫毯大小、诱导宽度等图结构特征预判模型在不同查询上的表现，为自适应推理策略的设计奠定了基础。

数据集最近研究