Rational Probabilistic Belief (RPB) dataset

Name: Rational Probabilistic Belief (RPB) dataset
Creator: 帝国理工学院
Published: 2025-04-18 19:50:30
License: 暂无描述

arXiv2025-04-18 更新2025-04-22 收录

下载链接：

https://github.com/GIFRN/Rational-Probabilistic-Beliefs

下载链接

链接失效反馈

官方服务：

资源简介：

RPB数据集是一个由帝国理工学院构建的合成数据集，包含517个具有不确定真值的主张及其补数、特化版本和泛化版本，共计2068个样本。数据集中的主张是通过对GPT-4o模型进行提示生成的，旨在评估大型语言模型在概率推理方面的能力。数据集应用于测试LLM模型对概率推理的基本原则（如补数性、单调性）的遵守程度，以评估模型的不确定性量化能力。

The RPB dataset is a synthetic dataset constructed by Imperial College London. It contains 517 claims with uncertain truth values, along with their complements, specialized variants and generalized variants, totaling 2068 samples. The claims in the dataset are generated via prompting the GPT-4o model, with the aim of evaluating the probabilistic reasoning capabilities of large language models (LLMs). This dataset is applied to test the degree to which LLM models comply with the fundamental principles of probabilistic reasoning, such as complementarity and monotonicity, so as to assess the models' uncertainty quantification capabilities.

提供机构：

帝国理工学院

创建时间：

2025-04-18

搜集汇总

数据集介绍

构建方式

Rational Probabilistic Belief (RPB) 数据集的构建采用了系统性的人工与自动化协同方法。研究团队通过GPT-4o生成初始声明，覆盖10%-90%的真实概率区间，并设计专家视角、历史事件和科学论断三类提示模板以确保主题多样性。经90%字符串匹配去重后，517条基础声明通过人工校验保留，再通过少样本提示生成互补声明、特化声明和泛化声明变体，最终形成包含2068条样本的完整数据集。所有生成样本均经过人工审核以确保符合概率逻辑的严格定义，例如特化声明必须构成原声明的真子集且概率差异具有合理性。

使用方法

使用RPB数据集时，研究者可通过四种方法获取模型的概率估计：直接提示法要求模型输出0-100%的确定性评分；思维链提示法追加分步推理指令；论证式LLM法则构建支持/反对论据的多层结构；Top-K对数采样技术则直接解析模型输出的token概率分布。评估时需计算基础声明与变体声明的概率关系，验证互补性（P(A)+P(¬A)=1）、特化单调性（P(A)>P(A')当A'⊂A）和泛化单调性（P(A)<P(A'')当A⊂A''）的满足程度。建议采用多次采样取均值的方式降低随机性，并通过人工检查确保概率提取的准确性。

背景与挑战

背景概述

Rational Probabilistic Belief (RPB)数据集由英国帝国理工学院的Gabriel Freedman和Francesca Toni团队于2024年创建，旨在评估大语言模型(LLMs)在概率推理中的理性与一致性。该数据集包含517个具有不确定真值的声明及其变体，总计2068个样本，通过系统化测试模型对概率论三大公理（互补性、特殊化单调性、泛化单调性）的遵守程度。作为首个专注于量化LLMs概率信念理性程度的数据集，RPB为验证模型在信息检索和自动决策系统中的可信度提供了基准工具，对推动可解释人工智能的发展具有重要意义。

当前挑战

RPB数据集面临的核心挑战体现在两个方面：领域问题层面，现有LLMs难以保持概率推理的理性原则，表现为对互补声明概率和不满足单调性约束（如特殊化声明的概率反而高于原始声明）；构建过程层面，需确保声明变体在逻辑有效性的同时保持概率相关性（如避免过度具体的荒谬声明），这要求对GPT-4o生成的样本进行人工校验与调整。此外，模型输出的不稳定性（如直接提示与思维链方法的差异）以及数值响应格式的不可控性（影响Top-K对数采样方法的应用）进一步增加了评估的复杂度。

常用场景

经典使用场景

Rational Probabilistic Belief (RPB)数据集在评估大型语言模型（LLMs）的概率推理能力方面具有重要应用。该数据集通过生成具有不确定真值的声明及其补集、特殊化和泛化版本，为研究者提供了一个系统化的工具，用以检验LLMs是否遵循概率论的基本公理，如互补性、特殊化和泛化的单调性。这一经典使用场景不仅揭示了当前LLMs在概率推理上的局限性，也为改进模型的逻辑一致性提供了实证基础。

解决学术问题

RPB数据集解决了LLMs在概率推理中的核心学术问题，即模型是否能够保持概率信念的理性和一致性。通过系统化地测试互补性和单调性，该数据集揭示了LLMs在不确定性量化中的缺陷，挑战了现有研究中关于LLMs具备复杂推理能力的假设。这一发现对推动可信赖、可解释的自动化决策系统的发展具有重要意义，为后续研究提供了改进方向。

实际应用

在实际应用中，RPB数据集为开发基于LLMs的自动化决策系统（ADSs）提供了关键验证工具。例如，在医疗诊断或金融风险评估中，系统需要生成具有概率意义的输出以支持决策。通过使用RPB数据集评估模型的概率一致性，开发者可以识别并修正模型中的逻辑漏洞，从而提升系统的可靠性和用户信任度。

数据集最近研究