BeliefTrackDataset

Name: BeliefTrackDataset
Creator: ZJUNLP
Published: 2026-05-29 22:36:42
License: 暂无描述

Hugging Face2026-05-29 更新2026-05-30 收录

下载链接：

https://huggingface.co/datasets/zjunlp/BeliefTrackDataset

下载链接

链接失效反馈

官方服务：

资源简介：

BeliefTrack 是一个用于多轮语言模型交互中 **上下文信念管理 (CBM)** 的封闭世界基准数据集。该数据集旨在评估模型在对话或交互过程中，如何根据不断出现的正式证据，动态地维护和管理一组与之保持一致的假设（信念）。每个数据示例都要求模型在给定上下文和形式证据的条件下，追踪并更新哪些假设是仍然成立的。数据集包含四个不同的配置（task_a_7b, task_a_9b, task_b_7b, task_b_9b），每个配置下均提供了训练集（train）和测试集（test）的JSON格式文件。该数据集适用于文本生成任务，特别是需要模型进行逻辑推理、信念状态追踪和一致性维护的研究与应用场景。

BeliefTrack is a closed-world benchmark dataset for **Contextual Belief Management (CBM)** in multi-turn language model interactions. The dataset aims to evaluate how models dynamically maintain and manage a set of hypotheses (beliefs) consistent with emerging formal evidence during dialogue or interaction. Each data example requires the model to track and update which hypotheses remain valid given the context and formal evidence. The dataset includes four different configurations (task_a_7b, task_a_9b, task_b_7b, task_b_9b), each providing training (train) and test (test) sets in JSON format. It is suitable for text generation tasks, particularly research and application scenarios that require logical reasoning, belief state tracking, and consistency maintenance.

提供机构：

ZJUNLP

创建时间：

2026-05-29

原始信息汇总

数据集概述：BeliefTrack

BeliefTrack 是一个专为多轮语言模型交互中的 上下文信念管理（Contextual Belief Management, CBM） 设计的闭世界基准数据集。其核心任务要求模型维护一组与形式证据保持一致的假设集合。

语言：英语（en）
许可证：Apache-2.0
任务类型：文本生成（text-generation）
发布机构：浙江大学 NLP 团队（zjunlp）

数据集配置

数据集包含四个子配置，每个配置均提供训练集（train）和测试集（test）划分：

配置名称	训练数据路径	测试数据路径
`task_a_7b`	`task_a_7b/train.json`	`task_a_7b/test.json`
`task_a_9b`	`task_a_9b/train.json`	`task_a_9b/test.json`
`task_b_7b`	`task_b_7b/train.json`	`task_b_7b/test.json`
`task_b_9b`	`task_b_9b/train.json`	`task_b_9b/test.json`

引用信息

如需引用该数据集，请参考以下 BibTeX 格式：

bibtex @article{xu2026whenshouldmodelschange, title={When Should Models Change Their Minds? Contextual Belief Management in Large Language Models}, author={Xu, Haoming and Xu, Weihong and Li, Zongrui and Wang, Mengru and Yao, Yunzhi and Wu, Chiyu and Shang, Jin and Gong, Yu and Deng, Shumin}, journal={arXiv preprint arXiv:2605.30219}, year={2026} }

搜集汇总

数据集介绍

构建方式

BeliefTrackDataset 是一个专为上下文信念管理（CBM）任务设计的封闭世界基准数据集。其构建方式基于多轮语言模型交互场景，每个样本要求模型维护与形式化证据保持一致的一组假设。数据集被划分为两个任务（task_a 与 task_b）和两种模型规模（7b 与 9b）的配置，共计四个子集，每个子集均包含训练与测试分片。数据以 JSON 格式存储，确保了结构的清晰与可扩展性，从而支持对模型信念追踪能力的系统评估。

特点

该数据集的核心特点在于其聚焦于上下文信念管理这一前沿领域，模拟模型在多轮对话中根据新证据动态调整假设的复杂认知过程。所有样本均以封闭世界假设为约束，确保仅使用提供的信息进行推理，避免了外部知识的干扰。通过任务设计与模型规模的差异化配置，BeliefTrack 能够精细化衡量不同能力层级的语言模型在信念一致性、证据整合与逻辑更新方面的表现，为研究模型何时应改变想法提供了标准化测试平台。

使用方法

使用 BeliefTrackDataset 时，用户可根据目标模型规模（如 7B 或 9B）选择对应的配置文件（task_a_7b、task_a_9b、task_b_7b、task_b_9b），通过加载相应的 JSON 文件获取训练与测试数据。每个样本均包含多轮对话上下文、形式化证据及需维护的假设集合，可直接用于监督学习或评估流程。推荐结合 HuggingFace 的 datasets 库进行数据加载，并参考随附的 arXiv 论文了解任务定义与评估指标，以最大化数据集在信念管理研究中的效用。

背景与挑战

背景概述

在多轮语言模型交互中，模型需持续追踪并更新其信念状态，以确保推理逻辑与外部证据保持一致。BeliefTrack数据集由Haoming Xu等学者于2026年提出，依托浙江大学等研究机构，旨在系统评估大语言模型在封闭世界假设下的情境信念管理能力。该数据集聚焦于核心研究问题：模型应何时以及如何依据形式化证据调整其假设集合，从而在动态对话中维持信念的连贯性与合理性。作为首个面向CBM任务的标准化基准，BeliefTrack填补了当前大语言模型在结构化信念维护与修订评估方面的空白，为提升模型的事实一致性、推理稳健性及交互可靠性奠定了重要基础，对对话系统、知识推理等领域的进展具有显著的推动作用。

当前挑战

BeliefTrack所面对的领域挑战在于，现有大语言模型在多轮交互中难以准确识别并管理信念状态，常因无法严格遵循形式化证据而出现逻辑矛盾或信念漂移，这不仅影响推理的可靠性，也限制了模型在需要持续更新假设的复杂场景（如动态问答、辅助决策）中的应用。在数据集构建过程中，挑战主要体现在如何设计涵盖多样信念冲突与修订路径的多轮对话模板，确保每个实例均能在封闭世界假设下精准反映证据与假设间的逻辑关系；同时，需对生成的测试样本进行严格的人工与自动化校验，以消除噪声和歧义，从而构建一个高保真、可复现的评估基准，准确反映模型在情境信念管理上的实际能力。

常用场景

经典使用场景

BeliefTrackDataset作为上下文信念管理（CBM）领域的标杆性基准数据集，其最经典的使用场景在于评估多轮对话语言模型对动态信念状态的维持与更新能力。研究人员通常利用该数据集构建封闭世界的信念追踪任务，要求模型在接收到新的事实证据后，从一组候选假设中筛选出仍与当前证据一致的子集。这类任务深刻地揭示了模型在复杂对话路径中是否具备逻辑一致性与证据敏感性，尤其适用于检验大语言模型在长期交互中避免陷入自相矛盾或信息遗忘的鲁棒性。

实际应用

在实际应用层面，BeliefTrackDataset所检验的信念管理能力直接关系到众多高可靠性场景中对话系统的部署质量。例如，在智能客服系统中，模型需要在与用户的多轮沟通中准确跟踪客户的需求变更、历史诉求与阶段性结论，避免因信念混淆导致重复询问或错误建议。在法律咨询或医疗问诊等严肃领域，模型必须严格依据不断披露的新事实更新其判断，而非固守初始假设。该数据集为开发能够在这些高风险互动中保持逻辑严谨与行为可预测的智能体提供了关键的评估与训练素材。

衍生相关工作

BeliefTrackDataset的发布催生了一系列围绕信念管理与动态推理的后续研究。基于该基准，研究者们设计了多种针对性的微调策略和提示工程方法，例如引入显式的“信念缓存”模块或设计基于形式逻辑的推理链，以提升模型在多轮证据积累下的信念更新准确性。此外，该数据集所倡导的评估范式也被扩展至跨语言和多模态场景，衍生出融合视觉证据与文本信念的复合追踪任务。更有学者将其与强化学习结合，探索如何通过奖励信号引导模型习得自主判断何时坚守信念、何时合理变通的元认知能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

BeliefTrackDataset

数据集概述：BeliefTrack

数据集配置

相关资源

引用信息