证据数据集(Evidence Dataset)
收藏arXiv2025-04-28 更新2025-04-30 收录
下载链接:
https://github.com/MS0117/BayesianEpistemology
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为了研究语言模型在面对不同类型和可靠性的证据时的置信度和响应变化。数据集包含从SciQ、TriviaQA和GSM8K数据集中生成的各种证据类型,例如与问题一致的黄金证据、包含错误信息的冲突证据、不完整证据、矛盾证据、不相关证据和偶然证据。数据集还考虑了证据的可靠性因素,如来源的可信度、详细程度、时效性和实验性。该数据集旨在帮助理解为什么LLMs偏离贝叶斯认识论,并评估LLMs在处理不同类型和强度证据时的表现。
This dataset is designed to study the confidence and response variations of language models when exposed to evidence of different types and reliability. It includes various types of evidence generated from the SciQ, TriviaQA, and GSM8K datasets, such as golden evidence consistent with the question, conflicting evidence containing misinformation, incomplete evidence, contradictory evidence, irrelevant evidence, and coincidental evidence. The dataset also accounts for reliability factors of evidence, including source credibility, level of detail, timeliness, and experimental nature. This dataset aims to help understand why LLMs deviate from Bayesian epistemology, and evaluate the performance of LLMs when processing evidence of different types and strengths.
提供机构:
韩国科学技术院人工智能系(KAIST AI)
创建时间:
2025-04-28
原始信息汇总
数据集概述
基本信息
- 数据集名称:From Evidence to Belief: A Bayesian Epistemology Approach to Language Models
- 会议信息:NAACL 2025, main
相关说明
- 该数据集与贝叶斯认识论方法在语言模型中的应用相关。
搜集汇总
数据集介绍

构建方式
证据数据集(Evidence Dataset)的构建基于贝叶斯认识论的框架,旨在探究语言模型在面对不同信息量和可靠性的证据时如何调整其置信度和响应。研究者通过从SciQ、TriviaQA和GSM8K等数据集中提取问题和标注支持,利用大型语言模型(LLMs)生成多种类型的证据,包括冲突证据、不完整证据、矛盾证据、无关证据和巧合证据。这些证据类型被设计用于测试语言模型是否遵循贝叶斯确认、否定和无关假设。此外,数据集还包含证据强度任务,用于评估模型对不同可靠性证据的响应能力。
特点
该数据集的特点在于其多样化的证据类型和严格的实验设计。证据类型包括冲突、不完整、矛盾、无关和巧合证据,覆盖了从高信息量到低信息量、高可靠性到低可靠性的广泛范围。数据集还通过零样本提示(zero-shot prompting)进行推理,使用语言模型的置信度(如口头化置信度、标记概率和采样)来衡量其响应。此外,数据集还包含了对模型校准误差(ECE)和准确率(ACC)的详细分析,以评估模型在不同证据条件下的表现。
使用方法
证据数据集的使用方法包括两个主要任务:确认任务和证据强度任务。在确认任务中,研究者通过提供不同类型的证据,观察语言模型的置信度和响应变化,以测试其是否遵循贝叶斯假设。在证据强度任务中,研究者通过提供不同可靠性的证据,评估模型对证据强度的敏感度。使用该数据集时,研究者可以通过零样本提示进行推理,并利用口头化置信度、标记概率和采样等方法来衡量模型的置信度和响应。此外,数据集还支持对模型校准误差和准确率的分析,以全面评估模型的表现。
背景与挑战
背景概述
证据数据集(Evidence Dataset)由KAIST AI的研究团队于2025年创建,核心研究人员包括Minsu Kim、Sangryul Kim和James Thorne。该数据集旨在从贝叶斯认识论的角度研究语言模型的知识表达,探讨模型在面对不同信息量和可靠性的证据时如何调整其置信度和响应。数据集通过构建多种类型的证据(如冲突证据、不完整证据、矛盾证据等),分析语言模型的响应和置信度,揭示了语言模型在遵循贝叶斯假设方面的局限性。该研究为理解语言模型的“信念”本质提供了哲学视角,对提升模型的可靠性和校准性具有重要意义。
当前挑战
证据数据集面临的挑战主要包括两方面:领域问题的挑战和构建过程的挑战。在领域问题方面,数据集旨在解决语言模型在处理不同类型证据时的置信度和响应一致性问题,例如模型在面对冲突证据或无关证据时可能无法遵循贝叶斯假设。在构建过程中,研究人员需要生成多样化的证据类型(如巧合证据、矛盾证据等),并确保这些证据在信息量和可靠性上的差异性。此外,数据集的构建还涉及对语言模型置信度的多维度测量(如语言化置信度、标记概率和采样方法),这对数据集的标注和评估提出了较高要求。
常用场景
经典使用场景
证据数据集(Evidence Dataset)在自然语言处理领域被广泛用于研究语言模型如何根据不同类型和可靠性的证据调整其置信度和回答。该数据集通过提供真实证据、冲突证据、不相关证据等多种证据类型,帮助研究者分析语言模型在贝叶斯认识论框架下的行为表现。经典使用场景包括评估模型在面对不同证据时的置信度校准能力,以及验证模型是否遵循贝叶斯假设(如确认假设、否定假设和无关假设)。
实际应用
在实际应用中,证据数据集可用于提升语言模型在问答系统、事实核查和决策支持等任务中的可靠性。例如,在医疗诊断或法律咨询中,模型需要根据高质量证据生成高置信度的回答,同时避免被不相关或冲突信息误导。通过基于该数据集的训练和评估,模型可以更好地识别和利用可靠证据,从而在实际场景中提供更准确和可信的输出。
衍生相关工作
证据数据集衍生了一系列经典研究工作,包括语言模型置信度校准、不确定性量化和对抗性上下文分析等。例如,Turpin et al. (2023) 和 Lanham et al. (2023) 研究了模型在对抗性证据下的表现,而 Tian et al. (2023b) 探索了通过人类反馈优化模型置信度的方法。这些工作进一步扩展了数据集的应用范围,并为语言模型的可靠性和鲁棒性研究提供了重要工具。
以上内容由遇见数据集搜集并总结生成



