HonestyBench
收藏Hugging Face2025-10-22 更新2025-10-22 收录
下载链接:
https://huggingface.co/datasets/Shiyunee/HonestyBench
下载链接
链接失效反馈官方服务:
资源简介:
HonestyBench是一个大规模的问答数据集基准,它整合了10个广泛使用的公开自由形式事实问答数据集。该数据集包括560k个训练样本以及38k个领域内和33k个领域外评估样本,旨在帮助模型在各种任务中达到性能上限,并可以作为比较不同方法的健壮可靠测试平台。
创建时间:
2025-10-20
原始信息汇总
HonestyBench数据集概述
数据集简介
HonestyBench是一个大规模基准测试,整合了10个广泛使用的公共自由形式事实问答数据集。该数据集包含56万训练样本,以及3.8万域内和3.3万域外评估样本。
数据结构
数据字段
question: 问题字符串answer: 真实答案greedy_response: 贪婪响应greedy_correctness: 贪婪响应正确性(1/0)greedy_tokens: 贪婪响应对应的令牌greedy_cumulative_logprobs: 整个序列的累积对数概率greedy_logprobs: 每个令牌的对数概率sampling_response: 20个采样答案sampling_correctness: 每个采样答案的正确性判断consistency_judgement: 每个采样答案与贪婪响应的一致性
文件结构
/HonestyBench ├── Qwen2.5-7B-Instruct │ ├── test/xxx_test.jsonl │ └── train/xxx_train.jsonl ├── Qwen2.5-14B-Instruct │ ├── test/xxx_test.jsonl │ └── train/xxx_train.jsonl └── Meta-Llama-3-8B-Instruct ├── test/xxx_test.jsonl └── train/xxx_train.jsonl
/QAPairs └── dataset_name ├── train.jsonl ├── dev.jsonl └── test.jsonl
相关论文
搜集汇总
数据集介绍

构建方式
在人工智能可信评估领域,HonestyBench通过系统整合10个权威开放域问答数据集构建而成。该数据集采用多阶段处理流程,首先从原始数据源提取问题与答案对,随后利用vLLM推理框架对预训练语言模型生成响应,并自动标注每个答案的正确性及概率分布特征。构建过程特别注重数据多样性平衡,最终形成包含56万训练样本、3.8万域内测试样本与3.3万域外测试样本的评估体系,为诚实性研究提供标准化数据基础。
特点
该数据集最显著的特征在于其多维度的评估指标体系,不仅包含传统问答准确率指标,还创新性地引入响应一致性分析与概率校准数据。每个样本均记录贪婪解码与随机采样两种生成模式的完整日志概率序列,支持对模型诚实性的细粒度分析。数据集覆盖科学常识、历史人文等多元领域,其精心设计的域内外评估划分能有效检验模型的泛化能力与知识边界认知。
使用方法
研究人员可通过分层目录结构快速定位特定模型与数据集的交互记录,其中QAPairs目录提供原始问题答案对,各模型子目录则包含详细的响应分析数据。使用时应先根据评估目标选择域内或域外测试集,通过解析jsonl文件中的响应正确性、累积对数概率等字段,可系统评估模型在避免幻觉、承认知识局限等方面的表现。该设计支持端到端的诚实性对齐实验,为改进模型可靠性提供标准化验证流程。
背景与挑战
背景概述
在大语言模型快速发展的背景下,模型诚实性评估成为人工智能安全领域的重要研究方向。HonestyBench由研究团队于2025年提出,通过整合10个主流开放式事实问答数据集构建而成,包含56万训练样本及7.1万评估样本。该基准致力于建立通用模型在多任务场景下的性能上限标准,为诚实性对齐研究提供系统性评估框架,显著推进了可信人工智能的发展进程。
当前挑战
构建过程中面临多源数据集标准化处理的挑战,需统一不同数据集的问答格式与标注规范。在模型评估维度设计上,需兼顾贪婪解码与采样响应的正确性验证,同时解决跨领域泛化能力的量化难题。针对诚实性度量,还需建立响应一致性与概率校准的联合评估体系,这对大规模语言模型的可靠性测试提出了更高要求。
常用场景
经典使用场景
在自然语言处理领域,HonestyBench作为大规模事实问答基准,主要应用于评估语言模型在开放域知识问答中的诚实性表现。研究者通过分析模型生成的贪婪响应与采样答案,系统检验模型在保持事实一致性与避免幻觉方面的能力,为诚实对齐研究提供标准化评估框架。
实际应用
在实际部署场景中,HonestyBench为开发可靠的人工智能助手提供了重要参照。教育领域智能答疑系统可依据该基准优化知识准确性,医疗咨询机器人能借此降低信息误导风险,金融法律等专业场景的AI工具也可通过该数据集验证输出可靠性,最终提升人工智能在关键决策场景中的可信度与实用性。
衍生相关工作
基于HonestyBench的评估范式,学界涌现出多项创新研究。例如通过概率校准技术提升模型诚实度的AlignCare框架,结合强化学习进行诚实对齐的TruthRL方法,以及利用该基准开展的跨语言诚实性迁移研究。这些工作共同推动了《注释高效通用诚实对齐》等核心论文的理论突破与实践创新。
以上内容由遇见数据集搜集并总结生成



