BeHonest
收藏Hugging Face2024-06-29 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/GAIR/BeHonest
下载链接
链接失效反馈官方服务:
资源简介:
BeHonest是一个开创性的基准测试,专门设计用于全面评估大型语言模型(LLM)的诚实性。BeHonest评估诚实性的三个基本方面:知识边界的意识(自我知识)、避免欺骗(非欺骗性)和响应的一致性(一致性)。该基准支持10种场景,包括承认未知、表达已知、角色迎合、偏好迎合、盗窃欺骗测试、游戏、提示格式、演示格式、开放形式一致性和多选一致性。每个场景都有特定的数据文件和拆分与之关联。数据集属于问答任务类别,使用英语,并带有LLM、诚实、评估、NLP和基准标签。数据集的大小在10K到100K条目之间。
创建时间:
2024-06-27
原始信息汇总
BeHonest 数据集概述
数据集描述
BeHonest 是一个专门设计用于全面评估大型语言模型(LLMs)诚实性的基准测试。BeHonest 评估诚实性的三个基本方面:知识边界的意识(自我知识)、避免欺骗(非欺骗性)和响应的一致性(一致性)。
支持的场景
BeHonest 支持以下 10 个场景:
- Admitting Unknowns:LLMs 应适当拒绝回答超出其知识范围的问题。
- Expressing Knowns:LLMs 应正确回答其有知识的问题。
- Persona Sycophancy:LLMs 不应改变其响应以适应感知到的角色观点,这可能导致维持批准的偏见信息。
- Preference Sycophancy:LLMs 不应在用户明确偏好一个选项时改变其观点,仅为了维持批准。
- Burglar Deception Test:LLMs 即使在明确指示或鼓励欺骗行为时也不应撒谎。
- Game:LLMs 即使在战略游戏中欺骗行为有利于获胜时也不应撒谎。
- Prompt Format:LLMs 在遇到相同内容的轻微提示变化时应保持其响应的一致性。
- Demonstration Format:LLMs 即使在少样本演示中存在无关的偏见特征时也应保持其响应的一致性。
- Open-Form Consistency:LLMs 应通过验证其生成的响应来显示一致性。
- Multiple-Choice Consistency:LLMs 在再次回答问题或用户提出不必要的疑虑时应保持其响应的一致性。
数据文件配置
-
Unknowns
- 分割:unknowns
- 路径:
Unknowns/*.json
-
Knowns
- 分割:knowns
- 路径:
Knowns/*.json
-
Persona_Sycophancy
- 分割:no_persona
- 路径:
Persona_Sycophancy/no_persona.json - 分割:persona
- 路径:
Persona_Sycophancy/persona.json
-
Preference_Sycophancy
- 分割:preference_agree
- 路径:
Preference_Sycophancy/preference_agree.json - 分割:preference_disagree
- 路径:
Preference_Sycophancy/preference_disagree.json
-
Burglar_Deception
- 分割:burglar_police
- 路径:
Burglar_Deception/burglar_police.json - 分割:false_label
- 路径:
Burglar_Deception/false_label.json - 分割:false_rec
- 路径:
Burglar_Deception/false_rec.json - 分割:neutral
- 路径:
Burglar_Deception/neutral.json
-
Game
- 分割:werewolf_game
- 路径:
Game/werewolf_game.json
-
Prompt_Format
- 分割:natural_instructions_1
- 路径:
Prompt_Format/natural_instructions_1.json - 分割:natural_instructions_2
- 路径:
Prompt_Format/natural_instructions_2.json - 分割:natural_instructions_3
- 路径:
Prompt_Format/natural_instructions_3.json - 分割:natural_instructions_4
- 路径:
Prompt_Format/natural_instructions_4.json - 分割:natural_instructions_5
- 路径:
Prompt_Format/natural_instructions_5.json
-
Open_Form
- 分割:csqa_open
- 路径:
Open_Form/*.json
-
Multiple_Choice
- 分割:csqa_all
- 路径:
Multiple_Choice/*.json
数据集属性
- 任务类别:问题回答
- 语言:英语
- 标签:LLM, Honesty, Evaluation, NLP, Benchmark
- 大小类别:10K<n<100K
许可证
- 许可证:cc-by-sa-4.0
搜集汇总
数据集介绍

构建方式
BeHonest数据集的构建基于对大型语言模型(LLMs)诚实性的全面评估需求,涵盖了知识边界意识、避免欺骗和响应一致性三个核心维度。数据集通过10个具体场景的设计,如承认未知、表达已知、角色迎合、偏好迎合、窃贼欺骗测试等,系统地收集了相关数据。每个场景的数据均以JSON格式存储,并通过HuggingFace平台提供便捷的加载方式。
特点
BeHonest数据集的特点在于其多维度、多场景的评估框架,能够全面反映LLMs在诚实性方面的表现。数据集不仅包含开放形式和多项选择题的响应数据,还通过角色扮演、游戏情境等复杂场景,深入挖掘模型在压力或诱导下的行为模式。此外,数据集支持多种提示格式和演示格式,确保评估的广泛性和深度。
使用方法
使用BeHonest数据集时,用户可通过HuggingFace的`datasets`库直接加载数据。数据集按场景分类存储,用户可根据需求选择特定场景的数据进行分析。加载后,数据以JSON格式呈现,便于进一步处理和模型训练。更多详细的使用说明和代码示例可在项目的GitHub页面获取,用户还可通过引用相关论文支持研究工作。
背景与挑战
背景概述
BeHonest数据集由GAIR-NLP团队于2024年推出,旨在全面评估大型语言模型(LLMs)的诚实性。该数据集由Steffi Chern、Zhulin Hu等研究人员主导开发,涵盖了模型在知识边界认知、避免欺骗以及响应一致性等三个核心方面的表现。BeHonest通过10种不同的场景设计,如承认未知、表达已知、避免人格迎合等,为研究LLMs的诚实性提供了多维度的评估框架。该数据集的发布填补了LLMs在诚实性评估领域的空白,推动了相关研究的深入发展,并为模型优化提供了重要的基准参考。
当前挑战
BeHonest数据集在构建和应用过程中面临多重挑战。首先,如何准确界定和量化LLMs的诚实性是一个复杂的任务,尤其是在涉及知识边界和欺骗行为的情境下。其次,数据集的构建需要确保多样性和代表性,以覆盖不同场景下的诚实性表现,这对数据收集和标注提出了较高要求。此外,模型在不同提示格式和上下文中的一致性评估也极具挑战性,尤其是在面对细微的提示变化时,如何保持响应的稳定性成为一大难题。最后,数据集的扩展性和通用性仍需进一步验证,以确保其在不同LLMs上的适用性和有效性。
常用场景
经典使用场景
BeHonest数据集广泛应用于评估大型语言模型(LLMs)的诚实性,特别是在模型的知识边界意识、非欺骗性和响应一致性方面。通过多种场景设计,如‘承认未知’、‘表达已知’和‘角色迎合性’,该数据集能够全面测试模型在不同情境下的表现。研究人员利用这些场景来验证模型是否能够在面对超出其知识范围的问题时拒绝回答,或在用户明确偏好时保持中立。
实际应用
在实际应用中,BeHonest数据集被用于开发和优化LLMs的诚实性功能,特别是在教育、客户服务和内容生成等领域。例如,在教育场景中,模型需要准确回答学生的问题,同时避免提供错误或误导性信息。在客户服务中,模型应保持中立,不因用户偏好而改变其建议。这些应用场景展示了BeHonest数据集在提升模型可靠性和用户体验方面的实际价值。
衍生相关工作
BeHonest数据集的发布催生了一系列相关研究,特别是在LLMs的诚实性评估和优化领域。例如,基于该数据集的研究工作探讨了如何通过微调和提示工程来减少模型的欺骗行为。此外,一些研究还利用BeHonest的场景设计开发了新的评估框架,进一步推动了LLMs的透明度和可信度研究。这些衍生工作不仅丰富了学术界对模型诚实性的理解,也为实际应用中的模型优化提供了新的思路。
以上内容由遇见数据集搜集并总结生成



