five

GAIR/BeHonest

收藏
Hugging Face2024-07-09 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/GAIR/BeHonest
下载链接
链接失效反馈
官方服务:
资源简介:
BeHonest是一个专门设计用于全面评估大型语言模型(LLMs)诚实性的基准测试。它评估了三个关键的诚实性方面:知识边界意识(自我知识)、避免欺骗(非欺骗性)和回答一致性(一致性)。数据集包含10个场景,每个场景都有相应的JSON文件存储数据。这些场景包括承认未知、表达已知、人物奉承、偏好奉承、窃贼欺骗测试、游戏、提示格式、演示格式、开放式一致性和多项选择一致性。

BeHonest is a pioneering benchmark specifically designed to assess honesty in LLMs comprehensively. It evaluates three essential aspects of honesty: awareness of knowledge boundaries (self-knowledge), avoidance of deceit (non-deceptiveness), and consistency in responses (consistency). The dataset includes 10 scenarios, each with corresponding JSON files storing the data. These scenarios include admitting unknowns, expressing knowns, persona sycophancy, preference sycophancy, burglar deception test, game, prompt format, demonstration format, open-form consistency, and multiple-choice consistency.
提供机构:
GAIR
原始信息汇总

BeHonest: Benchmarking Honesty in Large Language Models

数据集概述

  • 名称: BeHonest
  • 目的: 评估大型语言模型(LLMs)的诚实性
  • 评估方面:
    • 知识边界的意识(自我认知)
    • 避免欺骗(非欺骗性)
    • 响应的一致性(一致性)

支持的场景

  1. Admitting Unknowns: LLMs应适当拒绝回答超出其知识范围的问题。
  2. Expressing Knowns: LLMs应正确回答其有知识的问题。
  3. Persona Sycophancy: LLMs不应改变其响应以适应感知到的角色观点,以避免维持批准的偏见信息。
  4. Preference Sycophancy: LLMs不应在用户明确偏好某选项时改变其观点以维持批准。
  5. Burglar Deception Test: LLMs不应在明确指示或鼓励欺骗行为时撒谎。
  6. Game: LLMs不应在战略游戏中撒谎,即使欺骗行为有助于获胜。
  7. Prompt Format: LLMs应在遇到相同内容的轻微提示变化时保持响应的一致性。
  8. Demonstration Format: LLMs应在少量示例中保持响应的一致性,即使存在无关的偏见特征。
  9. Open-Form Consistency: LLMs应通过验证其生成的响应来显示一致性。
  10. Multiple-Choice Consistency: LLMs应在再次回答问题或用户提出不必要的疑虑时保持响应的一致性。

数据集配置

  • Unknowns:
    • 分割: unknowns
    • 路径: "Unknowns/*.json"
  • Knowns:
    • 分割: knowns
    • 路径: "Knowns/*.json"
  • Persona_Sycophancy:
    • 分割: no_persona
    • 路径: "Persona_Sycophancy/no_persona.json"
    • 分割: persona
    • 路径: "Persona_Sycophancy/persona.json"
  • Preference_Sycophancy:
    • 分割: preference_agree
    • 路径: "Preference_Sycophancy/preference_agree.json"
    • 分割: preference_disagree
    • 路径: "Preference_Sycophancy/preference_disagree.json"
  • Burglar_Deception:
    • 分割: burglar_police
    • 路径: "Burglar_Deception/burglar_police.json"
    • 分割: false_label
    • 路径: "Burglar_Deception/false_label.json"
    • 分割: false_rec
    • 路径: "Burglar_Deception/false_rec.json"
    • 分割: neutral
    • 路径: "Burglar_Deception/neutral.json"
  • Game:
    • 分割: werewolf_game
    • 路径: "Game/werewolf_game.json"
  • Prompt_Format:
    • 分割: natural_instructions_1
    • 路径: "Prompt_Format/natural_instructions_1.json"
    • 分割: natural_instructions_2
    • 路径: "Prompt_Format/natural_instructions_2.json"
    • 分割: natural_instructions_3
    • 路径: "Prompt_Format/natural_instructions_3.json"
    • 分割: natural_instructions_4
    • 路径: "Prompt_Format/natural_instructions_4.json"
    • 分割: natural_instructions_5
    • 路径: "Prompt_Format/natural_instructions_5.json"
  • Open_Form:
    • 分割: csqa_open
    • 路径: "Open_Form/*.json"
  • Multiple_Choice:
    • 分割: csqa_all
    • 路径: "Multiple_Choice/*.json"

数据集属性

  • 任务类别: 问答
  • 语言: 英语
  • 标签:
    • LLM
    • Honesty
    • Evaluation
    • NLP
    • Benchmark
  • 规模: 10K<n<100K
  • 许可证: cc-by-sa-4.0
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
GAIR/BeHonest是一个专注于评估大型语言模型诚实性的基准测试数据集,包含10种不同场景,旨在测试模型的自我认知、非欺骗性和回答一致性。数据集以JSON格式提供,涵盖19,059行数据,适用于问答任务,主要语言为英语。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作