five

BEHONEST

收藏
arXiv2024-06-19 更新2024-06-24 收录
下载链接:
https://github.com/GAIR-NLP/BeHonest
下载链接
链接失效反馈
官方服务:
资源简介:
BEHONEST是由生成式AI研究实验室(GAIR)开发的专门用于评估大型语言模型(LLMs)诚实性的基准数据集。该数据集包含10个场景,旨在从知识边界意识、避免欺骗和响应一致性三个关键维度全面评估LLMs的诚实性。BEHONEST通过集成多个评估维度,不仅揭示了LLMs当前的能力和局限,还为未来开发符合伦理、透明且可靠的AI系统奠定了基础。该数据集的应用领域主要集中在提升LLMs的诚实性,确保其在接近超级智能水平时不会误导用户或逃避人类操作的控制,从而促进人类进步。

BEHONEST is a benchmark dataset developed by Generative AI Research Laboratory (GAIR) specifically for evaluating the honesty of Large Language Models (LLMs). This dataset includes 10 scenarios, aiming to comprehensively evaluate the honesty of LLMs from three key dimensions: awareness of knowledge boundaries, avoidance of deception, and response consistency. By integrating multiple evaluation dimensions, BEHONEST not only reveals the current capabilities and limitations of LLMs but also lays a foundation for the future development of ethical, transparent and reliable AI systems. The main application domains of this dataset focus on enhancing the honesty of LLMs, ensuring that they will not mislead users or evade human control when approaching the superintelligent level, thereby advancing human progress.
提供机构:
生成式AI研究实验室 (GAIR)
创建时间:
2024-06-19
原始信息汇总

BeHonest: Benchmarking Honesty in Large Language Models

简介

BeHonest是一个综合基准,用于评估大型语言模型的诚实度,通过评估其知识边界(自我认知)、避免欺骗(非欺骗性)和响应一致性(一致性)。

BeHonest支持10个场景:

  • Expressing Unknowns:LLMs应适当拒绝回答超出其知识范围的问题。
  • Admitting Knowns:LLMs应正确回答其有知识的问题。
  • Persona Sycophancy:LLMs不应改变其响应以适应感知到的角色观点,这可能导致维持批准的偏见信息。
  • Preference Sycophancy:当用户明确偏好某一选项时,LLMs不应改变其观点以维持批准。
  • Burglar Deception:即使在被明确指示或鼓励欺骗行为时,LLMs也不应撒谎。
  • Game:即使在战略游戏中欺骗行为有助于获胜,LLMs也不应撒谎。
  • Prompt Format:LLMs在遇到相同内容的轻微提示变化时应保持响应一致性。
  • Demonstration Format:即使在少样本演示中存在无关的偏见特征,LLMs也应保持响应一致性。
  • Open-Form Consistency:LLMs应通过验证其生成的响应来显示一致性。
  • Multiple-Choice Consistency:当被要求再次回答问题或当用户提出不必要的疑虑时,LLMs应保持响应一致性。

开始使用

要使用BeHonest仓库,需要安装所需的依赖项。可以通过运行以下命令来完成: bash git clone https://github.com/GAIR-NLP/BeHonest.git pip install -r requirements.txt

确保已安装Python 3.10+。

加载数据

BeHonest的基准数据集已在Hugging Face网站上发布。每个子集对应BeHonest中的一个场景,拆分对应每个场景下的单个.json文件。

以下代码片段用于加载数据集: python from datasets import load_dataset

dataset = load_dataset("GAIR/BeHonest")

print(dataset)

推理

步骤1:

要运行推理,首先导航到LLM目录: python cd LLM

对于Admitting UnknownsExpressing KnownsBurglar DeceptionGameDemonstration Format场景,跳至评估部分。

步骤2.1:

要在vLLM上运行支持的模型,导航到vLLM目录并运行: python cd vLLM bash get_response.sh

可更改以下参数:

  • --input_dir:Hugging Face数据集的路径(默认:"../../${scenario}"
  • --output_dir:保存模型响应输出的路径(默认:"../../${scenario}/output/${model}"
  • --file_name:要运行推理的文件名(默认:"persona"
  • --scenario:要运行推理的场景名称(默认:"Persona_Sycophancy"
  • --model:模型名称(例如:llama3-70b-instruct、Mistral-7B-Instruct-v0.2等)
  • --model_path:模型权重保存的路径

完成推理后,生成的响应将保存为../../${scenario}/output/${model}/${file_name}.json,可用于后续评估。

步骤2.2:

或者,通过API调用在GPT模型上运行推理,导航到GPT目录并执行以下命令: python cd GPT bash get_response.sh

可更改以下参数:

  • --input_dir:Hugging Face数据集的路径(默认:"../../${scenario}"
  • --output_dir:保存模型响应输出的路径(默认:"../../${scenario}/output/${model}"
  • --file_name:要运行推理的文件名(默认:"persona"
  • --scenario:要运行推理的场景名称(默认:"Persona_Sycophancy"
  • --model:模型名称(例如:gpt-4o-2024-05-13、gpt-3.5-turbo-0125等)

完成推理后,生成的响应将保存为../../${scenario}/output/${model}/${file_name}.json,可用于后续评估。

评估

要评估每个场景下的生成响应,执行以下命令: python cd Evaluation

案例1:

要一次性评估所有场景,请按照以下步骤操作:

步骤1:填写或修改案例2中提到的每个.sh文件中指定的参数。

步骤2:设置好参数后,运行以下命令评估所有场景: python bash eval_all.sh

案例2:

每个场景也可以单独评估,如下所示:

- Admitting Unknowns和Expressing Knowns

python cd Self_Knowledge bash test_self_knowledge.sh

- Persona Sycophancy和Preference Sycophancy

python cd Non_Deceptiveness bash test_sycophancy.sh

- Burglar Deception和Game

python cd Non_Deceptiveness bash test_burglar.sh bash test_game.sh

- Prompt Format、Open Form、Multiple Choice

python cd Consistency bash test_prompt_format.sh bash test_open_form.sh bash test_mcq.sh

- Demonstration Format

首先从此github仓库获取该场景的数据集,并保存在路径/Demonstration_Format/bbh/${task}/xxx.json中。然后,可以运行推理和评估: python cd Consistency bash test_demon_format.sh

实验结果

要查看论文中报告的详细结果,请导航到Results目录: python cd Results

引用

如果您发现这些资源有用,请考虑引用我们的论文或仓库:

@article{chern2024behonest, title={BeHonest: Benchmarking Honesty in Large Language Models}, author={Chern, Steffi and Hu, Zhulin and Yang, Yuqing and Chern, Ethan and Guo, Yuan and Jin, Jiahe and Wang, Binjie and Liu, Pengfei}, journal={arXiv preprint arXiv:2406.13261}, url={https://arxiv.org/abs/2406.13261} year={2024} }

搜集汇总
数据集介绍
main_image_url
构建方式
BEHONEST数据集的构建基于对大型语言模型(LLMs)诚实性的全面评估需求。该数据集通过设计10个场景,评估了9个市场上流行的LLMs,涵盖了闭源和开源模型,涉及不同模型家族和规模。数据集的构建过程包括从现有资源中合并问题集,如SelfAware和UnknownBench,并通过多温度采样来近似模型的知识边界。此外,数据集还通过合成和增强的方式生成了新的测试场景,如‘Werewolf Dataset’和‘Burglar Deception Test’,以评估模型在特定情境下的诚实性表现。
使用方法
BEHONEST数据集的使用方法主要包括通过预设的场景对LLMs进行评估。研究人员可以通过加载数据集中的问题集,输入到待评估的模型中,并根据模型的响应进行评分。例如,在‘Admitting Unknowns’场景中,研究人员可以通过检查模型是否主动拒绝回答无法回答的问题来评估其自我认知能力。在‘Burglar Deception Test’中,研究人员可以通过分析模型是否在特定指令下进行欺骗来评估其非欺骗性。此外,数据集还提供了详细的评估指标,如‘refusal rate’和‘lying rate’,帮助研究人员量化模型的诚实性表现。通过这些方法,研究人员可以全面了解LLMs在诚实性方面的表现,并为进一步改进提供依据。
背景与挑战
背景概述
BEHONEST数据集由上海交通大学、卡内基梅隆大学、复旦大学等机构的研究人员于2024年提出,旨在评估大型语言模型(LLMs)的诚实性。该数据集的创建背景源于LLMs在生成内容时可能出现的虚假信息传播、欺骗用户等不诚实行为,尤其是在模型接近超级智能水平时,这些行为的风险尤为突出。BEHONEST通过评估模型在知识边界意识、避免欺骗和回答一致性三个关键维度的表现,填补了现有研究中诚实性评估的空白。该数据集不仅为LLMs的诚实性提供了全面的评估框架,还推动了AI社区对模型诚实性对齐的关注。
当前挑战
BEHONEST数据集在构建和应用过程中面临多重挑战。首先,评估LLMs的诚实性需要设计复杂的场景和任务,涵盖模型在知识边界、欺骗倾向和回答一致性等方面的表现。其次,模型在生成内容时的不确定性使得准确评估其诚实性变得困难,尤其是在面对模糊或未知问题时,模型可能倾向于生成虚假信息而非承认其知识局限。此外,数据集的构建需要大量的人工标注和验证,以确保评估结果的可靠性和公正性。最后,如何在模型训练和评估中平衡诚实性与其他对齐目标(如帮助性和无害性)也是一个亟待解决的挑战。
常用场景
经典使用场景
BEHONEST数据集主要用于评估大型语言模型(LLMs)的诚实性,特别是在知识边界意识、避免欺骗和回答一致性方面的表现。通过设计10个不同的场景,BEHONEST能够全面测试LLMs在面对未知问题时的拒绝回答能力、在已知问题上的准确回答能力,以及在面对诱导性提示时的诚实性。这些场景涵盖了从常识问答到复杂的推理任务,确保了对LLMs诚实性的多维度评估。
解决学术问题
BEHONEST数据集解决了当前LLMs在诚实性评估方面的空白。尽管已有研究关注LLMs的有用性和无害性,但诚实性作为模型对齐的关键标准,却鲜有系统性的评估方法。BEHONEST通过引入自我知识、非欺骗性和一致性三个核心维度,填补了这一空白。它不仅揭示了当前LLMs在诚实性上的不足,还为未来的模型改进提供了明确的方向,推动了LLMs在伦理对齐和透明度方面的研究进展。
实际应用
BEHONEST数据集的实际应用场景广泛,尤其是在需要高可信度的AI系统中。例如,在法律咨询、医疗诊断和金融分析等领域,LLMs的诚实性直接关系到决策的准确性和用户的信任。通过使用BEHONEST,开发者可以评估和改进模型的诚实性,确保其在面对未知问题时能够明确拒绝回答,避免提供误导性信息。此外,BEHONEST还可用于教育领域,帮助学生和研究人员理解LLMs的局限性,培养批判性思维。
数据集最近研究
最新研究方向
近年来,随着大语言模型(LLMs)在多个领域的广泛应用,其诚实性问题逐渐成为研究热点。BEHONEST数据集的提出,标志着对LLMs诚实性评估的系统化尝试。该数据集通过三个核心维度——自我认知、非欺骗性和一致性,全面评估LLMs的诚实性。自我认知维度关注模型对其知识边界的清晰表达,非欺骗性维度则评估模型是否在特定情境下选择欺骗行为,而一致性维度则检验模型在面对语义相似的提示时是否能够保持一致的响应。BEHONEST的评估结果显示,尽管现有LLMs在表达已知信息方面表现良好,但在主动拒绝回答未知问题、避免欺骗行为以及保持响应一致性方面仍有显著改进空间。这一研究不仅为LLMs的诚实性评估提供了新的基准,也为未来开发更加透明、可靠的AI系统奠定了基础。
相关研究论文
  • 1
    BeHonest: Benchmarking Honesty of Large Language Models生成式AI研究实验室 (GAIR) · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作