ToolBH
收藏ToolBeHonest 数据集概述
简介
ToolBeHonest 旨在诊断增强工具的大型语言模型(LLMs)在实际应用中的幻觉问题。通过多层次的诊断流程和多种工具场景,全面评估 LLMs 的幻觉问题。
数据集详情
- 样本数量:包含 700 个手动标注的评估样本。
- 任务类型:涵盖七个不同任务,包括可解性检测、解决方案规划和缺失工具分析等。
- 场景类型:
- 缺失必要工具:评估 LLM 在关键工具不可用时的表现。
- 诱导使用潜在工具:测试 LLM 在应避免使用某些工具时的能力。
- 误用有限功能工具:评估 LLM 在工具功能有限时的处理能力。
数据下载
可以通过以下命令从 huggingface 下载评估数据: shell cd toolbh mkdir data cd data
wget https://huggingface.co/datasets/Joelzhang/ToolBeHonest/resolve/main/test_en.json
我们还提供了中文版本的数据。
wget https://huggingface.co/datasets/Joelzhang/ToolBeHonest/resolve/main/test_zh.json
评估流程
1. 推理
示例脚本: shell cd toolbh
替换 "--api_key your_api_key" 为你的 Google AI Studio APIKey
bash scripts/infer_gemini.sh
2. 评估
示例脚本: shell cd toolbh
bash scripts/eval_results_single.sh
评估结果将包括详细的样本级别分数和各种场景的详细错误类型数量。
重现结果
如果需要重现论文中的结果,可以下载重现结果和嵌入文件,并运行以下命令: shell cd toolbh mkdir results cd results
将 20240609_reproduction_results.tgz 放在这里,并解压。
tar -zxvf 20240609_reproduction_results.tgz
cd .. mkdir tools_emb
将 20240609_reproduction_embedding.tgz 放在这里,并解压。
tar -zxvf 20240609_reproduction_embedding.tgz
cd ..
bash scripts/eval_results_reproduction.sh
评估结果将保存在 toolbh/results/eval_results 和 toolbh/results/table_results 中。




