ToolBH

Name: ToolBH
Creator: 早稻田大学、浙江大学、清华大学、香港中文大学、弗吉尼亚理工大学、香港中文大学（深圳）
Published: 2024-06-29 00:03:30
License: 暂无描述

arXiv2024-06-29 更新2024-07-22 收录

下载链接：

https://github.com/ToolBeHonest/ToolBeHonest

下载链接

链接失效反馈

官方服务：

资源简介：

ToolBH数据集由早稻田大学、浙江大学、清华大学等机构联合创建，旨在评估工具增强大型语言模型在处理复杂任务时的幻觉现象。该数据集包含700个样本，涵盖了多种工具使用场景和任务类型。数据集的创建过程包括多轮人工标注和严格的筛选标准，确保数据质量。ToolBH数据集主要应用于人工智能领域，特别是辅助开发更高效、更可靠的语言模型，以解决实际应用中的幻觉问题。

The ToolBH Dataset was jointly created by institutions including Waseda University, Zhejiang University, Tsinghua University and others. It aims to evaluate the hallucination phenomenon of tool-augmented large language models when handling complex tasks. This dataset contains 700 samples, covering various tool usage scenarios and task types. The dataset was constructed through multi-round manual annotation and strict screening criteria to guarantee data quality. The ToolBH Dataset is primarily applied in the field of artificial intelligence, particularly to support the development of more efficient and reliable language models for addressing hallucination problems in real-world applications.

提供机构：

早稻田大学、浙江大学、清华大学、香港中文大学、弗吉尼亚理工大学、香港中文大学（深圳）

创建时间：

2024-06-29

原始信息汇总

ToolBeHonest 数据集概述

简介

ToolBeHonest 旨在诊断增强工具的大型语言模型（LLMs）在实际应用中的幻觉问题。通过多层次的诊断流程和多种工具场景，全面评估 LLMs 的幻觉问题。

数据集详情

样本数量：包含 700 个手动标注的评估样本。
任务类型：涵盖七个不同任务，包括可解性检测、解决方案规划和缺失工具分析等。
场景类型：
- 缺失必要工具：评估 LLM 在关键工具不可用时的表现。
- 诱导使用潜在工具：测试 LLM 在应避免使用某些工具时的能力。
- 误用有限功能工具：评估 LLM 在工具功能有限时的处理能力。

数据下载

可以通过以下命令从 huggingface 下载评估数据： shell cd toolbh mkdir data cd data

wget https://huggingface.co/datasets/Joelzhang/ToolBeHonest/resolve/main/test_en.json

我们还提供了中文版本的数据。

wget https://huggingface.co/datasets/Joelzhang/ToolBeHonest/resolve/main/test_zh.json

评估流程

1. 推理

示例脚本： shell cd toolbh

替换 "--api_key your_api_key" 为你的 Google AI Studio APIKey

bash scripts/infer_gemini.sh

2. 评估

示例脚本： shell cd toolbh

bash scripts/eval_results_single.sh

评估结果将包括详细的样本级别分数和各种场景的详细错误类型数量。

重现结果

如果需要重现论文中的结果，可以下载重现结果和嵌入文件，并运行以下命令： shell cd toolbh mkdir results cd results

将 20240609_reproduction_results.tgz 放在这里，并解压。

tar -zxvf 20240609_reproduction_results.tgz

cd .. mkdir tools_emb

将 20240609_reproduction_embedding.tgz 放在这里，并解压。

tar -zxvf 20240609_reproduction_embedding.tgz

cd ..

bash scripts/eval_results_reproduction.sh

评估结果将保存在 toolbh/results/eval_results 和 toolbh/results/table_results 中。

搜集汇总

数据集介绍

构建方式

ToolBH数据集的构建方式源于对工具增强大型语言模型（LLMs）在复杂场景中应用能力的深入探究。该数据集通过构建多层次、多维度的诊断框架，包括可解性检测、解决方案规划和缺失工具分析，全面评估LLMs在工具使用过程中的幻觉现象。数据集的构建过程涉及多轮人工标注，确保数据的质量和多样性。

特点

ToolBH数据集的特点在于其多层次和多维度的诊断框架，能够深入挖掘LLMs在工具使用过程中的幻觉现象。其深度方面涵盖了可解性检测、解决方案规划和缺失工具分析；广度方面则考虑了缺失必要工具、潜在工具和功能受限工具等三种关键场景，全面评估LLMs在工具使用中的表现。

使用方法

ToolBH数据集的使用方法包括对LLMs进行多层次的幻觉诊断，以及针对不同工具使用场景下的评估。具体操作包括：首先，根据任务描述和提供的工具列表，对LLMs的可解性进行评估；其次，根据评估结果，规划工具使用方案；最后，对工具使用过程进行深入分析，识别缺失工具的功能。

背景与挑战

背景概述

随着人工智能技术的快速发展，大型语言模型（LLMs）正在被广泛应用于各种实际场景中。工具增强型LLMs能够使用外部工具来解决复杂的任务，例如数学推理等。然而，由于缺乏相应的基准测试，社区对于这些模型中存在的幻觉问题了解不足。为了解决这个问题，研究人员引入了一个名为ToolBH的综合诊断基准，该基准从深度和广度两个角度评估LLMs的幻觉现象。ToolBH由来自Waseda大学、浙江大学、清华大学、CUHK、Virginia Tech和CUHK Shenzhen的研究人员共同开发，旨在帮助社区更好地理解工具增强型LLMs的幻觉问题，并推动相关领域的研究。

当前挑战

ToolBH基准测试面临的主要挑战包括：1) 评估LLMs在使用工具时产生的幻觉现象，包括使用错误的工具或提供不存在工具的解决方案；2) 构建过程中遇到的挑战，例如如何设计具有不同功能和限制的工具集，以及如何构建具有不同任务复杂性和工具多样性的样本。此外，ToolBH基准测试还需要解决一些实际问题，例如如何确保数据集中不包含伦理偏差，以及如何提高模型的推理能力，使其能够更好地理解和解释工具的功能。

常用场景

经典使用场景

ToolBH数据集主要用于评估工具增强型大型语言模型（LLM）在使用工具时产生的幻觉现象。该数据集通过深度和广度两个维度对LLM的幻觉进行评估，深度评估包括可解决性检测、解决方案规划和缺失工具分析三个层次，广度评估则考虑了缺失必要工具、潜在工具和功能受限工具三种场景。通过这些评估，ToolBH旨在帮助研究人员更好地理解LLM在使用工具时的幻觉现象，并为其提供改进方向。

解决学术问题

ToolBH数据集解决了当前工具增强型LLM评估中存在的幻觉问题。现有的评估方法往往假设用户会提供完整的工具列表和详细的工具描述，而ToolBH则考虑了现实世界中工具可能不完整或存在缺失的情况。此外，ToolBH通过多层次的评估框架，深入分析了LLM在使用工具时的幻觉现象，为研究人员提供了更全面、更细致的评估方法。

衍生相关工作

ToolBH数据集的发布推动了工具增强型LLM评估领域的发展。基于ToolBH的设计理念和方法，研究人员可以开发出更多针对特定场景的评估数据集，从而更全面地评估LLM的性能。此外，ToolBH的评估方法还可以应用于其他类型的AI模型，例如代码生成模型、问答模型等，从而推动整个AI领域的评估方法的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集