five

lovesnowbest/T-Eval

收藏
Hugging Face2024-02-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lovesnowbest/T-Eval
下载链接
链接失效反馈
官方服务:
资源简介:
T-Eval是一个用于评估大型语言模型(LLM)在工具使用能力方面的数据集。该数据集通过将工具使用能力分解为多个子过程(如指令遵循、规划、推理、检索、理解和审查)来进行逐步评估。T-Eval不仅与结果导向的评估保持一致,还提供了对LLM能力的更细粒度分析,为LLM在工具使用能力方面的评估提供了新的视角。数据集支持中英文,并提供了详细的测试脚本和数据下载方式。

T-Eval是一个用于评估大型语言模型(LLM)在工具使用能力方面的数据集。该数据集通过将工具使用能力分解为多个子过程(如指令遵循、规划、推理、检索、理解和审查)来进行逐步评估。T-Eval不仅与结果导向的评估保持一致,还提供了对LLM能力的更细粒度分析,为LLM在工具使用能力方面的评估提供了新的视角。数据集支持中英文,并提供了详细的测试脚本和数据下载方式。
提供机构:
lovesnowbest
原始信息汇总

T-Eval 数据集概述

基本信息

  • 许可证: Apache 2.0
  • 任务类别: 问答
  • 语言: 英语, 中文
  • 标签: 代码
  • 美观名称: teval
  • 数据集大小: 100M<n<1B

简介

T-Eval 是一个评估大型语言模型工具利用能力的基准测试。该数据集旨在通过分解工具利用过程为多个子过程(如指令遵循、规划、推理、检索、理解和审查)来评估模型的工具利用能力。

最新动态

  • 2024.02.18: 发布新的中英文数据和代码,加速推理。
  • 2024.01.08: 发布中文评测数据集和榜单。
  • 2023.12.22: 论文在 ArXiv 上可用。
  • 2023.12.21: 发布 T-Eval 的测试脚本和数据。

数据准备

数据可通过 Google Drive 和 HuggingFace 下载:

使用方法

测试数据

下载后,将数据放置在 data 文件夹中:

  • data/
    • instruct_v2.json
    • plan_json_v2.json ...

API 模型

设置 OPENAI 密钥并运行测试脚本: bash export OPENAI_API_KEY=xxxxxxxxx sh test_all_en.sh api gpt-4-1106-preview gpt4

HuggingFace 模型

下载模型并修改 meta_template 配置,然后运行测试脚本: bash sh test_all_en.sh hf $HF_PATH $HF_MODEL_NAME $META_TEMPLATE

结果提交

完成测试后,运行以下命令获取最终评分: bash python teval/utils/convert_results.py --result_path $out_dir/$model_display_name/$model_display_name_-1.json

引用

如需引用此项目,请使用以下格式:

@article{chen2023t, title={T-Eval: Evaluating the Tool Utilization Capability Step by Step}, author={Chen, Zehui and Du, Weihua and Zhang, Wenwei and Liu, Kuikun and Liu, Jiangning and Zheng, Miao and Zhuo, Jingming and Zhang, Songyang and Lin, Dahua and Chen, Kai and others}, journal={arXiv preprint arXiv:2312.14033}, year={2023} }

搜集汇总
数据集介绍
main_image_url
构建方式
T-Eval数据集的构建,旨在对大型语言模型的工具利用能力进行分步骤评估。该数据集通过综合分解工具利用的多个子过程,包括指令遵循、规划、推理、检索、理解和回顾,从而细致地评价模型在各个阶段的表现。
特点
T-Eval数据集的特点在于,它不仅提供了对大型语言模型整体性能的评估,还能够对模型的工具利用能力进行更细粒度的分析。这种分领域的评估方式,有助于深入理解模型在各个子任务上的表现,以及它们如何逐步利用工具来完成复杂的NLP任务。
使用方法
使用T-Eval数据集时,用户可以通过HuggingFace平台或Google Drive获取测试数据。数据集支持API模型和HuggingFace模型的评估,用户需要根据所测试的模型类型,选择适当的测试脚本和配置文件。评估完成后,用户可以通过提供的脚本生成详细的评估结果,并将结果提交至官方排行榜以供比较。
背景与挑战
背景概述
T-Eval数据集是一项旨在评估大型语言模型工具使用能力的研究成果,由Zehui Chen等研究人员于2023年提出。该数据集针对当前大型语言模型在工具利用上的评价方法不足,通过将工具利用细分为多个子过程,如指令遵循、规划、推理、检索、理解和回顾,从而实现了对模型工具利用能力的逐步评估。T-Eval的创建不仅为自然语言处理领域提供了一种新的评估视角,而且对大型语言模型的工具利用能力进行了更细粒度的分析,对相关领域的研究产生了重要影响。
当前挑战
T-Eval数据集在构建过程中面临的挑战主要包括:如何准确分解和评估工具利用的各个子过程,确保评估的全面性和准确性;如何设计适合不同模型能力的评估任务,以适应不同规模的模型;以及如何构建一个能够反映模型工具利用能力的多对话风格评价体系。此外,数据集在领域问题解决上的挑战包括,如何确保数据集中的问题和答案格式适用于不同的语言和文化背景,以及如何处理和评估模型在复杂场景下的工具使用策略。
常用场景
经典使用场景
T-Eval作为一项评估大型语言模型工具利用能力的评测基准,其经典使用场景在于对LLM的指令遵循、规划、推理、检索、理解和评估等多个子过程的工具利用能力进行逐层评估。该数据集通过细致的任务分解,为研究者和开发者提供了一个全面评价LLM工具利用能力的平台。
衍生相关工作
基于T-Eval的数据集,已经衍生出了一系列相关工作,包括但不限于对现有LLM工具利用能力的深入分析、新型LLM架构的设计与评估,以及针对特定任务的工具优化策略研究。这些工作进一步推动了LLM领域的发展,并拓宽了其在实际应用中的使用范围。
数据集最近研究
最新研究方向
在自然语言处理领域,大型语言模型(LLM)在各种NLP任务上取得了显著性能,但其工具利用能力的评估与分析仍鲜有涉猎。T-Eval数据集针对此问题,将工具利用细分为多个子过程,包括指令遵循、规划、推理、检索、理解和回顾等,并逐步评估LLM的工具利用能力。该数据集不仅与结果导向的评估保持一致性,还提供了LLM能力的更细粒度分析,为LLM评估工具利用能力提供了新的视角。近期,T-Eval数据集发布了中文评测数据集和榜单,进一步推动了相关研究的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作