lovesnowbest/T-Eval
收藏T-Eval 数据集概述
基本信息
- 许可证: Apache 2.0
- 任务类别: 问答
- 语言: 英语, 中文
- 标签: 代码
- 美观名称: teval
- 数据集大小: 100M<n<1B
简介
T-Eval 是一个评估大型语言模型工具利用能力的基准测试。该数据集旨在通过分解工具利用过程为多个子过程(如指令遵循、规划、推理、检索、理解和审查)来评估模型的工具利用能力。
最新动态
- 2024.02.18: 发布新的中英文数据和代码,加速推理。
- 2024.01.08: 发布中文评测数据集和榜单。
- 2023.12.22: 论文在 ArXiv 上可用。
- 2023.12.21: 发布 T-Eval 的测试脚本和数据。
数据准备
数据可通过 Google Drive 和 HuggingFace 下载:
- Google Drive: T-Eval Data
- HuggingFace: T-Eval Dataset
使用方法
测试数据
下载后,将数据放置在 data 文件夹中:
- data/
- instruct_v2.json
- plan_json_v2.json ...
API 模型
设置 OPENAI 密钥并运行测试脚本: bash export OPENAI_API_KEY=xxxxxxxxx sh test_all_en.sh api gpt-4-1106-preview gpt4
HuggingFace 模型
下载模型并修改 meta_template 配置,然后运行测试脚本:
bash
sh test_all_en.sh hf $HF_PATH $HF_MODEL_NAME $META_TEMPLATE
结果提交
完成测试后,运行以下命令获取最终评分: bash python teval/utils/convert_results.py --result_path $out_dir/$model_display_name/$model_display_name_-1.json
引用
如需引用此项目,请使用以下格式:
@article{chen2023t, title={T-Eval: Evaluating the Tool Utilization Capability Step by Step}, author={Chen, Zehui and Du, Weihua and Zhang, Wenwei and Liu, Kuikun and Liu, Jiangning and Zheng, Miao and Zhuo, Jingming and Zhang, Songyang and Lin, Dahua and Chen, Kai and others}, journal={arXiv preprint arXiv:2312.14033}, year={2023} }




