zeitgeist-ai/mixeval

Name: zeitgeist-ai/mixeval
Creator: zeitgeist-ai
Published: 2024-09-23 11:50:27
License: 暂无描述

Hugging Face2024-09-23 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/zeitgeist-ai/mixeval

下载链接

链接失效反馈

官方服务：

资源简介：

MixEval是一个动态基准测试工具，用于评估大型语言模型（LLMs），使用真实世界的用户查询和基准测试。其模型排名与Chatbot Arena的相关性达到0.96，并且使用GPT-3.5作为评判者的运行成本约为0.6美元。该数据集的主要功能包括：在训练期间或训练后评估本地模型、与Hugging Face Datasets集成以避免本地文件的需求、使用Hugging Face TGI或vLLM加速评估、改进的Markdown输出和训练时间、以及远程或CI集成的pip安装修复。

MixEval is a dynamic benchmark evaluating LLMs using real-world user queries and benchmarks, achieving a 0.96 model ranking correlation with Chatbot Arena and costs around $0.6 to run using GPT-3.5 as a Judge. The dataset features include: evaluation of local models during or post training, Hugging Face Datasets integration to avoid the need of local files, use of Hugging Face TGI or vLLM to accelerate evaluation, improved markdown outputs and timing for the training, and fixed pip install for remote or CI integration.

提供机构：

zeitgeist-ai

原始信息汇总

MixEval 数据集

概述

名称: MixEval
用途: 用于评估大型语言模型（LLMs）的动态基准测试。
特点:
- 使用真实世界用户查询和基准进行评估。
- 模型排名相关性达到0.96，与Chatbot Arena相当。
- 使用GPT-3.5作为评判模型，运行成本约为$0.6。

数据集集成

Hugging Face Datasets: 支持直接集成，无需本地文件。
Hugging Face TGI 或 vLLM: 用于加速评估并使其更易于管理。

评估方法

本地模型评估: 支持在训练期间或训练后使用transformers库进行本地模型评估。
远程模型评估: 支持使用Hugging Face模型库中的模型进行评估。
vLLM/TGI 集成: 支持使用vLLM或TGI进行本地或远程API评估。

示例命令

远程Hugging Face模型评估: bash MODEL_PARSER_API=$(echo $OPENAI_API_KEY) python -m mix_eval.evaluate --data_path hf://zeitgeist-ai/mixeval --model_name zephyr_7b_beta --benchmark mixeval_hard --version 2024-06-01 --batch_size 20 --output_dir results --api_parallel_num 20
使用vLLM/TGI进行评估: bash MODEL_PARSER_API=$(echo $OPENAI_API_KEY) API_URL=http://localhost:8000/v1 python -m mix_eval.evaluate --data_path hf://zeitgeist-ai/mixeval --model_name local_api --model_path alignment-handbook/zephyr-7b-dpo-full --benchmark mixeval_hard --version 2024-06-01 --batch_size 20 --output_dir results --api_parallel_num 20
本地Hugging Face模型评估: bash MODEL_PARSER_API=$(echo $OPENAI_API_KEY) python -m mix_eval.evaluate --data_path hf://zeitgeist-ai/mixeval --model_path my/local/path --output_dir results/agi-5 --model_name local_chat --benchmark mixeval_hard --version 2024-06-01 --batch_size 20 --api_parallel_num 20

评估结果示例

Metric	Score
MBPP	100.00%
OpenBookQA	62.50%
DROP	47.60%
BBH	43.10%
MATH	38.10%
PIQA	37.50%
TriviaQA	37.30%
BoolQ	35.10%
CommonsenseQA	34.00%
GSM8k	33.60%
MMLU	29.00%
HellaSwag	27.90%
AGIEval	26.80%
GPQA	0.00%
ARC	0.00%
SIQA	0.00%
overall score (final score)	34.85%

评估时间: 约5分钟。

5,000+

优质数据集

54 个

任务类型

进入经典数据集