zeitgeist-ai/mixeval
收藏MixEval 数据集
概述
- 名称: MixEval
- 用途: 用于评估大型语言模型(LLMs)的动态基准测试。
- 特点:
- 使用真实世界用户查询和基准进行评估。
- 模型排名相关性达到0.96,与Chatbot Arena相当。
- 使用GPT-3.5作为评判模型,运行成本约为$0.6。
数据集集成
- Hugging Face Datasets: 支持直接集成,无需本地文件。
- Hugging Face TGI 或 vLLM: 用于加速评估并使其更易于管理。
评估方法
- 本地模型评估: 支持在训练期间或训练后使用
transformers库进行本地模型评估。 - 远程模型评估: 支持使用Hugging Face模型库中的模型进行评估。
- vLLM/TGI 集成: 支持使用vLLM或TGI进行本地或远程API评估。
示例命令
-
远程Hugging Face模型评估: bash MODEL_PARSER_API=$(echo $OPENAI_API_KEY) python -m mix_eval.evaluate --data_path hf://zeitgeist-ai/mixeval --model_name zephyr_7b_beta --benchmark mixeval_hard --version 2024-06-01 --batch_size 20 --output_dir results --api_parallel_num 20
-
使用vLLM/TGI进行评估: bash MODEL_PARSER_API=$(echo $OPENAI_API_KEY) API_URL=http://localhost:8000/v1 python -m mix_eval.evaluate --data_path hf://zeitgeist-ai/mixeval --model_name local_api --model_path alignment-handbook/zephyr-7b-dpo-full --benchmark mixeval_hard --version 2024-06-01 --batch_size 20 --output_dir results --api_parallel_num 20
-
本地Hugging Face模型评估: bash MODEL_PARSER_API=$(echo $OPENAI_API_KEY) python -m mix_eval.evaluate --data_path hf://zeitgeist-ai/mixeval --model_path my/local/path --output_dir results/agi-5 --model_name local_chat --benchmark mixeval_hard --version 2024-06-01 --batch_size 20 --api_parallel_num 20
评估结果示例
| Metric | Score |
|---|---|
| MBPP | 100.00% |
| OpenBookQA | 62.50% |
| DROP | 47.60% |
| BBH | 43.10% |
| MATH | 38.10% |
| PIQA | 37.50% |
| TriviaQA | 37.30% |
| BoolQ | 35.10% |
| CommonsenseQA | 34.00% |
| GSM8k | 33.60% |
| MMLU | 29.00% |
| HellaSwag | 27.90% |
| AGIEval | 26.80% |
| GPQA | 0.00% |
| ARC | 0.00% |
| SIQA | 0.00% |
| overall score (final score) | 34.85% |
- 评估时间: 约5分钟。



