five

zeitgeist-ai/mixeval

收藏
Hugging Face2024-09-23 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/zeitgeist-ai/mixeval
下载链接
链接失效反馈
官方服务:
资源简介:
MixEval是一个动态基准测试工具,用于评估大型语言模型(LLMs),使用真实世界的用户查询和基准测试。其模型排名与Chatbot Arena的相关性达到0.96,并且使用GPT-3.5作为评判者的运行成本约为0.6美元。该数据集的主要功能包括:在训练期间或训练后评估本地模型、与Hugging Face Datasets集成以避免本地文件的需求、使用Hugging Face TGI或vLLM加速评估、改进的Markdown输出和训练时间、以及远程或CI集成的pip安装修复。

MixEval is a dynamic benchmark evaluating LLMs using real-world user queries and benchmarks, achieving a 0.96 model ranking correlation with Chatbot Arena and costs around $0.6 to run using GPT-3.5 as a Judge. The dataset features include: evaluation of local models during or post training, Hugging Face Datasets integration to avoid the need of local files, use of Hugging Face TGI or vLLM to accelerate evaluation, improved markdown outputs and timing for the training, and fixed pip install for remote or CI integration.
提供机构:
zeitgeist-ai
原始信息汇总

MixEval 数据集

概述

  • 名称: MixEval
  • 用途: 用于评估大型语言模型(LLMs)的动态基准测试。
  • 特点:
    • 使用真实世界用户查询和基准进行评估。
    • 模型排名相关性达到0.96,与Chatbot Arena相当。
    • 使用GPT-3.5作为评判模型,运行成本约为$0.6。

数据集集成

  • Hugging Face Datasets: 支持直接集成,无需本地文件。
  • Hugging Face TGI 或 vLLM: 用于加速评估并使其更易于管理。

评估方法

  • 本地模型评估: 支持在训练期间或训练后使用transformers库进行本地模型评估。
  • 远程模型评估: 支持使用Hugging Face模型库中的模型进行评估。
  • vLLM/TGI 集成: 支持使用vLLM或TGI进行本地或远程API评估。

示例命令

  • 远程Hugging Face模型评估: bash MODEL_PARSER_API=$(echo $OPENAI_API_KEY) python -m mix_eval.evaluate --data_path hf://zeitgeist-ai/mixeval --model_name zephyr_7b_beta --benchmark mixeval_hard --version 2024-06-01 --batch_size 20 --output_dir results --api_parallel_num 20

  • 使用vLLM/TGI进行评估: bash MODEL_PARSER_API=$(echo $OPENAI_API_KEY) API_URL=http://localhost:8000/v1 python -m mix_eval.evaluate --data_path hf://zeitgeist-ai/mixeval --model_name local_api --model_path alignment-handbook/zephyr-7b-dpo-full --benchmark mixeval_hard --version 2024-06-01 --batch_size 20 --output_dir results --api_parallel_num 20

  • 本地Hugging Face模型评估: bash MODEL_PARSER_API=$(echo $OPENAI_API_KEY) python -m mix_eval.evaluate --data_path hf://zeitgeist-ai/mixeval --model_path my/local/path --output_dir results/agi-5 --model_name local_chat --benchmark mixeval_hard --version 2024-06-01 --batch_size 20 --api_parallel_num 20

评估结果示例

Metric Score
MBPP 100.00%
OpenBookQA 62.50%
DROP 47.60%
BBH 43.10%
MATH 38.10%
PIQA 37.50%
TriviaQA 37.30%
BoolQ 35.10%
CommonsenseQA 34.00%
GSM8k 33.60%
MMLU 29.00%
HellaSwag 27.90%
AGIEval 26.80%
GPQA 0.00%
ARC 0.00%
SIQA 0.00%
overall score (final score) 34.85%
  • 评估时间: 约5分钟。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作