tinyBenchmarks/tinyAlpacaEval
收藏tinyAlpacaEval 数据集概述
数据集信息
- 配置名称: default
- 数据文件:
- 分割: test
- 路径: data/test-*
- 特征:
- 名称: instruction
- 数据类型: string
- 名称: output
- 数据类型: string
- 名称: generator
- 数据类型: string
- 名称: dataset
- 数据类型: string
- 名称: instruction
- 分割:
- 名称: test
- 字节数: 177527
- 样本数: 100
- 名称: test
- 下载大小: 120300
- 数据集大小: 177527
数据集特点
- 紧凑型数据集: 包含100个数据点,是AlpacaEval 2.0的一个子集,适用于快速评估LLM性能。
- 基准测试: 包含
gpt4_turbo的输出,允许用户直接比较其LLM的性能。评估应使用weighted_alpaca_eval_gpt4_turbo方法。
模型评估
-
数据加载: python from datasets import load_dataset tiny_data = load_dataset(tinyBenchmarks/tinyAlpacaEval, default)[test]
-
评分转换: python y = # 原始评分向量 y = y - 1
-
性能评估: python import numpy as np import tinyBenchmarks as tb
参数
benchmark = alpaca
评估
tb.evaluate(y, benchmark)
引用
plaintext @article{polo2024tinybenchmarks, title={tinyBenchmarks: evaluating LLMs with fewer examples}, author={Felipe Maia Polo and Lucas Weber and Leshem Choshen and Yuekai Sun and Gongjun Xu and Mikhail Yurochkin}, year={2024}, eprint={2402.14992}, archivePrefix={arXiv}, primaryClass={cs.CL} }
@misc{alpaca_eval, author = {Xuechen Li and Tianyi Zhang and Yann Dubois and Rohan Taori and Ishaan Gulrajani and Carlos Guestrin and Percy Liang and Tatsunori B. Hashimoto }, title = {AlpacaEval: An Automatic Evaluator of Instruction-following Models}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/tatsu-lab/alpaca_eval}} }



