DjMel/oz-eval
收藏OZ Eval 数据集概述
数据集描述
- 名称: OZ Eval
- 语言: 塞尔维亚语
- 任务类别: 问答
- 创建目的: 评估大型语言模型(LLM)在塞尔维亚语中的常识知识
- 数据内容: 包含1000多个高质量的问答对
- 数据来源: 用于贝尔格莱德大学哲学系和组织科学系的入学考试
- 考试时间: 2003年至2024年
评估过程
-
评估工具: HuggingFace的
lighteval库 -
评估模板:
Pitanje: {question}
Ponuđeni odgovori: A. {option_a} B. {option_b} C. {option_c} D. {option_d} E. {option_e}
Krajnji odgovor:
-
评估方法: 通过比较每个选项的概率来计算最终准确率,采用0-shot方式进行评估
-
GPT-like模型评估: 取前20个输出token的概率,筛选出字母A到E,选择概率最高的字母作为最终答案
-
评估代码: 可在此处找到
-
评估命令:
accelerate launch lighteval/run_evals_accelerate.py --model_args "pretrained={MODEL_NAME},trust_remote_code=True" --use_chat_template --tasks "community|serbian_evals:oz_task|0|0" --custom_tasks "/content/lighteval/community_tasks/oz_evals.py" --output_dir "./evals" --override_batch_size 32
评估结果
| 模型 | 大小 | 准确率 | 标准误差 |
|---|---|---|---|
| GPT-4-0125-preview | ??? | 0.9199 | ±0.002 |
| GPT-4o-2024-05-13 | 12B | 0.9196 | ±0.0017 |
| GPT-3.5-turbo-0125 | 20B | 0.8245 | ±0.0016 |
| GPT-4o-mini-2024-07-18 | ??? | 0.7971 | ±0.0005 |
| Mustra-7B-Instruct-v0.2 | 7B | 0.7388 | ±0.0098 |
| Tito-7B-slerp | 7B | 0.7099 | ±0.0101 |
| Yugo55A-GPT | 7B | 0.6889 | ±0.0103 |
| Zamfir-7B-slerp | 7B | 0.6849 | ±0.0104 |
| Mistral-Nemo-Instruct-2407 | 12.2B | 0.6839 | ±0.0104 |
| Qwen2-7B-instruct | 7B | 0.6730 | ±0.0105 |
| Llama-3-SauerkrautLM-8b-Instruct | 8B | 0.661 | ±0.0106 |
| Yugo60-GPT | 7B | 0.6411 | ±0.0107 |
| DeepSeek-V2-Lite-Chat | 15.7B | 0.6047 | ±0.0109 |
| Llama3-70B-Instruct (4bit) | 70B | 0.5942 | ±0.011 |
| Hermes-2-Theta-Llama-3-8B | 8B | 0.5852 | ±0.011 |
| Mistral-7B-Instruct-v0.3 | 7B | 0.5753 | ±0.011 |
| openchat-3.6-8b-20240522 | 8B | 0.5513 | ±0.0111 |
| Llama3-8B-Instruct | 8B | 0.5274 | ±0.0111 |
| Starling-7B-beta | 7B | 0.5244 | ±0.0112 |
| Hermes-2-Pro-Mistral-7B | 7B | 0.5145 | ±0.0112 |
| Qwen2-1.5B-Instruct | 1.5B | 0.4506 | ±0.0111 |
| Perucac-7B-slerp | 7B | 0.4247 | ±0.011 |
| Phi-3-mini-128k-instruct | 3.8B | 0.3719 | ±0.0108 |
| SambaLingo-Serbian-Chat | 7B | 0.2802 | ±0.01 |
| Gemma-2-9B-it | 9B | 0.2193 | ±0.0092 |
引用
@article{oz-eval, author = "Stanivuk Siniša & Đorđević Milena", title = "OZ Eval: Measuring General Knowledge Skill at University Level of LLMs in Serbian Language", year = "2024" }



