DjMel/oz-eval

Name: DjMel/oz-eval
Creator: DjMel
Published: 2024-07-19 11:17:46
License: 暂无描述

Hugging Face2024-07-19 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/DjMel/oz-eval

下载链接

链接失效反馈

官方服务：

资源简介：

OZ Eval（塞尔维亚语：Opšte Znanje Evaluacija）数据集是为了评估塞尔维亚语中LLM模型的通用知识而创建的。数据包含1000多个高质量的问题和答案，这些问题和答案来自贝尔格莱德大学哲学学院和组织科学学院的入学考试，考试内容测试学生的通用知识，数据涵盖了2003年至2024年的入学考试。

提供机构：

DjMel

原始信息汇总

OZ Eval 数据集概述

数据集描述

名称: OZ Eval
语言: 塞尔维亚语
任务类别: 问答
创建目的: 评估大型语言模型（LLM）在塞尔维亚语中的常识知识
数据内容: 包含1000多个高质量的问答对
数据来源: 用于贝尔格莱德大学哲学系和组织科学系的入学考试
考试时间: 2003年至2024年

评估过程

评估工具: HuggingFace的lighteval库
评估模板:

Pitanje: {question}

Ponuđeni odgovori: A. {option_a} B. {option_b} C. {option_c} D. {option_d} E. {option_e}

Krajnji odgovor:
评估方法: 通过比较每个选项的概率来计算最终准确率，采用0-shot方式进行评估
GPT-like模型评估: 取前20个输出token的概率，筛选出字母A到E，选择概率最高的字母作为最终答案
评估代码: 可在此处找到
评估命令:

accelerate launch lighteval/run_evals_accelerate.py --model_args "pretrained={MODEL_NAME},trust_remote_code=True" --use_chat_template --tasks "community|serbian_evals:oz_task|0|0" --custom_tasks "/content/lighteval/community_tasks/oz_evals.py" --output_dir "./evals" --override_batch_size 32

评估结果

模型	大小	准确率	标准误差
GPT-4-0125-preview	???	0.9199	±0.002
GPT-4o-2024-05-13	12B	0.9196	±0.0017
GPT-3.5-turbo-0125	20B	0.8245	±0.0016
GPT-4o-mini-2024-07-18	???	0.7971	±0.0005
Mustra-7B-Instruct-v0.2	7B	0.7388	±0.0098
Tito-7B-slerp	7B	0.7099	±0.0101
Yugo55A-GPT	7B	0.6889	±0.0103
Zamfir-7B-slerp	7B	0.6849	±0.0104
Mistral-Nemo-Instruct-2407	12.2B	0.6839	±0.0104
Qwen2-7B-instruct	7B	0.6730	±0.0105
Llama-3-SauerkrautLM-8b-Instruct	8B	0.661	±0.0106
Yugo60-GPT	7B	0.6411	±0.0107
DeepSeek-V2-Lite-Chat	15.7B	0.6047	±0.0109
Llama3-70B-Instruct (4bit)	70B	0.5942	±0.011
Hermes-2-Theta-Llama-3-8B	8B	0.5852	±0.011
Mistral-7B-Instruct-v0.3	7B	0.5753	±0.011
openchat-3.6-8b-20240522	8B	0.5513	±0.0111
Llama3-8B-Instruct	8B	0.5274	±0.0111
Starling-7B-beta	7B	0.5244	±0.0112
Hermes-2-Pro-Mistral-7B	7B	0.5145	±0.0112
Qwen2-1.5B-Instruct	1.5B	0.4506	±0.0111
Perucac-7B-slerp	7B	0.4247	±0.011
Phi-3-mini-128k-instruct	3.8B	0.3719	±0.0108
SambaLingo-Serbian-Chat	7B	0.2802	±0.01
Gemma-2-9B-it	9B	0.2193	±0.0092

引用

@article{oz-eval, author = "Stanivuk Siniša & Đorđević Milena", title = "OZ Eval: Measuring General Knowledge Skill at University Level of LLMs in Serbian Language", year = "2024" }

5,000+

优质数据集

54 个

任务类型

进入经典数据集