five

DjMel/oz-eval

收藏
Hugging Face2024-07-19 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/DjMel/oz-eval
下载链接
链接失效反馈
官方服务:
资源简介:
OZ Eval(塞尔维亚语:Opšte Znanje Evaluacija)数据集是为了评估塞尔维亚语中LLM模型的通用知识而创建的。数据包含1000多个高质量的问题和答案,这些问题和答案来自贝尔格莱德大学哲学学院和组织科学学院的入学考试,考试内容测试学生的通用知识,数据涵盖了2003年至2024年的入学考试。

OZ Eval(塞尔维亚语:Opšte Znanje Evaluacija)数据集是为了评估塞尔维亚语中LLM模型的通用知识而创建的。数据包含1000多个高质量的问题和答案,这些问题和答案来自贝尔格莱德大学哲学学院和组织科学学院的入学考试,考试内容测试学生的通用知识,数据涵盖了2003年至2024年的入学考试。
提供机构:
DjMel
原始信息汇总

OZ Eval 数据集概述

数据集描述

  • 名称: OZ Eval
  • 语言: 塞尔维亚语
  • 任务类别: 问答
  • 创建目的: 评估大型语言模型(LLM)在塞尔维亚语中的常识知识
  • 数据内容: 包含1000多个高质量的问答对
  • 数据来源: 用于贝尔格莱德大学哲学系和组织科学系的入学考试
  • 考试时间: 2003年至2024年

评估过程

  • 评估工具: HuggingFace的lighteval

  • 评估模板:

    Pitanje: {question}

    Ponuđeni odgovori: A. {option_a} B. {option_b} C. {option_c} D. {option_d} E. {option_e}

    Krajnji odgovor:

  • 评估方法: 通过比较每个选项的概率来计算最终准确率,采用0-shot方式进行评估

  • GPT-like模型评估: 取前20个输出token的概率,筛选出字母A到E,选择概率最高的字母作为最终答案

  • 评估代码: 可在此处找到

  • 评估命令:

    accelerate launch lighteval/run_evals_accelerate.py --model_args "pretrained={MODEL_NAME},trust_remote_code=True" --use_chat_template --tasks "community|serbian_evals:oz_task|0|0" --custom_tasks "/content/lighteval/community_tasks/oz_evals.py" --output_dir "./evals" --override_batch_size 32

评估结果

模型 大小 准确率 标准误差
GPT-4-0125-preview ??? 0.9199 ±0.002
GPT-4o-2024-05-13 12B 0.9196 ±0.0017
GPT-3.5-turbo-0125 20B 0.8245 ±0.0016
GPT-4o-mini-2024-07-18 ??? 0.7971 ±0.0005
Mustra-7B-Instruct-v0.2 7B 0.7388 ±0.0098
Tito-7B-slerp 7B 0.7099 ±0.0101
Yugo55A-GPT 7B 0.6889 ±0.0103
Zamfir-7B-slerp 7B 0.6849 ±0.0104
Mistral-Nemo-Instruct-2407 12.2B 0.6839 ±0.0104
Qwen2-7B-instruct 7B 0.6730 ±0.0105
Llama-3-SauerkrautLM-8b-Instruct 8B 0.661 ±0.0106
Yugo60-GPT 7B 0.6411 ±0.0107
DeepSeek-V2-Lite-Chat 15.7B 0.6047 ±0.0109
Llama3-70B-Instruct (4bit) 70B 0.5942 ±0.011
Hermes-2-Theta-Llama-3-8B 8B 0.5852 ±0.011
Mistral-7B-Instruct-v0.3 7B 0.5753 ±0.011
openchat-3.6-8b-20240522 8B 0.5513 ±0.0111
Llama3-8B-Instruct 8B 0.5274 ±0.0111
Starling-7B-beta 7B 0.5244 ±0.0112
Hermes-2-Pro-Mistral-7B 7B 0.5145 ±0.0112
Qwen2-1.5B-Instruct 1.5B 0.4506 ±0.0111
Perucac-7B-slerp 7B 0.4247 ±0.011
Phi-3-mini-128k-instruct 3.8B 0.3719 ±0.0108
SambaLingo-Serbian-Chat 7B 0.2802 ±0.01
Gemma-2-9B-it 9B 0.2193 ±0.0092

引用

@article{oz-eval, author = "Stanivuk Siniša & Đorđević Milena", title = "OZ Eval: Measuring General Knowledge Skill at University Level of LLMs in Serbian Language", year = "2024" }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作