oz-eval

Hugging Face2024-06-28 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/DjMel/oz-eval

下载链接

链接失效反馈

官方服务：

资源简介：

OZ Eval数据集是为评估塞尔维亚语中大型语言模型（LLM）的常识知识而创建的，包含1000多个高质量的问题和答案，这些问题和答案曾作为贝尔格莱德大学哲学系和组织科学系的入学考试的一部分。

创建时间：

2024-06-28

原始信息汇总

OZ Eval 数据集概述

数据集描述

OZ Eval（sr. Opšte Znanje Evaluacija）数据集是为评估塞尔维亚语中大型语言模型（LLM）的常识知识而创建的。数据集包含1000多个高质量的问题和答案，这些问题和答案曾作为贝尔格莱德大学哲学系和组织科学系的入学考试的一部分。这些考试用于测试学生的常识知识，并在2003年至2024年的招生期间使用。

评估过程

模型通过使用HuggingFace的lighteval库进行评估。评估过程中，模型会接收到以下模板：

Pitanje: {question}

Ponuđeni odgovori: A. {option_a} B. {option_b} C. {option_c} D. {option_d} E. {option_e}

Krajnji odgovor:

然后比较每个字母（A, B, C, D, E）的可能性，并计算最终的准确性。所有评估均以0-shot方式进行，使用聊天模板。

GPT类模型通过取前20个输出令牌的概率进行评估，进一步筛选出字母A到E，并选择概率最高的字母作为最终答案。

评估结果

模型	大小	准确性	标准误差
GPT-4-0125-preview	???	0.9199	±0.002
GPT-4o-2024-05-13	12B	0.9196	±0.0017
GPT-3.5-turbo-0125	20B	0.8245	±0.0016
GPT-4o-mini-2024-07-18	???	0.7971	±0.0005
Mustra-7B-Instruct-v0.2	7B	0.7388	±0.0098
Tito-7B-slerp	7B	0.7099	±0.0101
Yugo55A-GPT	7B	0.6889	±0.0103
Zamfir-7B-slerp	7B	0.6849	±0.0104
Mistral-Nemo-Instruct-2407	12.2B	0.6839	±0.0104
Qwen2-7B-instruct	7B	0.6730	±0.0105
Llama-3-SauerkrautLM-8b-Instruct	8B	0.661	±0.0106
Yugo60-GPT	7B	0.6411	±0.0107
DeepSeek-V2-Lite-Chat	15.7B	0.6047	±0.0109
Llama3-70B-Instruct (4bit)	70B	0.5942	±0.011
Hermes-2-Theta-Llama-3-8B	8B	0.5852	±0.011
Mistral-7B-Instruct-v0.3	7B	0.5753	±0.011
openchat-3.6-8b-20240522	8B	0.5513	±0.0111
Llama3-8B-Instruct	8B	0.5274	±0.0111
Starling-7B-beta	7B	0.5244	±0.0112
Hermes-2-Pro-Mistral-7B	7B	0.5145	±0.0112
Qwen2-1.5B-Instruct	1.5B	0.4506	±0.0111
Perucac-7B-slerp	7B	0.4247	±0.011
Phi-3-mini-128k-instruct	3.8B	0.3719	±0.0108
SambaLingo-Serbian-Chat	7B	0.2802	±0.01
Gemma-2-9B-it	9B	0.2193	±0.0092

搜集汇总

数据集介绍

构建方式

OZ Eval数据集是为评估大型语言模型在塞尔维亚语中的通用知识能力而构建的。该数据集包含了1000多道高质量的问题和答案，这些题目源自贝尔格莱德大学哲学学院和组织科学学院的入学考试，涵盖了2003年至2024年的入学考试内容。数据集的构建过程严格遵循了学术标准，确保了问题的多样性和答案的准确性，旨在为模型评估提供可靠的基准。

特点

OZ Eval数据集的特点在于其专注于塞尔维亚语的通用知识评估，涵盖了广泛的学科领域。数据集中的每个问题都附带了多个选项，模型需要从中选择正确答案。此外，数据集还提供了详细的答案索引，便于模型评估和结果分析。该数据集的高质量和多样性使其成为评估语言模型在特定语言和文化背景下表现的重要工具。

使用方法

使用OZ Eval数据集进行模型评估时，可以通过HuggingFace的`lighteval`库来实现。评估过程中，模型需要根据提供的模板回答问题，并通过比较每个选项的概率来确定最终答案。评估命令包括指定模型名称、使用聊天模板以及设置任务路径等参数。通过这种方式，研究人员可以系统地评估模型在塞尔维亚语通用知识任务上的表现，并生成详细的评估结果。

背景与挑战

背景概述

OZ Eval数据集由贝尔格莱德大学哲学学院和组织科学学院联合创建，旨在评估大型语言模型（LLMs）在塞尔维亚语中的通用知识能力。该数据集包含1000多个高质量的问题和答案，这些问题源自2003年至2024年期间的学生入学考试，涵盖了广泛的通用知识领域。通过这一数据集，研究人员能够系统地评估模型在塞尔维亚语环境下的表现，进一步推动多语言自然语言处理技术的发展。该数据集的创建标志着塞尔维亚语在人工智能研究中的重要地位，并为多语言模型的评估提供了新的基准。

当前挑战

OZ Eval数据集在构建和应用过程中面临多重挑战。首先，数据集的构建依赖于高质量的入学考试题目，这些题目需要涵盖广泛的通用知识领域，同时确保语言表达的准确性和文化相关性。其次，由于塞尔维亚语属于低资源语言，模型在处理该语言时往往表现不佳，如何提升模型在低资源语言环境下的表现是一个重要挑战。此外，评估过程中需要确保模型的输出与人类答案的一致性，尤其是在多选项选择题中，模型的选择逻辑和推理能力需要得到精确的验证。这些挑战不仅考验了数据集的构建质量，也对模型的跨语言能力提出了更高的要求。

常用场景

经典使用场景

OZ Eval数据集主要用于评估大型语言模型（LLM）在塞尔维亚语中的通用知识能力。该数据集包含1000多个高质量的问题和答案，这些问题来源于贝尔格莱德大学哲学学院和组织科学学院的入学考试，涵盖了2003年至2024年的考试内容。通过使用HuggingFace的`lighteval`库，模型在0-shot设置下进行评估，生成答案并与标准答案进行对比，从而计算模型的准确率。

解决学术问题

OZ Eval数据集解决了在非英语语言环境下评估LLM通用知识能力的难题。通过提供塞尔维亚语的高质量问答数据，研究人员能够更准确地衡量模型在特定语言和文化背景下的表现。这不仅填补了多语言评估领域的空白，还为跨语言模型的性能优化提供了重要参考。

衍生相关工作

OZ Eval数据集的发布推动了多语言模型评估领域的研究。基于该数据集，研究人员开发了多种评估工具和方法，如`lighteval`库的扩展功能。此外，该数据集还激发了更多针对小语种模型的研究，促进了多语言人工智能技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集