five

Macedonian LLM eval

收藏
github2025-01-08 更新2025-01-10 收录
下载链接:
https://github.com/LVSTCK/macedonian-llm-eval
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从塞尔维亚语翻译成马其顿语的,使用了Google Translate API进行翻译。选择塞尔维亚语作为源语言是因为塞尔维亚语和马其顿语在语言学上更接近,这使得塞尔维亚语成为更好的翻译起点。此外,塞尔维亚语数据集还使用了GPT-4进行了优化,显著提高了翻译质量。翻译后的马其顿语数据集经过了质量检查,被认为质量良好。

This dataset was translated from Serbian to Macedonian using the Google Translate API. Serbian was selected as the source language due to its close linguistic proximity to Macedonian, which makes it a more favorable starting point for translation. Additionally, the Serbian-language dataset was optimized with GPT-4, which significantly improved the translation quality. The translated Macedonian dataset underwent quality inspection and was deemed to be of good quality.
创建时间:
2024-12-31
原始信息汇总

数据集概述

数据集名称

Macedonian LLM eval

数据集来源

该数据集是基于Aleksa Gordić的原始工作Serbian LLM eval进行改编的。数据集从塞尔维亚语翻译为马其顿语,使用了Google Translate API,并通过GPT-4进行了质量改进。

数据集内容

  • 常识推理:包括HellaswagWinograndePIQAOpenbookQAARC-EasyARC-Challenge
  • 世界知识:包括NaturalQuestions
  • 阅读理解:包括BoolQ

数据集质量

翻译后的马其顿语数据集经过了质量检查,翻译质量良好。

数据集地址

该数据集可以在HuggingFace上找到。

最新评估结果(2025年1月8日)

以下是不同模型在马其顿语数据集上的评估结果:

模型 版本 多语言支持 马其顿语显式支持 ARC Easy ARC Challenge Bool Q HellaSwag Openbook QA PIQA NQ Open WinoGrande 备注
MKLLM-7B-Instruct 7B 0.5034 ± 0.0103 0.3003 ± 0.0134 0.7878 ± 0.0072 0.4328 ± 0.0049 0.2940 ± 0.0204 0.6420 ± 0.0112 0.0432 ± 0.0034 0.6148 ± 0.0137
BLOOM 7B 0.2774 ± 0.0092 0.1800 ± 0.0112 0.5028 ± 0.0087 0.2664 ± 0.0044 0.1580 ± 0.0163 0.5316 ± 0.0116 0 0.4964 ± 0.0141 NQ是精确匹配,因此得分较低。
Phi-3.5-mini 3.8B 0.2887 ± 0.0093 0.1877 ± 0.0114 0.6028 ± 0.0086 0.2634 ± 0.0044 0.1640 ± 0.0166 0.5256 ± 0.0117 0.0025 ± 0.0008 0.5193 ± 0.0140
Mistral 7B 0.4625 ± 0.0102 0.2867 ± 0.0132 0.7593 ± 0.0075 0.3722 ± 0.0048 0.2180 ± 0.0185 0.5783 ± 0.0115 0.0241 ± 0.0026 0.5612 ± 0.0139
Mistral-Nemo 12B 0.4718 ± 0.0102 0.3191 ± 0.0134 0.8086 ± 0.0072 0.3997 ± 0.0049 0.2420 ± 0.0185 0.6066 ± 0.0112 0.0291 ± 0.0034 0.6062 ± 0.0137
Qwen2.5 7B 0.3906 ± 0.0100 0.2534 ± 0.0127 0.7789 ± 0.0073 0.3390 ± 0.0047 0.2160 ± 0.0184 0.5598 ± 0.0116 0.0042 ± 0.0011 0.5351 ± 0.0140
LLaMA 3.1 8B 0.4453 ± 0.0102 0.2824 ± 0.0132 0.7639 ± 0.0074 0.3740 ± 0.0048 0.2520 ± 0.0194 0.5865 ± 0.0115 0.0335 ± 0.0030 0.5683 ± 0.0139
LLaMA 3.2 3B 0.3224 ± 0.0096 0.2329 ± 0.0124 0.6624 ± 0.0083 0.2976 ± 0.0046 0.2060 ± 0.0181 0.5462 ± 0.0116 0.0044 ± 0.0011 0.5059 ± 0.0141
LLaMA 3.3 - 8bit 70B 0.5808 ± 0.0101 0.3686 ± 0.0141 0.8511 ± 0.0062 0.4656 ± 0.0050 0.2820 ± 0.0201 0.6600 ± 0.0111 0.0878 ± 0.0047 0.6093 ± 0.0137

评估方法

要运行评估,请按照以下步骤操作:

  1. 创建并激活Python环境: bash conda create -n mk_eval python==3.10 conda activate mk_eval

  2. 安装依赖: bash pip install -e .

  3. 运行评估: bash python3 main.py --language "Macedonian" --model hf-causal-experimental --model_args "pretrained=microsoft/Phi-3.5-mini-instruct" --tasks arc_challenge,arc_easy,boolq,hellaswag,openbookqa,piqa,winogrande --batch_size 8 --output_path "results_eval"

贡献指南

欢迎贡献马其顿语LLM评估数据集!可以通过以下方式参与:

  1. 翻译流行的基准数据集。
  2. Fork并修改仓库。
  3. 更新和修改脚本。
  4. 提交PR。

待办事项

  • 添加COPA-MK到评估中。
搜集汇总
数据集介绍
main_image_url
构建方式
Macedonian LLM eval数据集的构建基于Aleksa Gordić的原始工作,通过从塞尔维亚语翻译成马其顿语的方式进行。由于塞尔维亚语和马其顿语在语言学上更为接近,因此选择塞尔维亚语作为翻译的起点,而非英语。翻译过程使用了Google Translate API,并进一步通过GPT-4进行优化,以确保翻译质量。最终,数据集经过质量检查,确认其翻译质量良好。
特点
该数据集涵盖了多个自然语言处理任务,包括常识推理(如Hellaswag、Winogrande、PIQA等)、世界知识(如NaturalQuestions)以及阅读理解(如BoolQ)。这些任务的设计旨在全面评估语言模型在不同领域的表现。数据集的特点在于其语言多样性,专注于马其顿语,填补了该语言在自然语言处理领域的空白。
使用方法
使用Macedonian LLM eval数据集进行评估时,首先需要安装必要的依赖项,并创建一个Python环境。通过运行指定的命令行脚本,用户可以选择特定的语言模型和任务进行评估。评估结果将输出到指定路径。此外,用户还可以通过Google Translate API将其他语言的数据集翻译成马其顿语,以扩展数据集的应用范围。
背景与挑战
背景概述
Macedonian LLM eval数据集是一个专门用于评估马其顿语大型语言模型(LLM)性能的数据集,其创建灵感来源于Aleksa Gordić的塞尔维亚语LLM评估工作。该数据集于2025年1月8日发布,主要研究人员和机构包括Aleksa Gordić及其团队。数据集的核心研究问题在于如何通过翻译和优化现有基准数据集,构建一个适用于马其顿语的评估框架,以推动马其顿语自然语言处理(NLP)领域的发展。该数据集涵盖了常识推理、世界知识和阅读理解等多个任务,旨在为马其顿语LLM的性能评估提供标准化工具,对低资源语言的NLP研究具有重要的推动作用。
当前挑战
Macedonian LLM eval数据集面临的挑战主要体现在两个方面。首先,在领域问题上,马其顿语作为一种低资源语言,缺乏高质量的标注数据和成熟的评估基准,这使得构建一个全面且可靠的评估框架变得尤为困难。其次,在数据集构建过程中,翻译质量的控制是一个关键挑战。尽管使用了Google Translate API和GPT-4进行翻译优化,但语言之间的细微差异和文化背景的复杂性可能导致翻译结果的偏差。此外,数据集的扩展和维护也需要持续投入,以确保其能够覆盖更多任务和场景,从而满足不断发展的NLP研究需求。
常用场景
经典使用场景
Macedonian LLM eval 数据集主要用于评估马其顿语语言模型在多种任务上的表现,包括常识推理、世界知识和阅读理解等。通过该数据集,研究人员能够系统地测试模型在处理马其顿语时的能力,尤其是在跨语言迁移和低资源语言场景下的表现。该数据集为马其顿语的自然语言处理研究提供了标准化的评估基准。
解决学术问题
该数据集解决了低资源语言模型评估中的关键问题,尤其是在马其顿语这种资源相对匮乏的语言环境中。通过提供高质量的翻译和评估任务,研究人员能够更准确地衡量模型在常识推理、世界知识和阅读理解等任务上的表现。这不仅填补了马其顿语在自然语言处理领域的空白,还为其他低资源语言的模型评估提供了参考。
衍生相关工作
该数据集衍生了一系列相关研究工作,尤其是在低资源语言模型评估和跨语言迁移领域。基于该数据集,研究人员开发了多种针对马其顿语的优化模型,并探索了从塞尔维亚语到马其顿语的翻译质量提升方法。此外,该数据集还为其他低资源语言的模型评估提供了模板,推动了类似数据集在多语言环境中的扩展和应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作