slovenian-llm-eval

Name: slovenian-llm-eval
Creator: Center za jezikovne vire in tehnologije Univerze v Ljubljani
Published: 2024-09-30 18:22:51
License: 暂无描述

Hugging Face2024-09-30 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/cjvt/slovenian-llm-eval

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于评估斯洛文尼亚语言模型的数据集，基于gordicaleksa/slovenian-llm-eval-v0的工作，通过Google Translate将一些流行的英语基准翻译成斯洛文尼亚语，并进一步改进了斯洛文尼亚语翻译的质量。数据集包含多个基准测试，如ARC Challenge、ARC Easy、BoolQ、HellaSwag、NQ Open、OpenBookQA、PIQA、TriviaQA和Winogrande。数据集由Tjaša Arčon和Timotej Petrič开发，语言为斯洛文尼亚语，许可证为Apache 2.0。数据集的改进过程使用了Aleksa Gordić的改进流程，并通过OpenAI API进行批量处理。

This dataset is intended for evaluating Slovenian language models. It is built upon the work of gordicaleksa/slovenian-llm-eval-v0, which first translated several popular English benchmarks into Slovenian via Google Translate, then further improved the quality of these Slovenian translations. The dataset encompasses a range of benchmarks including ARC Challenge, ARC Easy, BoolQ, HellaSwag, NQ Open, OpenBookQA, PIQA, TriviaQA, and Winogrande. Developed by Tjaša Arčon and Timotej Petrič, this dataset is in Slovenian and licensed under Apache 2.0. Its refinement process adopted the workflow developed by Aleksa Gordić, and the dataset was batch-processed via the OpenAI API.

提供机构：

Center za jezikovne vire in tehnologije Univerze v Ljubljani

创建时间：

2024-09-29

原始信息汇总

Slovenian LLM Evaluation Dataset

基本信息

开发者: Tjaša Arčon, Timotej Petrič (University of Ljubljana, Faculty of Computer and Information Science)
语言: 斯洛文尼亚语
许可证: Apache 2.0

数据集配置

ARC Challenge

特征:
- query: string
- choices: sequence (string)
- gold: int32
分割:
- test: 343367 bytes, 1172 examples
下载大小: 404865 bytes
数据集大小: 343367 bytes

ARC Easy

特征:
- query: string
- choices: sequence (string)
- gold: int32
分割:
- test: 593653 bytes, 2376 examples
下载大小: 719255 bytes
数据集大小: 593653 bytes

BoolQ

特征:
- question: string
- passage: string
- label: int32
分割:
- test: 2124308 bytes, 3270 examples
下载大小: 2270416 bytes
数据集大小: 2124308 bytes

HellaSwag

特征:
- query: string
- choices: sequence (string)
- gold: int32
分割:
- test: 8021007 bytes, 10042 examples
下载大小: 8285081 bytes
数据集大小: 8021007 bytes

NQ Open

特征:
- question: string
- answer: sequence (string)
分割:
- train: 6828181 bytes, 87925 examples
- test: 316261 bytes, 3610 examples
下载大小: 9068408 bytes
数据集大小: 7144442 bytes

OpenBookQA

特征:
- query: string
- choices: sequence (string)
- gold: int32
分割:
- test: 75282 bytes, 500 examples
下载大小: 88323 bytes
数据集大小: 75282 bytes

PIQA

特征:
- goal: string
- choices: sequence (string)
- gold: int32
分割:
- test: 479869 bytes, 1838 examples
下载大小: 525880 bytes
数据集大小: 479869 bytes

TriviaQA

特征:
- question: string
- answer: struct
  - value: string
  - aliases: sequence (string)
分割:
- train: 55471747 bytes, 138382 examples
- test: 7322830 bytes, 17944 examples
下载大小: 175484196 bytes
数据集大小: 62794577 bytes

Winogrande

特征:
- sentence: string
- option1: string
- option2: string
- answer: string
分割:
- test: 167782 bytes, 1267 examples
下载大小: 224822 bytes
数据集大小: 167782 bytes

搜集汇总

数据集介绍

构建方式

该数据集的构建基于对多个流行的英语基准测试的斯洛文尼亚语翻译，最初通过Google Translate进行初步翻译，随后通过GPT-4进行质量提升。在翻译过程中，特别关注了语法和句法的准确性，并确保不丢失原始数据中的关键信息。部分数据集通过OpenAI的Batch API进行批量处理，以提高效率和一致性。

特点

该数据集涵盖了多个基准测试，包括ARC Challenge、ARC Easy、BoolQ、HellaSwag等，每个测试都经过精心翻译和校对，以确保其适用于斯洛文尼亚语的语言模型评估。数据集的特点在于其多样性和广泛性，能够全面评估语言模型在不同任务上的表现。此外，数据集还特别标注了每个问题的正确答案，便于模型训练和评估。

使用方法

该数据集主要用于评估斯洛文尼亚语的语言模型性能。用户可以通过加载相应的JSONL文件，直接使用数据集中的问题和答案进行模型训练和测试。每个基准测试都包含详细的元数据，如问题ID、问题和选项等，便于用户根据需要进行数据处理和分析。此外，数据集还提供了训练集和测试集的划分，方便用户进行交叉验证和模型评估。

背景与挑战

背景概述

Slovenian-LLM-Eval数据集由卢布尔雅那大学计算机与信息科学学院的Tjaša Arčon、Timotej Petrič和Domen Vreš等人开发，旨在评估斯洛文尼亚语言模型的性能。该数据集基于gordicaleksa/slovenian-llm-eval-v0的工作，后者通过Google Translate将一些流行的英语基准测试翻译成斯洛文尼亚语。该数据集进一步改进了翻译质量，涵盖了多个基准测试，如ARC Challenge、BoolQ、HellaSwag等。其开发得到了PoVeJMo研究项目的支持，该项目由斯洛文尼亚研究与创新机构（ARIS）和NextGenerationEU资助，旨在推动斯洛文尼亚语的自然语言处理研究。

当前挑战

该数据集在构建过程中面临多重挑战。首先，斯洛文尼亚语作为一种资源相对稀缺的语言，缺乏高质量的翻译语料，导致初始翻译质量参差不齐。其次，尽管通过GPT-4对翻译进行了优化，但自动翻译工具仍可能引入语法错误、语义偏差或文化背景不匹配的问题。此外，GPT-4在优化过程中可能删除选项、打乱选项顺序或将一个选项拆分为多个，这些问题虽部分通过自动化检测进行了修正，但仍存在无法自动检测的错误，如选项顺序的错乱，可能导致标签错误。这些挑战对数据集的准确性和可靠性提出了更高的要求。

常用场景

经典使用场景

在自然语言处理领域，slovenian-llm-eval数据集主要用于评估斯洛文尼亚语言模型的性能。该数据集通过将多个流行的英语基准测试翻译成斯洛文尼亚语，为研究者提供了一个标准化的测试平台，用于衡量模型在阅读理解、问答系统等任务中的表现。

解决学术问题

该数据集解决了在斯洛文尼亚语环境下缺乏高质量评估基准的问题。通过提供多种任务类型的数据，如ARC Challenge、BoolQ等，研究者能够系统地评估语言模型在不同任务中的泛化能力和准确性，从而推动斯洛文尼亚语自然语言处理技术的发展。

衍生相关工作

该数据集的发布催生了一系列相关研究，特别是在多语言模型评估领域。许多研究者基于该数据集开发了新的评估方法和模型优化策略，进一步推动了斯洛文尼亚语自然语言处理技术的进步。此外，该数据集还为其他低资源语言的模型评估提供了参考和借鉴。

以上内容由遇见数据集搜集并总结生成