LLMs-Turkish-TEOG-Leaderboard

Hugging Face2024-08-06 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/aliardaf/LLMs-Turkish-TEOG-Leaderboard

下载链接

链接失效反馈

官方服务：

资源简介：

TEOG数据集包含土耳其TEOG考试的多项选择题，用于评估大型语言模型在土耳其教育任务中的表现。每个问题包括问题主干、多个答案选项和正确答案。数据集用于创建一个排行榜，展示不同模型在TEOG数据集上的表现。此外，还介绍了评估方法和未来计划，包括增加模型评估、改进数据集和评估方法。

创建时间：

2024-08-06

原始信息汇总

TEOG Scores Leaderboard 数据集概述

数据集概述

数据集内容

数据集名称：TEOG Scores Leaderboard
数据集描述：该数据集包含在TEOG（Temel Eğitimden Ortaöğretime Geçiş）考试数据集上评估多种大型语言模型（LLMs）的结果。TEOG考试是土耳其用于高中入学的一种标准化考试，该数据集提供了一个评估LLMs在土耳其教育任务中表现的基准。
数据集文件：teog_2013_text.csv

数据集结构

问题类型：多项选择题
问题内容：
- 问题主干
- 多个答案选项
- 正确答案

评估方法

数据预处理：将TEOG问题格式化为与每个模型的输入要求兼容。
模型推理：每个模型在TEOG数据集上运行以生成每个问题的答案。
评分：将模型生成的答案与正确答案进行比较，计算准确率和总体TEOG分数。对于不能直接给出正确选择的模型，使用语义相似度进行更准确的计算。

未来计划

模型评估更新：持续评估更多模型并更新排行榜。
数据集增强：增加更多TEOG考试数据以增强数据集。
评估方法改进：改进评估方法以提高准确性。

许可证

许可证类型：Creative Commons Attribution 4.0 International (CC BY 4.0)
使用条款：
- 分享：以任何媒介或格式复制和重新分发材料。
- 适应：混合、转换和构建材料，用于任何目的，包括商业目的。
- 归属：必须给予适当的信用，提供许可证链接，并指出是否进行了更改。可以以任何合理的方式进行，但不得以任何方式暗示许可人认可您或您的使用。

搜集汇总

数据集介绍

构建方式

LLMs-Turkish-TEOG-Leaderboard数据集的构建基于土耳其TEOG（Temel Eğitimden Ortaöğretime Geçiş）考试的历年真题。该考试是土耳其用于高中入学的标准化测试，数据集包含了多项选择题的题干、选项及正确答案。数据预处理阶段，TEOG题目被格式化以适应不同大语言模型的输入要求，随后通过模型推理生成答案，并通过与正确答案的对比计算准确率和TEOG总分。对于无法直接给出正确答案的模型，采用语义相似度进行更精确的评分。

特点

该数据集的特点在于其专注于土耳其教育领域的标准化考试，为评估大语言模型在土耳其语教育任务中的表现提供了基准。数据集包含详细的TEOG考试题目，涵盖了多项选择题的完整结构，便于模型进行推理和评分。此外，数据集的评分方法结合了直接答案匹配和语义相似度计算，确保了对模型性能的全面评估。

使用方法

使用该数据集时，研究人员可以通过加载数据集中的CSV文件，获取TEOG考试的题目和答案。模型推理阶段，将题目输入到不同的大语言模型中，生成答案后与正确答案进行对比，计算准确率和TEOG总分。对于需要语义相似度计算的模型，可使用提供的代码进行更精确的评分。数据集的使用不仅限于模型性能评估，还可用于改进模型在土耳其语教育任务中的表现。

背景与挑战

背景概述

LLMs-Turkish-TEOG-Leaderboard数据集由M. Ali Bayram创建，旨在评估大型语言模型（LLMs）在土耳其教育任务中的表现，特别是针对TEOG（Temel Eğitimden Ortaöğretime Geçiş）考试。TEOG考试是土耳其用于高中入学的标准化测试，该数据集通过提供历年TEOG考试的多项选择题，为研究人员和开发者提供了一个基准平台，用于衡量LLMs在土耳其语教育任务中的能力。该数据集的创建不仅推动了土耳其自然语言处理（NLP）领域的发展，还为全球范围内的教育技术研究提供了宝贵的资源。

当前挑战

LLMs-Turkish-TEOG-Leaderboard数据集面临的主要挑战包括两个方面。首先，TEOG考试的多项选择题设计复杂，涉及广泛的学科知识，要求模型具备高水平的语言理解和推理能力。其次，在数据集的构建过程中，如何准确地将TEOG考试的题目格式转化为适合LLMs输入的格式，以及如何通过语义相似性计算模型答案的准确性，都是技术上的难点。此外，随着更多模型的加入和数据集规模的扩大，如何保持评估方法的一致性和公平性，也是未来需要持续解决的问题。

常用场景

经典使用场景

LLMs-Turkish-TEOG-Leaderboard数据集主要用于评估大型语言模型在土耳其教育任务中的表现，特别是在TEOG考试中的表现。TEOG考试是土耳其用于高中入学的标准化考试，该数据集通过提供历年考试的多项选择题，帮助研究人员和开发者测试和比较不同语言模型在土耳其语教育领域的准确性和适应性。

解决学术问题

该数据集解决了在土耳其语教育领域中缺乏标准化评估基准的问题。通过提供详细的TEOG考试题目和答案，研究人员能够系统地评估语言模型在土耳其语环境下的表现，从而推动土耳其语自然语言处理技术的发展。此外，该数据集还为教育技术领域的研究提供了宝贵的数据支持，帮助开发更智能的教育工具。

衍生相关工作

基于LLMs-Turkish-TEOG-Leaderboard数据集，已经衍生出多项经典研究工作。例如，研究人员利用该数据集开发了针对土耳其语教育的语言模型优化算法，进一步提升了模型在考试题目上的准确性。此外，该数据集还激发了更多关于土耳其语自然语言处理的研究，推动了该领域的技术进步和应用创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集