LLMzSzŁ|语言模型数据集|多语言处理数据集

arXiv2025-01-04 更新2025-01-08 收录

语言模型

多语言处理

下载链接：

https://huggingface.co/datasets/amu-cai/llmzszl-dataset

下载链接

链接失效反馈

资源简介：

LLMzSzŁ数据集是首个针对波兰语的大规模语言模型基准测试，由波兰中央考试委员会提供的国家考试题目构成，涵盖了154个领域的4种考试类型，共包含近19,000道选择题。数据集的设计旨在评估多语言、英语和波兰语大语言模型在语言间知识转移的能力，并探讨模型与人类在考试通过率和准确性上的相关性。数据集的内容包括中学、高中和职业考试题目，数据来源单一且权威，确保了数据的质量和一致性。该数据集的应用领域主要集中在大语言模型的性能评估，特别是在多语言环境下的知识转移和考试题目验证方面，旨在解决大语言模型在波兰语环境下的应用问题。

提供机构：

亚当·密茨凯维奇大学人工智能中心

创建时间：

2025-01-04

AI搜集汇总

数据集介绍

构建方式

LLMzSzŁ数据集的构建基于波兰国家考试的统一集合，涵盖了学术和职业考试。数据来源于波兰中央考试委员会的档案，确保了数据的权威性和一致性。通过筛选包含单一正确答案的封闭式问题，数据集最终包含了来自154个领域的近19,000道题目。数据提取过程中，使用了PyPDF库从PDF文件中提取文本，并通过手动匹配确保问题与答案的对应关系。数据清洗步骤进一步去除了异常数据，确保了数据集的高质量。

特点

LLMzSzŁ数据集的特点在于其多样性和层次性。数据集涵盖了初中、高中和职业考试三个层次，每个层次的题目难度和知识要求各不相同。职业考试的加入使得数据集能够评估模型在特定职业领域的实际应用能力。此外，数据集中的所有题目均以波兰语呈现，能够有效验证模型在跨语言知识迁移中的表现。数据集还记录了每道题目的发布时间，避免了数据污染对评估结果的影响。

使用方法

LLMzSzŁ数据集的使用方法主要包括模型评估和性能分析。通过使用开源的LM Evaluation Harness框架，研究人员可以配置任务并运行语言模型，计算模型对每道题目的回答概率，并与标准答案进行对比以计算准确率。数据集还可用于研究模型在不同语言、模型大小和发布时间下的表现差异，并进一步分析模型与人类考生在考试中的表现相关性。此外，数据集的应用还包括验证考试题目的难度和错误检测，为未来的考试设计提供参考。

背景与挑战

背景概述

LLMzSzŁ（LLMs Behind the School Desk）是首个针对波兰语的大规模语言模型基准测试数据集，由波兰亚当·密茨凯维奇大学人工智能中心的研究团队于2025年提出。该数据集基于波兰中央考试委员会（CKE）的全国性考试题库，涵盖了154个领域的近19,000道封闭式问题，涉及中学、高中及职业考试。LLMzSzŁ的创建旨在评估多语言、英语及波兰语语言模型在跨语言知识迁移中的表现，并探讨模型与人类在考试通过率和准确性上的相关性。该数据集不仅为波兰语的自然语言处理研究提供了重要资源，还为语言模型在考试验证中的应用开辟了新路径。

当前挑战

LLMzSzŁ数据集在构建和应用过程中面临多重挑战。首先，数据集的构建依赖于波兰中央考试委员会的考试题库，尽管这一来源具有权威性，但考试题目的格式和答案的不一致性增加了数据提取和清洗的难度，尤其是部分PDF文件缺乏文本层，需借助OCR工具进行处理。其次，数据集的核心研究问题在于评估语言模型在波兰语环境下的表现，尤其是跨语言知识迁移的能力，这对模型的泛化能力提出了较高要求。此外，数据集的时效性也是一个重要挑战，由于考试题目随时间更新，模型的表现可能受到数据污染的影响，需通过严格的时间戳管理来确保评估的准确性。最后，如何将模型的表现与人类考生的成绩进行有效对比，尤其是在开放性问题上的差异，仍需进一步研究。

常用场景

经典使用场景

LLMzSzŁ数据集作为波兰语大规模语言模型（LLM）的基准测试工具，广泛应用于评估多语言和单语言模型在波兰语环境下的表现。该数据集基于波兰国家考试的真实题目，涵盖了从初中到职业考试的多个层次，能够全面测试模型在不同领域的知识迁移能力和推理能力。通过该数据集，研究者可以验证模型在波兰语环境下的表现，尤其是在处理复杂问题和跨语言知识迁移时的效果。

实际应用

LLMzSzŁ数据集在实际应用中具有广泛的价值。首先，它可以用于教育领域，帮助评估和优化语言模型在波兰语考试中的表现，从而为教育机构提供更准确的考试评估工具。其次，该数据集还可以用于职业资格考试的准备和评估，帮助职业培训机构更好地理解模型在特定领域的表现。此外，该数据集还可以用于多语言模型的开发，帮助企业在多语言环境中优化其语言模型的表现。

衍生相关工作

LLMzSzŁ数据集的推出催生了一系列相关的研究工作。例如，基于该数据集的研究进一步探讨了多语言模型在波兰语环境下的表现，尤其是在处理复杂问题和跨领域知识时的表现。此外，该数据集还激发了更多针对波兰语的语言模型开发工作，推动了波兰语自然语言处理领域的发展。其他研究还利用该数据集进行了跨语言知识迁移的研究，进一步验证了多语言模型在处理低资源语言时的潜力。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

GAOKAO-Bench

GAOKAO-Bench是由复旦大学计算机科学与技术学院创建的数据集，涵盖了2010至2022年间中国高考的所有科目题目，共计2811题。该数据集包含1781道客观题和1030道主观题，题型多样，包括单选、填空、改错、开放性问题等。数据集通过自动化脚本和人工标注将PDF格式的题目转换为JSON文件，数学公式则转换为LATEX格式。GAOKAO-Bench旨在为大型语言模型提供一个全面且贴近实际应用的评估基准，特别是在解决中国高考相关问题上的表现。

arXiv 收录

Plants of the World Online (POWO)

Plants of the World Online (POWO) 是一个全球植物数据库，提供了关于植物物种的详细信息，包括分类学、分布、生态学和保护状态等。该数据库旨在为植物学家、生态学家和公众提供一个全面的植物信息资源。

powo.science.kew.org 收录

OECD - Education at a Glance

该数据集提供了关于教育系统在不同国家和地区的详细统计数据，包括教育支出、教育参与率、教育成果、教师资源等多个方面。数据涵盖了OECD成员国以及部分非成员国。

www.oecd.org 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

DIOR

“DIOR” 是用于光学遥感图像中对象检测的大规模基准数据集，该数据集由23,463图像和带有水平边界框注释的192,518对象实例组成。

OpenDataLab 收录