five

LLMzSzŁ

收藏
arXiv2025-01-04 更新2025-01-08 收录
下载链接:
https://huggingface.co/datasets/amu-cai/llmzszl-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
LLMzSzŁ数据集是首个针对波兰语的大规模语言模型基准测试,由波兰中央考试委员会提供的国家考试题目构成,涵盖了154个领域的4种考试类型,共包含近19,000道选择题。数据集的设计旨在评估多语言、英语和波兰语大语言模型在语言间知识转移的能力,并探讨模型与人类在考试通过率和准确性上的相关性。数据集的内容包括中学、高中和职业考试题目,数据来源单一且权威,确保了数据的质量和一致性。该数据集的应用领域主要集中在大语言模型的性能评估,特别是在多语言环境下的知识转移和考试题目验证方面,旨在解决大语言模型在波兰语环境下的应用问题。

The LLMzSzŁ dataset is the first large-scale language model benchmark for the Polish language, composed of national examination questions provided by the Central Examination Commission of Poland. It covers 4 types of examinations across 154 domains, containing nearly 19,000 multiple-choice questions. This dataset is designed to evaluate the cross-lingual knowledge transfer capabilities of multilingual, English and Polish large language models (LLMs), and to explore the correlation between model performance and human performance in terms of exam pass rates and accuracy. The dataset includes questions from secondary school, high school and vocational examinations, with a single and authoritative data source to ensure data quality and consistency. Its application scenarios mainly focus on LLM performance evaluation, particularly cross-lingual knowledge transfer and exam question validation in multilingual environments, aiming to address the application challenges of LLMs in the Polish language context.
提供机构:
亚当·密茨凯维奇大学人工智能中心
创建时间:
2025-01-04
搜集汇总
数据集介绍
main_image_url
构建方式
LLMzSzŁ数据集的构建基于波兰国家考试的统一集合,涵盖了学术和职业考试。数据来源于波兰中央考试委员会的档案,确保了数据的权威性和一致性。通过筛选包含单一正确答案的封闭式问题,数据集最终包含了来自154个领域的近19,000道题目。数据提取过程中,使用了PyPDF库从PDF文件中提取文本,并通过手动匹配确保问题与答案的对应关系。数据清洗步骤进一步去除了异常数据,确保了数据集的高质量。
特点
LLMzSzŁ数据集的特点在于其多样性和层次性。数据集涵盖了初中、高中和职业考试三个层次,每个层次的题目难度和知识要求各不相同。职业考试的加入使得数据集能够评估模型在特定职业领域的实际应用能力。此外,数据集中的所有题目均以波兰语呈现,能够有效验证模型在跨语言知识迁移中的表现。数据集还记录了每道题目的发布时间,避免了数据污染对评估结果的影响。
使用方法
LLMzSzŁ数据集的使用方法主要包括模型评估和性能分析。通过使用开源的LM Evaluation Harness框架,研究人员可以配置任务并运行语言模型,计算模型对每道题目的回答概率,并与标准答案进行对比以计算准确率。数据集还可用于研究模型在不同语言、模型大小和发布时间下的表现差异,并进一步分析模型与人类考生在考试中的表现相关性。此外,数据集的应用还包括验证考试题目的难度和错误检测,为未来的考试设计提供参考。
背景与挑战
背景概述
LLMzSzŁ(LLMs Behind the School Desk)是首个针对波兰语的大规模语言模型基准测试数据集,由波兰亚当·密茨凯维奇大学人工智能中心的研究团队于2025年提出。该数据集基于波兰中央考试委员会(CKE)的全国性考试题库,涵盖了154个领域的近19,000道封闭式问题,涉及中学、高中及职业考试。LLMzSzŁ的创建旨在评估多语言、英语及波兰语语言模型在跨语言知识迁移中的表现,并探讨模型与人类在考试通过率和准确性上的相关性。该数据集不仅为波兰语的自然语言处理研究提供了重要资源,还为语言模型在考试验证中的应用开辟了新路径。
当前挑战
LLMzSzŁ数据集在构建和应用过程中面临多重挑战。首先,数据集的构建依赖于波兰中央考试委员会的考试题库,尽管这一来源具有权威性,但考试题目的格式和答案的不一致性增加了数据提取和清洗的难度,尤其是部分PDF文件缺乏文本层,需借助OCR工具进行处理。其次,数据集的核心研究问题在于评估语言模型在波兰语环境下的表现,尤其是跨语言知识迁移的能力,这对模型的泛化能力提出了较高要求。此外,数据集的时效性也是一个重要挑战,由于考试题目随时间更新,模型的表现可能受到数据污染的影响,需通过严格的时间戳管理来确保评估的准确性。最后,如何将模型的表现与人类考生的成绩进行有效对比,尤其是在开放性问题上的差异,仍需进一步研究。
常用场景
经典使用场景
LLMzSzŁ数据集作为波兰语大规模语言模型(LLM)的基准测试工具,广泛应用于评估多语言和单语言模型在波兰语环境下的表现。该数据集基于波兰国家考试的真实题目,涵盖了从初中到职业考试的多个层次,能够全面测试模型在不同领域的知识迁移能力和推理能力。通过该数据集,研究者可以验证模型在波兰语环境下的表现,尤其是在处理复杂问题和跨语言知识迁移时的效果。
实际应用
LLMzSzŁ数据集在实际应用中具有广泛的价值。首先,它可以用于教育领域,帮助评估和优化语言模型在波兰语考试中的表现,从而为教育机构提供更准确的考试评估工具。其次,该数据集还可以用于职业资格考试的准备和评估,帮助职业培训机构更好地理解模型在特定领域的表现。此外,该数据集还可以用于多语言模型的开发,帮助企业在多语言环境中优化其语言模型的表现。
衍生相关工作
LLMzSzŁ数据集的推出催生了一系列相关的研究工作。例如,基于该数据集的研究进一步探讨了多语言模型在波兰语环境下的表现,尤其是在处理复杂问题和跨领域知识时的表现。此外,该数据集还激发了更多针对波兰语的语言模型开发工作,推动了波兰语自然语言处理领域的发展。其他研究还利用该数据集进行了跨语言知识迁移的研究,进一步验证了多语言模型在处理低资源语言时的潜力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作