EXAMS

Name: EXAMS
Creator: 索非亚大学“圣克莱门特奥赫里斯基”, 保加利亚
Published: 2020-11-06 04:06:50
License: 暂无描述

arXiv2020-11-06 更新2024-06-21 收录

下载链接：

http://github.com/mhardalov/exams-qa

下载链接

链接失效反馈

官方服务：

资源简介：

EXAMS是一个多学科高中考试数据集，用于跨语言和多语言问答。该数据集由保加利亚索非亚大学创建，包含超过24,000个高质量的高中考试问题，涵盖16种语言，覆盖8个语言家族和24个学科，包括自然科学和社会科学。EXAMS提供了一个细粒度的评估框架，允许对各种模型进行精确分析和比较。数据集旨在解决在多种语言中进行科学问答的挑战，促进多语言知识和多领域推理的研究。

EXAMS is a multi-disciplinary high school exam dataset developed for cross-lingual and multilingual question answering. Created by Sofia University in Bulgaria, this dataset contains over 24,000 high-quality high school exam questions spanning 16 languages across 8 language families and 24 disciplines, including natural sciences and social sciences. EXAMS offers a fine-grained evaluation framework that enables precise analysis and comparison of diverse models. It aims to address the challenges of scientific question answering across multiple languages and promote research on multilingual knowledge and multi-domain reasoning.

提供机构：

索非亚大学“圣克莱门特奥赫里斯基”, 保加利亚

创建时间：

2020-11-06

搜集汇总

数据集介绍

构建方式

在跨语言问答研究领域，高质量多语言数据集的稀缺性长期制约着模型的发展。EXAMS数据集的构建过程体现了严谨的学术方法，其核心是从多个国家的官方高中毕业考试中系统性地收集原始试题。研究团队首先识别并下载了涵盖16种语言的公开考试PDF文档，随后利用正则表达式进行自动化解析，提取出问题、选项及正确答案。为确保数据的纯文本可答性，他们通过人工筛选移除了所有包含图表、地图等视觉信息的题目，并进行了严格的数据清洗与校验，最终过滤掉约17%质量不佳的样本。此外，为避免选项顺序带来的偏差，所有题目的选项均经过随机打乱处理。这一构建流程不仅保证了数据来源的权威性与专业性，也使其在规模上达到了24,000余道题目，远超同类科学问答数据集。

特点

EXAMS数据集在跨语言与多语言科学问答基准中展现出若干鲜明特征。其最突出的优势在于语言与学科覆盖的广度与深度：数据集囊括了16种分属8个不同语系的语言，并涵盖了自然科学、社会科学及其他应用学科在内的24个高中科目。题目均由教育专家命题，源自高中毕业会考，因此具备较高的认知难度与专业性，区别于由众包或翻译生成的简单问题。数据集内部包含了近万对平行问题，分布于七种语言之间，为研究跨语言知识迁移提供了天然实验场。此外，EXAMS支持细粒度的评估框架，允许研究者按具体语言和学科进行精确的模型性能分析与对比，从而深入洞察模型在不同知识领域的表现差异。

使用方法

EXAMS数据集为评估和推进多语言问答模型提供了标准化的实验框架。研究者主要可在两种设定下使用该数据集：多语言评估与跨语言零样本迁移评估。在多语言设定中，模型在混合了多种语言的训练集上进行微调，并在对应的多语言测试集上评估其综合性能。在跨语言设定中，模型仅在单一源语言的数据上训练，而后直接在其他未见过的目标语言测试集上进行零样本测试，以检验其知识迁移能力。数据集已预先划分为训练集、开发集和测试集，并确保了平行问题不会在不同分割间泄露答案。实验通常采用准确率作为核心评估指标，并可结合数据集提供的按学科和语言的细粒度结果进行深入分析，以揭示模型在特定知识领域或语言家族中的优势与不足。

背景与挑战

背景概述

EXAMS数据集由保加利亚索非亚大学、德国海德堡大学及卡塔尔计算研究所的研究团队于2020年共同创建，旨在为跨语言与多语言问答研究提供高质量基准。该数据集汇集了涵盖16种语言、8个语系及24个学科的高中考试题目，总计超过24,000道专家编写题目，聚焦于自然科学与社会科学等多元领域。其核心研究问题在于推动多语言环境下科学问答的推理与知识迁移能力，弥补非英语资源稀缺的空白，为全球教育评估与语言智能模型的发展提供了关键数据支撑。

当前挑战

EXAMS数据集所解决的领域问题在于跨语言科学问答，其挑战主要体现在多语言知识检索与复杂推理的融合。具体而言，题目涉及物理、化学等学科的专业模型理解与多步演算，要求模型具备跨语系的知识对齐与领域事实的深层解析能力。在构建过程中，研究团队面临多语言数据收集与清洗的复杂性，包括从各国教育机构获取非标准化考试材料、处理语言间的假朋友现象与专业术语差异，并需通过人工审核确保题目质量，同时建立平衡的数据划分以支持跨语言评估框架。

常用场景

经典使用场景

在跨语言与多语言问答研究领域，EXAMS数据集作为一项重要基准，其经典应用场景聚焦于评估模型在多种语言环境下处理高中水平科学问题的能力。该数据集涵盖了16种语言、24个学科，超过24,000道由教育专家设计的高质量多选题，为研究者提供了一个细粒度的评估框架。通过这一框架，模型能够在自然科学与社会科学等多元学科背景下进行跨语言知识迁移与推理能力的测试，从而推动多语言预训练模型在复杂学术语境中的性能优化与比较分析。

衍生相关工作

EXAMS数据集的发布催生了一系列相关经典研究，尤其是在多语言预训练模型的优化与评估方面。例如，基于该数据集，研究者进一步探索了XLM-R和mBERT等模型在跨语言零样本迁移中的表现，揭示了语言亲缘性与学科知识对齐对模型性能的影响。同时，该数据集也启发了对细粒度评估方法的发展，如按学科与语言组合的分析框架，这些工作为后续多语言问答基准（如XTREME）的构建提供了重要参考，推动了该领域向更复杂、更多元的方向演进。

数据集最近研究