Global-MMLU-Lite

Name: Global-MMLU-Lite
Creator: Cohere For AI
Published: 2024-12-12 22:00:30
License: 暂无描述

Hugging Face2024-12-12 更新2024-12-13 收录

下载链接：

https://huggingface.co/datasets/CohereForAI/Global-MMLU-Lite

下载链接

链接失效反馈

官方服务：

资源简介：

Global-MMLU-Lite是一个多语言评估数据集，涵盖15种语言，包括英语。它是原始Global-MMLU数据集的精简版本，每种语言包含200个文化敏感（CS）和200个文化无关（CA）样本。该数据集的样本是原始Global-MMLU数据集中完全人工翻译或后期编辑的样本。数据集由Cohere For AI社区的专业注释者和贡献者策划。它包含多个数据字段，如sample_id、subject、subject_category、question、选项（a、b、c、d）、answer、required_knowledge、time_sensitive、reference、culture、region、country、cultural_sensitivity_label和is_annotated。该数据集支持多种语言，并采用Apache 2.0许可证。

提供机构：

Cohere For AI

创建时间：

2024-12-12

原始信息汇总

数据集概述

数据集名称

Global-MMLU-Lite

数据集简介

Global-MMLU-Lite 是一个多语言评估数据集，涵盖15种语言，包括英语。它是原始 Global-MMLU 数据集的精简版本。该数据集包含每种语言的200个文化敏感（CS）和200个文化无关（CA）样本。

数据集特点

语言数量: 15种语言
样本类型: 每种语言包含200个文化敏感（CS）和200个文化无关（CA）样本
数据来源: 由 Cohere For AI Community 的专业标注者和贡献者精心策划
许可证: Apache 2.0

数据集配置

数据集包含以下语言配置：

ar (阿拉伯语)
bn (孟加拉语)
de (德语)
en (英语)
es (西班牙语)
fr (法语)
hi (印地语)
id (印度尼西亚语)
it (意大利语)
ja (日语)
ko (韩语)
pt (葡萄牙语)
sw (斯瓦希里语)
yo (约鲁巴语)
zh (中文)

数据字段

每个数据字段在所有拆分中都是相同的，具体描述如下：

sample_id: 问题的唯一标识符
subject: 问题所属的主要主题
subject_category: 主题所属的高级类别（如STEM、人文学科、社会科学、医学、商业、其他）
question: 从MMLU翻译过来的问题
option_a: 可能的选项之一
option_b: 可能的选项之一
option_c: 可能的选项之一
option_d: 可能的选项之一
answer: 正确答案（A/B/C/D）
required_knowledge: 标注者投票决定回答问题所需的知识（可能的值包括：“cultural”, “regional”, “dialect” 或 “none”）
time_sensitive: 标注者投票指示问题的答案是否与时间相关（可能的值包括：Yes/No）
reference: 标注问题中包含文化/地区/方言引用的部分
culture: 标注问题所属的文化
region: 问题相关的地理区域
country: 问题涉及的具体国家
cultural_sensitivity_label: 标注者投票决定问题是否具有文化敏感性（CS）或文化无关性（CA）
is_annotated: 指示样本是否包含文化偏差研究的标注

数据拆分

数据集包含以下拆分：

test: 6,000个实例，覆盖15种语言
dev: 4,275个实例，覆盖15种语言

数据实例

以下是 test 集中的一个示例： json { sample_id: astronomy/test/58, subject: astronomy, subject_category: STEM, question: When traveling north from the United States into Canada you’ll see the North Star (Polaris) getting _________., option_a: Brighter, option_b: Dimmer, option_c: Higher in the sky, option_d: Lower in the sky, answer: C, required_knowledge: "[regional, regional, regional, regional]", time_sensitive: "[No, No, No, No]", reference: "[{end: 55, label: Geographic, score: None, start: 5}, {end: 43, label: Geographic, score: None, start: 30}, {end: 55, label: Geographic, score: None, start: 5}]" }

搜集汇总

数据集介绍

构建方式

Global-MMLU-Lite数据集的构建基于原始Global-MMLU数据集，涵盖了15种语言，包括英语。该数据集包含200个文化敏感（CS）和200个文化无关（CA）样本，每个语言版本均由专业翻译人员进行翻译或后期编辑。数据集的构建过程中，确保了每个样本在不同语言中的对应性，并保留了原始数据集的文化敏感性和区域相关性标注。

特点

Global-MMLU-Lite数据集的主要特点在于其多语言覆盖和样本的文化敏感性标注。每个样本不仅包含问题和选项，还附带了关于所需知识、时间敏感性、文化参考、区域和国家的详细标注。这些标注由多个注释者提供，确保了数据的多样性和准确性。此外，数据集分为测试集和开发集，分别包含6,000和4,275个实例，适用于多语言模型的评估和训练。

使用方法

使用Global-MMLU-Lite数据集时，可以通过Hugging Face的`datasets`库进行加载。首先，安装`datasets`库，然后使用`load_dataset`函数加载所需语言的数据集。数据集可以转换为Pandas DataFrame格式，便于进一步的数据处理和分析。对于包含多个注释者标注的字段，如`required_knowledge`和`time_sensitive`，可以通过Python的`ast`模块将字符串转换为列表，以便更方便地进行数据操作。

背景与挑战

背景概述

Global-MMLU-Lite数据集是由Cohere For AI社区的专业注释者和贡献者精心构建的多语言评估数据集，涵盖了15种语言，其中包括英语。该数据集是原始Global-MMLU数据集的精简版本，专注于文化敏感（CS）和文化无关（CA）样本，每种语言包含200个CS和200个CA样本。其核心研究问题在于评估多语言模型在不同文化背景下的表现，尤其是文化敏感性对模型性能的影响。该数据集的创建旨在推动多语言自然语言处理领域的研究，特别是在跨文化理解和模型泛化能力方面。

当前挑战

Global-MMLU-Lite数据集面临的挑战主要集中在多语言和文化敏感性评估上。首先，构建过程中需要确保每种语言的翻译质量和文化相关性，这要求注释者具备高度的语言和文化敏感性。其次，数据集需要处理不同文化背景下的知识需求和时间敏感性问题，这增加了注释和评估的复杂性。此外，如何在不同语言和文化之间保持一致的评估标准也是一个重要挑战。最后，数据集的规模和多样性要求模型具备强大的跨语言泛化能力，这对模型的设计和训练提出了更高的要求。

常用场景

经典使用场景

Global-MMLU-Lite数据集的经典使用场景主要集中在多语言知识评估和跨文化敏感性分析。研究者可以利用该数据集对不同语言背景下的知识掌握情况进行评估，尤其是通过对比文化敏感性问题与文化无关问题的回答准确率，深入探讨语言模型在跨文化环境中的表现。

衍生相关工作

基于Global-MMLU-Lite数据集，研究者已开展了一系列关于多语言模型性能评估和文化敏感性分析的工作。例如，有研究通过该数据集评估了不同语言模型在文化敏感问题上的表现差异，并提出了改进模型跨文化适应性的方法。此外，该数据集还为多语言教育领域的研究提供了丰富的数据支持。

数据集最近研究