Global-MMLU-emb

Hugging Face2024-12-19 更新2024-12-20 收录

下载链接：

https://huggingface.co/datasets/JRQi/Global-MMLU-emb

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个带有查询嵌入的GlobalMMLU数据集，可以与多语言嵌入数据集一起用于多语言段落检索。数据集包含多种语言的测试数据文件，嵌入向量通过Cohere Embed v3计算。

创建时间：

2024-12-11

原始信息汇总

数据集描述

数据集概述

该数据集是GlobalMMLU的扩展版本，包含了查询嵌入（query embeddings）。该数据集可以与Multilingual Embeddings for Wikipedia in 300+ Languages联合使用，用于多语言段落检索。嵌入向量是通过Cohere Embed v3计算的。

数据集配置

数据集包含多个语言配置，每个配置对应一个测试集文件（test split），具体如下：

am: 测试集文件为 am.jsonl
ar: 测试集文件为 ar.jsonl
bn: 测试集文件为 bn.jsonl
cs: 测试集文件为 cs.jsonl
de: 测试集文件为 de.jsonl
el: 测试集文件为 el.jsonl
en: 测试集文件为 en.jsonl
es: 测试集文件为 es.jsonl
fa: 测试集文件为 fa.jsonl
fil: 测试集文件为 fil.jsonl
fr: 测试集文件为 fr.jsonl
ha: 测试集文件为 ha.jsonl
he: 测试集文件为 he.jsonl
hi: 测试集文件为 hi.jsonl
id: 测试集文件为 id.jsonl
ig: 测试集文件为 ig.jsonl
it: 测试集文件为 it.jsonl
ja: 测试集文件为 ja.jsonl
ko: 测试集文件为 ko.jsonl
ky: 测试集文件为 ky.jsonl
lt: 测试集文件为 lt.jsonl
mg: 测试集文件为 mg.jsonl
ms: 测试集文件为 ms.jsonl
ne: 测试集文件为 ne.jsonl
nl: 测试集文件为 nl.jsonl
ny: 测试集文件为 ny.jsonl
pl: 测试集文件为 pl.jsonl
pt: 测试集文件为 pt.jsonl
ro: 测试集文件为 ro.jsonl
ru: 测试集文件为 ru.jsonl
si: 测试集文件为 si.jsonl
sn: 测试集文件为 sn.jsonl
so: 测试集文件为 so.jsonl
sr: 测试集文件为 sr.jsonl
sv: 测试集文件为 sv.jsonl
sw: 测试集文件为 sw.jsonl
te: 测试集文件为 te.jsonl
tr: 测试集文件为 tr.jsonl
uk: 测试集文件为 uk.jsonl
vi: 测试集文件为 vi.jsonl
yo: 测试集文件为 yo.jsonl
zh: 测试集文件为 zh.jsonl

引用

如果使用该数据集，请引用如下： bibtex @misc{singh2024globalmmluunderstandingaddressing, title={Global MMLU: Understanding and Addressing Cultural and Linguistic Biases in Multilingual Evaluation}, author={Shivalika Singh and Angelika Romanou and Clémentine Fourrier and David I. Adelani and Jian Gang Ngui and Daniel Vila-Suero and Peerat Limkonchotiwat and Kelly Marchisio and Wei Qi Leong and Yosephine Susanto and Raymond Ng and Shayne Longpre and Wei-Yin Ko and Madeline Smith and Antoine Bosselut and Alice Oh and Andre F. T. Martins and Leshem Choshen and Daphne Ippolito and Enzo Ferrante and Marzieh Fadaee and Beyza Ermis and Sara Hooker}, year={2024}, eprint={2412.03304}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2412.03304}, }

搜集汇总

数据集介绍

构建方式

Global-MMLU-emb数据集的构建基于GlobalMMLU数据集，并通过Cohere Embed v3嵌入模型为每个查询生成了嵌入向量。这些嵌入向量与多语言维基百科嵌入数据集相结合，旨在支持多语言段落检索任务。数据集涵盖了多种语言，每种语言的测试数据以JSONL格式存储，便于跨语言的嵌入向量计算与应用。

特点

该数据集的显著特点在于其多语言覆盖广泛，支持超过30种语言的嵌入向量计算，且嵌入向量通过统一的Cohere Embed v3模型生成，确保了跨语言的一致性和可比性。此外，数据集的结构化存储方式（JSONL格式）使得数据加载和处理更加高效，适合用于多语言检索和相关自然语言处理任务。

使用方法

使用Global-MMLU-emb数据集时，用户可以将其与多语言维基百科嵌入数据集联合使用，以进行多语言段落检索。通过加载每种语言的测试数据文件，用户可以提取查询的嵌入向量，并利用这些向量进行相似度计算或检索任务。数据集的配置文件详细列出了每种语言的测试数据路径，便于用户快速定位和使用所需数据。

背景与挑战

背景概述

Global-MMLU-emb数据集是由CohereForAI团队于2024年推出的，旨在解决多语言评估中的文化与语言偏见问题。该数据集通过结合多语言嵌入技术，特别是Cohere Embed v3模型，提供了跨300多种语言的查询嵌入，从而支持多语言段落检索任务。主要研究人员包括Shivalika Singh、Angelika Romanou等，他们的研究不仅推动了多语言自然语言处理领域的发展，还为全球范围内的语言多样性提供了技术支持。

当前挑战

Global-MMLU-emb数据集面临的挑战主要集中在多语言环境下的文化与语言偏见问题上。构建过程中，研究人员需处理不同语言之间的语义差异、词汇多样性以及文化背景的复杂性，确保嵌入模型在各种语言中表现一致。此外，如何有效整合多语言嵌入与段落检索任务，以实现高效的多语言信息检索，也是该数据集面临的重要技术挑战。

常用场景

经典使用场景

Global-MMLU-emb数据集的经典使用场景主要集中在多语言文本检索领域。通过结合多语言嵌入技术，该数据集能够有效支持跨语言的文档检索任务。研究人员可以利用该数据集中的查询嵌入向量，结合多语言维基百科嵌入数据集，实现高效的多语言检索系统，从而在不同语言环境下提供精准的文本匹配服务。

实际应用

在实际应用中，Global-MMLU-emb数据集被广泛应用于多语言搜索引擎、跨语言知识库检索以及多语言问答系统等领域。例如，在跨国企业的内部知识管理系统中，该数据集可以帮助员工在不同语言环境下快速找到相关文档；在多语言问答系统中，它能够提升系统对用户查询的理解能力，提供更精准的答案。

衍生相关工作

基于Global-MMLU-emb数据集，研究人员开发了多种多语言检索模型和算法，进一步推动了多语言信息检索领域的发展。例如，有研究者利用该数据集中的嵌入向量，提出了新的跨语言相似度计算方法，显著提升了检索性能。此外，该数据集还激发了关于多语言嵌入技术在自然语言处理其他任务中的应用研究，如多语言文本分类和机器翻译等。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集