FaMTEB

Name: FaMTEB
Creator: Sharif University of Technology
Published: 2025-02-17 17:05:21
License: 暂无描述

arXiv2025-02-17 更新2025-02-19 收录

下载链接：

https://huggingface.co/spaces/mteb/leaderboard

下载链接

链接失效反馈

官方服务：

资源简介：

FaMTEB是一个大规模的波斯语文本嵌入基准，由Sharif University of Technology创建。该数据集包含63个数据集，涵盖7个任务，包括分类、聚类、成对分类、重排、检索、摘要检索和语义文本相似度。数据集由现有数据、翻译数据和通过大型语言模型生成的新合成数据组合而成，为波斯语语言模型提供了多样化的评估框架。

FaMTEB is a large-scale Persian text embedding benchmark developed by Sharif University of Technology. It comprises 63 datasets covering 7 tasks, namely classification, clustering, pairwise classification, reranking, retrieval, summarization retrieval, and semantic textual similarity. The dataset is assembled from existing data, translated data, and newly synthesized data generated by large language models, offering a diversified evaluation framework for Persian language models.

提供机构：

Sharif University of Technology

创建时间：

2025-02-17

搜集汇总

数据集介绍

构建方式

FaMTEB 数据集的构建基于现有的 MTEB 数据集，并针对波斯语进行了扩展和优化。数据集包含了 63 个数据集，涵盖了分类、聚类、成对分类、重排、检索、摘要检索和语义文本相似性等七个不同的任务。数据集的构建采用了三种主要方法：基于网络的收集、现有英文数据集的翻译和通过大型语言模型生成的合成数据。为了确保数据集的质量和可靠性，所有数据集都经过了独立的评估。

特点

FaMTEB 数据集具有以下特点：首先，数据集规模庞大，包含了 63 个数据集，涵盖了七个不同的 NLP 任务，为波斯语文本嵌入模型的评估提供了全面的框架。其次，数据集类型多样，包括分类、聚类、成对分类、重排、检索、摘要检索和语义文本相似性等任务，能够评估模型在多种 NLP 任务上的性能。此外，数据集还包含了与聊天机器人挑战和 RAG 系统相关的数据集，为评估这些系统提供了支持。

使用方法

FaMTEB 数据集的使用方法包括以下步骤：首先，选择适合特定任务的数据集。其次，使用合适的方法对模型进行训练和评估。最后，根据评估结果选择最合适的文本嵌入模型。为了方便使用，FaMTEB 数据集还提供了代码和公开排行榜，用户可以通过排行榜查看不同模型的性能表现。

背景与挑战

背景概述

文本嵌入模型旨在生成文本的语义向量表示，这在处理自然语言处理（NLP）任务（如聚类、分类、语义文本相似性（STS）、信息检索（IR）等方面非常有用。为了评估模型在这些任务上的性能，大多数现有的基准是特定任务的，无法评估模型在多个任务上的能力。例如，像Dense Passage Retrieval（DPR）这样的信息检索模型可能在检索任务上表现良好，但在语义文本相似性（STS）任务上无法取得满意的结果。为了解决这一局限性，大规模文本嵌入基准（MTEB）(Muennighoff等人，2023年)引入了一个跨越八个不同NLP任务的全面评估套件，有效地满足了英语文本嵌入模型的评估需求。然而，由于该基准的主要重点是英语，因此它无法充分评估模型在波斯语等低资源语言上的性能。在这项工作中，我们引入了FaMTEB，这是一个大型波斯语基准，用于评估波斯语文本嵌入模型，使用户能够为其特定任务选择最合适的文本嵌入模型。该基准包括7个任务中的63个数据集，我们比较了15个现有波斯语或多语言语言模型在它上面的性能。其中，24个数据集在波斯语中预先存在，而我们有39个新的数据集。新引入的数据集是使用三种不同的方法开发的：基于网络的收集（4个数据集）、现有英语数据集的翻译（16个数据集）以及通过大型语言模型（LLMs）作为合成数据集（19个数据集）。所有数据集的质量都已独立评估，以确保可靠性。为了评估文本嵌入模型在各种NLP任务中的泛化能力，有必要在多样化的问题上进行全面评估。由于文本嵌入模型的主要和最近非常流行的应用之一是在检索增强生成（RAG）系统和聊天机器人中，因此新策划的数据集的一部分专门用于评估这些系统。这在基准测试中是首次探索。波斯语是网络中资源较少的语言之一，收集相关且高质量的数据并不容易获得。在本文中，我们突出了这项工作的主要贡献：1)引入了FaMTEB，这是一个大型波斯语基准，用于评估波斯语文本嵌入模型；2)引入了大量新的波斯语数据集，适用于NLP领域的训练和评估，其中一些以前没有对应的波斯语数据集；3)引入了摘要检索这一新任务，这是MTEB中未包含的8个任务之一；4)引入了与聊天机器人挑战和RAG系统相关的几个数据集，这些数据集首次被纳入MTEB基准。

当前挑战

尽管波斯语自然语言处理（NLP）取得了进展，但人类注释数据集的可用性仍然有限。这种数据的稀缺性对在各种NLP任务中训练和评估高质量模型构成了重大挑战。解决这一局限性需要付出大量努力，构建适合不同语言问题的多样化和代表性的数据集。这一挑战在语义文本相似性、重排序和摘要等任务中尤为明显，在这些任务中，高质量标记数据对于实现可靠性能至关重要。由于评估提供API的文本嵌入模型（如text-embedding-3-large）的高成本，以及为一些其他开源文本嵌入模型提供服务和评估的资源密集型性质，我们尚未将某些模型纳入排行榜。我们正在逐步添加这些模型。

常用场景

经典使用场景

FaMTEB数据集主要用于评估波斯语文本嵌入模型在多种自然语言处理任务上的性能。这些任务包括分类、聚类、配对分类、重排、检索、摘要检索和语义文本相似度。数据集的构建基于现有数据、翻译数据和新生成的数据，为波斯语语言模型提供了一个多样化的评估框架。FaMTEB数据集特别适合用于评估在聊天机器人和检索增强生成系统中的文本嵌入模型。这些模型在聊天机器人和RAG系统中的应用日益广泛，因此评估数据集成为这些挑战中不可或缺的组成部分。

衍生相关工作

FaMTEB数据集的发布促进了波斯语NLP领域的研究。它为研究人员提供了一个全面的基准，用于评估和比较不同文本嵌入模型的性能。此外，该数据集的构建方法和评估策略也为其他语言NLP基准的构建提供了参考。FaMTEB数据集的发布推动了波斯语NLP领域的研究进展，为开发更先进的波斯语语言模型和应用提供了重要的资源。

数据集最近研究