five

MTEB-PT (Massive Text Embedding Benchmark for Brazilian Portuguese)

收藏
github2026-06-29 更新2026-07-01 收录
下载链接:
https://github.com/tardellirs/mteb-pt
下载链接
链接失效反馈
官方服务:
资源简介:
MTEB-PT 是一个针对巴西葡萄牙语的文本嵌入模型公共基准数据集,包含22个来自原生巴西葡萄牙语源的任务,覆盖分类、多标签分类、对分类、STS、聚类、检索和重排等7种任务类型。数据集涉及仇恨言论、毒性、事实核查、法律、医疗、金融、科学、百科全书和编程文本等多个领域,所有任务均基于原生葡萄牙语构建,未使用机器翻译。
创建时间:
2026-06-08
原始信息汇总

数据集概述

MTEB-PT 是一个专为巴西葡萄牙语文本嵌入模型设计的公开基准测试套件,基于 mteb 库构建。

核心信息

任务详情

任务名称 任务类型 数据来源
HateBR 分类 Vargas et al. 2022 — 仇恨言论
ToxSynPT 分类 AKCIT — 毒性(葡萄牙语合成)
FactckBrClassification 分类 FACTCK.BR 事实核查声明
PortuLexRRIP 分类 PortuLex — 法律修辞角色识别(8类)
BrighterEmotionMultilabelClassification 多标签分类 BRIGHTER(多情感)
AssinRTE 句子对分类(NLI) Real et al. 2020
InferBR 句子对分类(NLI) Rodrigues et al. 2024
AssinSTS STS Real et al. 2020
Assin2STS STS ASSIN 2 (NILC)
WikipediaPTCategoriesClusteringP2P 聚类 维基百科派生(本基准)
MedPTClustering 聚类 AKCIT — 医学
JurisTCUClusteringP2P 聚类 TCU裁决(本基准)
SciELOClusteringP2P 聚类 SciELO摘要(本基准)
StackoverflowPtClustering 聚类 Stack Overflow em Português (CC-BY-SA)
Quati 检索 Bueno et al. 2024 — 50k子样本
JurisTCU 检索 Ribeiro et al. — TCU裁决
BRTaxQAR 检索 UNICAMP-DL — 税法问答
FaQuADIR 检索 Sayama et al. 2019 — 高等教育FAQ
MedPTRetrieval 检索 AKCIT — 医学
FaqBacenRetrieval 检索 巴西中央银行FAQ
QuatiReranking 重排序 Bueno et al. 2024 — BM25难负例
JurisTCUReranking 重排序 TCU裁决 — BM25难负例

使用与贡献

  • 快速启动:通过 pip install git+https://github.com/tardellirs/mteb-pt.git 安装。
  • 模型评估:支持单任务或全22任务套件评估,可断点续跑。
  • 模型提交:通过Hugging Face排行榜讨论区或GitHub Issue提交结果JSON和可复现命令。
  • 新任务提案:遵循原生PT-BR数据源、清晰许可、模型区分度准则,通过GitHub Issue模板提交。
  • 显著性检验:提供配对bootstrap p-value计算工具。

维护与引用

  • 维护者:Tardelli Stekel(巴西圣保罗联邦学院)。
  • 引用格式:建议引用 @misc{mteb-portuguese-2026} 及所用任务原始数据集。
搜集汇总
数据集介绍
main_image_url
构建方式
MTEB-PT基准测试集是在广泛使用的mteb库基础上,针对巴西北部葡萄牙语进行深入扩展构建而成。其构建核心在于收集并整合了来自原生葡萄牙语源(非机器翻译)的22个评估任务,涵盖分类、多标签分类、句子对分类、语义文本相似度、聚类、检索和重排序等七种主流文本嵌入评测类型。每个任务都通过封装器将原始数据集与特定版本哈希值绑定,确保可复现性。数据集来源广泛,包括仇恨言论、毒性检测、事实核查、法律、医疗、金融、科学、百科及编程文本等多个领域,所有数据均源自学术研究、公共机构或社区贡献的葡萄牙语原生语料库。
特点
该基准测试集的核心特点在于其纯粹的原生性——全部22项任务均使用巴西北部葡萄牙语原生数据构建,完全排除了机器翻译的干扰,从而真实反映了模型对该语言的理解能力。此外,数据集规模庞大,已对93个模型进行了评估,包括73个开源模型和20个商业API模型,覆盖了当前主流文本嵌入方案。每个任务均提供了详细的逐项分数、逐查询parquet文件以及可复现的评估脚本,便于研究者进行深入分析和比较。数据集采用Apache-2.0(代码)和CC-BY-4.0(结果)许可证发布,鼓励学术使用和二次开发。
使用方法
使用者可通过pip直接从GitHub安装mteb-pt包,利用Python接口轻松调用。评估流程简洁高效:首先导入mteb_pt.register模块以注册所有任务,随后使用mteb库加载指定模型和任务,调用evaluate函数即可完成单任务评估。如需运行完整的22项任务套件,可直接执行预制的run_mteb_por_v2.py脚本,该脚本支持断点续传功能,能够适应云端环境下的节点抢占。此外,基准测试提供了paired-bootstrap显著性检验工具,用于比较不同模型间的性能差异。研究者还可通过Hugging Face讨论区或GitHub问题提交新模型结果,并遵循任务提案模板提交候选新任务,以持续扩展该基准测试的覆盖范围。
背景与挑战
背景概述
MTEB-PT(Massive Text Embedding Benchmark for Brazilian Portuguese)是一项专为巴西葡萄牙语语境内文本嵌入模型评估而构建的公开基准,由巴西圣保罗联邦理工学院(IFSP)的研究员Tardelli Stekel于2026年创建。其核心研究问题在于填补多语言嵌入基准在低资源语言场景下的系统性缺失:尽管MTEB(Muennighoff等人,2023)已为英语提供丰富的评测框架,但巴西葡萄牙语作为全球逾2.5亿使用者的语言,长期缺乏原生、无机器翻译污染的标准化评测体系。该基准严格筛选22项源自巴西葡萄牙语原生的任务,涵盖分类、检索、聚类等7大MTEB任务类型,并已对93个模型(含73个开放权重模型与20个商业API模型)进行系统性评估。通过公开排行榜与可复现脚本,MTEB-PT为葡萄牙语自然语言处理社区设定了评估质量的参照标准,有力推动了多语言嵌入模型在巴西葡语场景的公平比较与性能优化。
当前挑战
该数据集直面两大维度的严峻挑战。领域任务层面,巴西葡萄牙语文本嵌入评估面临语料多样性高度分散的困境:评测体系需囊括仇恨言论、事实核查、法律裁决、医学文献、税务问答、科学摘要及编程社区等跨度极大的领域,每个领域对嵌入模型的语义粒度要求截然不同,传统单一指标难以全面刻画模型在多任务上的泛化能力。构建过程层面,基准创建者必须规避机器翻译带来的语义漂移,所有22项任务均源自巴西葡语原生语料库(如HateBR、Quati、JurisTCU等),需逐一核验语料授权许可(CC-BY-4.0或各数据集原生协议)并固定数据集修订哈希以确保可复现性。此外,面对日益增长的黑盒商业API模型(如20个已评估的闭源模型),基准引入手动验证流程以确认模型输出与官方端点一致,同时维持开源社区通过GitHub Issue与Hugging Face Discussion提交结果的社区协作治理结构,这进一步增加了基准维护的协调成本与评估结果的可信度管理难度。
常用场景
经典使用场景
在自然语言处理领域,文本嵌入模型的质量评估长期依赖英语或机器翻译的基准测试,这往往无法真实反映模型在目标语言上的表现。MTEB-PT作为首个专为巴西葡萄牙语构建的大规模文本嵌入基准,涵盖了22项源自本土语料的原生任务,跨越分类、聚类、检索、重排序等7种MTEB任务类型,能够在统一框架下系统性地衡量嵌入模型的语义表征能力。研究者可利用该基准对模型在仇恨言论检测、情感分类、法律文本检索、科技文献聚类等多维度场景下的表现进行公平对比,从而甄别出真正适配葡萄牙语特性的最优嵌入方案。
解决学术问题
此前学界对文本嵌入模型的评估普遍存在语言偏向,尤其低资源语言如巴西葡萄牙语的嵌入性能评测长期缺乏可信的标准化工具。MTEB-PT的推出从根本上填补了这一空白,它通过全部使用本土创作的语料而非机器翻译数据,解决了跨语言迁移评估中因数据人工合成而导致的偏差问题。该基准的发布促使学术界重新审视多语言嵌入模型在葡萄牙语环境下的真实能力,推动了语言特定型嵌入优化的理论探索,并为后续构建其他低资源语言的评测体系提供了可复现的方法论范本。
衍生相关工作
MTEB-PT的发布催生了一系列衍生研究工作。基于其公开的22个原生任务,研究者陆续开发出针对葡萄牙语文本嵌入的专项优化模型,并利用基准中的重排序任务探索了结合BM25硬负样本的增强训练策略。该基准还推动了跨语言嵌入模型的对比分析,例如在多语言模型(如multilingual-E5)与葡萄牙语专用模型之间进行细粒度的性能分解。此外,其丰富的聚类与检索任务数据被用于验证新型对比学习损失函数在低资源语言上的迁移效果,进一步丰富了多语言表示学习的理论体系。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务