Finance Massive Text Embedding Benchmark (FinMTEB)
收藏FinMTEB: 财经大规模文本嵌入基准
FinMTEB是一个财经领域的文本嵌入基准,包含以下关键信息:
-
数据集组成:包含64个财经领域特定文本数据集,涵盖英文和中文两种语言,涉及七个不同任务。
-
数据集来源:所有数据集要么之前用于金融NLP研究,要么由作者新开发。
-
论文链接:
-
排行榜:FinanceMTEB排行榜
-
使用方法:基于MTEB构建的基本流程。
-
新模型开源:开源了一个新的财经适配型LLM基础嵌入模型FinE5。
-
安装步骤: bash conda create -n finmteb python=3.10 git clone https://github.com/yixuantt/FinMTEB.git cd FinMTEB pip install -r requirements.txt
-
任务选择:提供7个任务和64个数据集,可根据需求选择。
-
运行基准测试: python from finance_mteb import MTEB task = "FinSTS" evaluation = MTEB(tasks=[task]) evaluation.run(model, output_folder=f"results/{model_name_or_path.split(/)[-1]}")
-
示例用法: bash python eval_FinanceMTEB.py --model_name_or_path BAAI/bge-en-icl --pooling_method last
-
引用信息:
@misc{tang2024needdomainspecificembeddingmodels, title={Do We Need Domain-Specific Embedding Models? An Empirical Investigation}, author={Yixuan Tang and Yi Yang}, year={2024}, eprint={2409.18511}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2409.18511}, }

- 1FinMTEB: Finance Massive Text Embedding Benchmark香港科技大学 · 2025年



