embeddings-pre-training-test

Name: embeddings-pre-training-test
Creator: maas
Published: 2025-12-03 17:29:32
License: 暂无描述

魔搭社区2025-12-03 更新2025-09-06 收录

下载链接：

https://modelscope.cn/datasets/lightonai/embeddings-pre-training-test

下载链接

链接失效反馈

官方服务：

资源简介：

本大规模数据集汇聚了多样化的对比预训练数据，专为研发顶尖水平的文本嵌入模型（text embedding models）而精心甄选整理。该数据集集合以英文为主，同时纳入多套法语数据集，以支持双语及跨语言研究工作。 | 数据集名称 | MGTE训练 | 语言 | 来源 | | :---------------------------------- | :-----------: | :------------ | :----- | | agnews | ✅ | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/agnews) | | altlex | | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/altlex) | | amazon_qa | ✅ | 英语 | [nomic](https://huggingface.co/datasets/nomic-ai/nomic-embed-unsupervised-data) | | amazon_reviews | | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/amazon-reviews) | | arxiv_title_abstract | ✅ | 英语 | [universetdb](https://huggingface.co/datasets/UniverseTBD/arxiv-abstracts-large) | | beir_dbpedia | ✅ | 英语 | [beir](https://huggingface.co/datasets/BeIR/dbpedia-entity) | | biorxiv_title_abstract | ✅ | 英语 | [laion](https://huggingface.co/datasets/laion/biorXiv_metadata) | | cnn_dailymail | ✅ | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/embedding-training-data) | | codesearchnet | | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/codesearchnet) | | cc_news_fr | | 法语 | [intfloat](https://huggingface.co/datasets/intfloat/multilingual_cc_news) | | cc_news_en | | 英语 | [nomic](https://huggingface.co/datasets/nomic-ai/nomic-embed-unsupervised-data) | | eli5 | | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/eli5) | | gooaq_qa | ✅ | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/embedding-training-data) | | medrxiv_title_abstract | ✅ | 英语 | [mteb](https://huggingface.co/datasets/mteb/raw_medrxiv) | | nllb_eng_fra | | 跨语言 | [allenai](https://huggingface.co/datasets/allenai/nllb) | | npr | ✅ | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/npr) | | paq | | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/paq) | | reddit | ✅ | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/reddit) | | s2orc_abstract_citation | | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/s2orc) | | s2orc_citation_titles | ✅ | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/s2orc) | | s2orc_title_abstract | ✅ | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/s2orc) | | sentence_compression | | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/sentence-compression) | | simplewiki | | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/simple-wiki) | | stackexchange_body_body | | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/stackexchange-duplicates) | | stackexchange_duplicate_questions | | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/stackexchange-duplicates) | | stackexchange_qa | ✅ | 英语 | [flax](https://huggingface.co/datasets/flax-sentence-embeddings/stackexchange_title_best_voted_answer_jsonl) | | stackexchange_title_body | ✅ | 英语 | [flax](https://huggingface.co/datasets/flax-sentence-embeddings/stackexchange_title_best_voted_answer_jsonl) | | stackoverflow_title_body | ✅ | 英语 | [flax](https://huggingface.co/datasets/flax-sentence-embeddings/stackexchange_title_best_voted_answer_jsonl) | | webfaq_eng | | 英语 | [padas-lab](https://huggingface.co/datasets/PaDaS-Lab/webfaq) | | webfaq_fra | | 法语 | [padas-lab](https://huggingface.co/datasets/PaDaS-Lab/webfaq) | | wikihow | ✅ | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/embedding-training-data) | | yahoo_answer | | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/embedding-training-data) | | yahoo_qa | ✅ | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/yahoo-answers/viewer/title-answer-pair) | | yahoo_question_body | ✅ | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/embedding-training-data) |

提供机构：

maas

创建时间：

2025-08-27

搜集汇总

数据集介绍