下载链接：

https://modelscope.cn/datasets/lightonai/embeddings-pre-training

下载链接

链接失效反馈

官方服务：

资源简介：

本大规模数据集专为预训练当前顶尖的文本嵌入模型（text embedding models）打造，主要包含多样化的英文对比样本数据。 *** ## 数据集结构本数据集包含以下字段： * `query`：输入文本。 * `document`：对应的文档文本。 * `index`：每一行数据的唯一标识符。 * `drop`：布尔值，用于指示预训练阶段是否应排除该行数据。 * `duplicate`：若不为空，则包含查询与文档均重复的某一行的`index`。若一行存在多个重复项，应使用索引最小的重复项的`index`。 *** ## 推荐用法为实现最优的模型预训练效果，建议使用`drop`列为`False`且`duplicate`列为空的数据集子集。本数据集提供完整版本（包含标记为待排除及重复的行），以便逐步优化并分析数据清洗流程，当前仍处于开发阶段。可通过如下SQL语句筛选可用数据： sql SELECT index, query, document FROM lightonai/embeddings-pre-training WHERE NOT DROP AND DUPLICATE IS NULL 所有数据集均为`lightonai/embeddings-pre-training`下的独立配置项。若需加载特定数据集，需指定其配置名称与拆分方式，示例代码如下： python from datasets import load_dataset dataset = load_dataset( "lightonai/embeddings-pre-training", "wikihow", split="train", ) | 数据集名称 | MGTE训练（MGTE Training） | 语言 | 数据源 | | :---------------------------------- | :-----------------------: | :------------ | :----- | | agnews | ✅ | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/agnews) | | altlex | ✅ | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/altlex) | | amazon_qa | ✅ | 英语 | [nomic](https://huggingface.co/datasets/nomic-ai/nomic-embed-unsupervised-data) | | amazon_reviews | ✅ | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/amazon-reviews) | | arxiv_title_abstract | ✅ | 英语 | [universetdb](https://huggingface.co/datasets/UniverseTBD/arxiv-abstracts-large) | | beir_dbpedia | ✅ | 英语 | [beir](https://huggingface.co/datasets/BeIR/dbpedia-entity) | | biorxiv_title_abstract | ✅ | 英语 | [laion](https://huggingface.co/datasets/laion/biorXiv_metadata) | | cnn_dailymail | ✅ | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/embedding-training-data) | | codesearchnet | | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/codesearchnet) | | msmarco | ✅ | 英语 | [microsoft](https://huggingface.co/datasets/microsoft/ms_marco) | | cc_news_fr | ✅ | 法语 | [intfloat](https://huggingface.co/datasets/intfloat/multilingual_cc_news) | | cc_news_en | ✅ | 英语 | [nomic](https://huggingface.co/datasets/nomic-ai/nomic-embed-unsupervised-data) | | eli5 | | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/eli5) | | gooaq_qa | ✅ | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/embedding-training-data) | | hermes | | 英语 | [teknium](https://huggingface.co/datasets/teknium/OpenHermes-2.5) | | medrxiv_title_abstract | ✅ | 英语 | [mteb](https://huggingface.co/datasets/mteb/raw_medrxiv) | | nllb_eng_fra | | 跨语言 | [allenai](https://huggingface.co/datasets/allenai/nllb) | | npr | ✅ | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/npr) | | paq | | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/paq) | | reddit | ✅ | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/reddit) | | reddit_body_comment | ✅ | 英语 | [hf](https://huggingface.co/datasets/HuggingFaceGECLM/REDDIT_submissions), [pushshift](https://huggingface.co/datasets/fddemarco/pushshift-reddit-comments) | | s2orc_abstract_citation | ✅ | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/s2orc) | | s2orc_citation_titles | ✅ | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/s2orc) | | s2orc_title_abstract | ✅ | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/s2orc) | | sentence_compression | | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/sentence-compression) | | simplewiki | | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/simple-wiki) | | stackexchange_body_body | | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/stackexchange-duplicates) | | stackexchange_duplicate_questions | | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/stackexchange-duplicates) | | stackexchange_qa | ✅ | 英语 | [flax](https://huggingface.co/datasets/flax-sentence-embeddings/stackexchange_title_best_voted_answer_jsonl) | | stackexchange_title_body | ✅ | 英语 | [flax](https://huggingface.co/datasets/flax-sentence-embeddings/stackexchange_title_best_voted_answer_jsonl) | | stackoverflow_title_body | ✅ | 英语 | [flax](https://huggingface.co/datasets/flax-sentence-embeddings/stackexchange_title_best_voted_answer_jsonl) | | webfaq_eng | | 英语 | [padas-lab](https://huggingface.co/datasets/PaDaS-Lab/webfaq) | | webfaq_fra | | 法语 | [padas-lab](https://huggingface.co/datasets/PaDaS-Lab/webfaq) | | wikihow | ✅ | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/embedding-training-data) | | wikipedia | ✅ | 英语 | [wikimedia](https://huggingface.co/datasets/wikimedia/wikipedia) | | yahoo_answer | | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/embedding-training-data) | | yahoo_qa | ✅ | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/yahoo-answers/viewer/title-answer-pair) | | yahoo_question_body | ✅ | 英语 | [st](https://huggingface.co/datasets/sentence-transformers/embedding-training-data) | 若您希望为本数据集贡献内容，请发送邮件至raphael.sourty@lighton.ai与我联系。

应用场景：