mcgillcomplex/wikipedia-2023-11-bge-large-en-v1.5
收藏Hugging Face2024-03-08 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/mcgillcomplex/wikipedia-2023-11-bge-large-en-v1.5
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
configs:
- config_name: en
data_files:
- split: train
path: en/*
---
# Multilingual Embeddings for Wikipedia
This dataset contains the [wikimedia/wikipedia](https://huggingface.co/datasets/wikimedia/wikipedia) dataset dump from 2023-11-01 from Wikipedia in all 300+ languages.
And chunked from the [Cohere/wikipedia-2023-11-embed-multilingual-v3](https://huggingface.co/datasets/Cohere/wikipedia-2023-11-embed-multilingual-v3).
The embedding model is [BAAI/bge-large-en-v1.5](https://huggingface.co/BAAI/bge-large-en-v1.5).
提供机构:
mcgillcomplex
原始信息汇总
多语言维基百科嵌入数据集
数据集概述
该数据集包含2023年11月1日的维基百科数据转储,涵盖300多种语言。
数据来源
- 原始数据来自wikimedia/wikipedia。
- 数据经过分割处理,源自Cohere/wikipedia-2023-11-embed-multilingual-v3。
嵌入模型
使用BAAI/bge-large-en-v1.5模型进行嵌入。



