five

mcgillcomplex/wikipedia-2023-11-bge-large-en-v1.5

收藏
Hugging Face2024-03-08 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/mcgillcomplex/wikipedia-2023-11-bge-large-en-v1.5
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - en configs: - config_name: en data_files: - split: train path: en/* --- # Multilingual Embeddings for Wikipedia This dataset contains the [wikimedia/wikipedia](https://huggingface.co/datasets/wikimedia/wikipedia) dataset dump from 2023-11-01 from Wikipedia in all 300+ languages. And chunked from the [Cohere/wikipedia-2023-11-embed-multilingual-v3](https://huggingface.co/datasets/Cohere/wikipedia-2023-11-embed-multilingual-v3). The embedding model is [BAAI/bge-large-en-v1.5](https://huggingface.co/BAAI/bge-large-en-v1.5).
提供机构:
mcgillcomplex
原始信息汇总

多语言维基百科嵌入数据集

数据集概述

该数据集包含2023年11月1日的维基百科数据转储,涵盖300多种语言。

数据来源

嵌入模型

使用BAAI/bge-large-en-v1.5模型进行嵌入。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作