Cohere/BinaryVectorDB
收藏Hugging Face2024-03-26 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Cohere/BinaryVectorDB
下载链接
链接失效反馈官方服务:
资源简介:
该数据集提供了预构建的二进制向量数据库,包含了超过300种语言的维基百科数据。二进制向量数据库在处理大规模嵌入数据时可以显著节省内存和成本。英文维基百科由于其数据量较大,被分为两部分提供,用户需要下载并解压这两部分文件以加载完整的英文维基百科二进制向量数据库(包含4200万个嵌入)。
该数据集提供了预构建的二进制向量数据库,包含了超过300种语言的维基百科数据。二进制向量数据库在处理大规模嵌入数据时可以显著节省内存和成本。英文维基百科由于其数据量较大,被分为两部分提供,用户需要下载并解压这两部分文件以加载完整的英文维基百科二进制向量数据库(包含4200万个嵌入)。
提供机构:
Cohere
原始信息汇总
数据集概述
数据集名称
- Pre-build Binary Vector Databases
数据集内容
- Wikipedia 数据集,涵盖超过300种语言。
数据集文件
- 文件以
.zip格式提供,可下载并本地解压使用。 - 英语 Wikipedia 数据集由于其大小,分为两个部分:
wikipedia-2023-11-en-part-1.zipwikipedia-2023-11-en-part-2.zip
- 解压上述两个文件后,可加载英语 Wikipedia 的 Binary Vector Database,包含42M个嵌入。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



