five

Cohere/BinaryVectorDB

收藏
Hugging Face2024-03-26 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Cohere/BinaryVectorDB
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集提供了预构建的二进制向量数据库,包含了超过300种语言的维基百科数据。二进制向量数据库在处理大规模嵌入数据时可以显著节省内存和成本。英文维基百科由于其数据量较大,被分为两部分提供,用户需要下载并解压这两部分文件以加载完整的英文维基百科二进制向量数据库(包含4200万个嵌入)。

该数据集提供了预构建的二进制向量数据库,包含了超过300种语言的维基百科数据。二进制向量数据库在处理大规模嵌入数据时可以显著节省内存和成本。英文维基百科由于其数据量较大,被分为两部分提供,用户需要下载并解压这两部分文件以加载完整的英文维基百科二进制向量数据库(包含4200万个嵌入)。
提供机构:
Cohere
原始信息汇总

数据集概述

数据集名称

  • Pre-build Binary Vector Databases

数据集内容

  • Wikipedia 数据集,涵盖超过300种语言。

数据集文件

  • 文件以 .zip 格式提供,可下载并本地解压使用。
  • 英语 Wikipedia 数据集由于其大小,分为两个部分:
    • wikipedia-2023-11-en-part-1.zip
    • wikipedia-2023-11-en-part-2.zip
  • 解压上述两个文件后,可加载英语 Wikipedia 的 Binary Vector Database,包含42M个嵌入。
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作