five

olmer/wiki_mpnet_index

收藏
Hugging Face2023-05-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/olmer/wiki_mpnet_index
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-sa-3.0 --- ## Semantic search over the 44 million of English Wikipedia paragraphs using sentence transformers encoder. The dataset contains: - 43 911 155 paragraphs from 6 458 670 wikipedia articles stored in a zip archive; - FAISS index with the embeddings; - Retriever module for semantic search over the paragraphs. The size of each paragraph varies from 20 to 2000 characters. The embedding vector size is 768. The index is 4-bit-quantized 2-level IVF16384_HNSW32 constructed with the [FAISS library](https://github.com/facebookresearch/faiss). Sentence encoder: [all-mpnet-base-v2](https://huggingface.co/sentence-transformers/all-mpnet-base-v2).
提供机构:
olmer
原始信息汇总

数据集概述

数据集内容

  • 段落数量:43,911,155个段落
  • 文章数量:来自6,458,670篇维基百科文章
  • 存储格式:压缩文件(zip)
  • FAISS索引:包含嵌入的FAISS索引
  • 检索模块:用于语义搜索的检索模块

数据集特性

  • 段落大小:每个段落大小介于20至2000个字符之间
  • 嵌入向量大小:768维
  • 索引结构:4位量化,2级IVF16384_HNSW32,使用FAISS库构建
  • 句子编码器:使用all-mpnet-base-v2模型

许可证

  • 使用许可:CC-BY-SA-3.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作