olmer/wiki_mpnet_index
收藏Hugging Face2023-05-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/olmer/wiki_mpnet_index
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-sa-3.0
---
## Semantic search over the 44 million of English Wikipedia paragraphs using sentence transformers encoder.
The dataset contains:
- 43 911 155 paragraphs from 6 458 670 wikipedia articles stored in a zip archive;
- FAISS index with the embeddings;
- Retriever module for semantic search over the paragraphs.
The size of each paragraph varies from 20 to 2000 characters.
The embedding vector size is 768.
The index is 4-bit-quantized 2-level IVF16384_HNSW32 constructed with the [FAISS library](https://github.com/facebookresearch/faiss).
Sentence encoder: [all-mpnet-base-v2](https://huggingface.co/sentence-transformers/all-mpnet-base-v2).
提供机构:
olmer
原始信息汇总
数据集概述
数据集内容
- 段落数量:43,911,155个段落
- 文章数量:来自6,458,670篇维基百科文章
- 存储格式:压缩文件(zip)
- FAISS索引:包含嵌入的FAISS索引
- 检索模块:用于语义搜索的检索模块
数据集特性
- 段落大小:每个段落大小介于20至2000个字符之间
- 嵌入向量大小:768维
- 索引结构:4位量化,2级IVF16384_HNSW32,使用FAISS库构建
- 句子编码器:使用
all-mpnet-base-v2模型
许可证
- 使用许可:CC-BY-SA-3.0



