olmer/wiki_mpnet_embeddings
收藏Hugging Face2023-05-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/olmer/wiki_mpnet_embeddings
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是基于英文维基百科段落的嵌入表示,使用了all-mpnet-base-v2句子转换器编码器。数据集包含来自6,458,670篇维基百科文章的43,911,155个段落,每个段落的长度在20到2000个字符之间。每个段落都有一个大小为768的嵌入表示,嵌入数据存储在numpy文件中,每个文件包含1,000,000个嵌入。此外,每个嵌入文件都有一个对应的ids文件,包含相应段落的id列表。数据集的总大小为151Gb。
该数据集是基于英文维基百科段落的嵌入表示,使用了all-mpnet-base-v2句子转换器编码器。数据集包含来自6,458,670篇维基百科文章的43,911,155个段落,每个段落的长度在20到2000个字符之间。每个段落都有一个大小为768的嵌入表示,嵌入数据存储在numpy文件中,每个文件包含1,000,000个嵌入。此外,每个嵌入文件都有一个对应的ids文件,包含相应段落的id列表。数据集的总大小为151Gb。
提供机构:
olmer
原始信息汇总
数据集概述
基本信息
- 许可证: cc-by-sa-3.0
- 任务类别: 文本检索
- 语言: 英语
- 数据集名称: Wikpedia Paragraphs MPNet Embeddings
数据内容
- 来源: 英语维基百科
- 数据量: 包含43,911,155个段落,来自6,458,670篇文章
- 段落长度: 20至2000个字符
- 嵌入维度: 每个段落的嵌入大小为768
- 存储格式: 嵌入数据存储在numpy文件中,每文件包含1,000,000个嵌入
- 附加信息: 每个嵌入文件对应一个ids文件,包含相应段落的id列表
数据集大小
- 总大小: 151GB



