nomic-embed-v2-wikivecs
收藏魔搭社区2025-03-14 更新2025-03-15 收录
下载链接:
https://modelscope.cn/datasets/nomic-ai/nomic-embed-v2-wikivecs
下载链接
链接失效反馈官方服务:
资源简介:
This dataset contains vectors generated by [nomic embed text v2 moe](https://huggingface.co/nomic-ai/nomic-embed-text-v2-moe) for every page in the 20231101 dump of [Multilingual Wikipedia](https://huggingface.co/datasets/wikimedia/wikipedia)
Each folder contains shards of vectors for a particular language (e.g. 20231101.en contains shards for vectors corresponding to English Wikipedia pages).
Each shard contains at most 1 million vectors.
When shards are loaded in order and concatenated along the 0 axis, the result is an [articles, embedding dimension] tensor that corresponds to every article in a language split.
(e.g. the 0th element of 20231101.en/20231101.en_embeddings_shard_0.npy corresponds to the 0th row of the 20231101 Multilingaul Wikipedia English split, the 0th element of 20231101.en/20231101.en_embeddings_shard_1.npy corresponds to the 1 millionth row of the 20231101 Multilingaul Wikipedia English split, etc...)
本数据集包含由nomic embed text v2 moe(https://huggingface.co/nomic-ai/nomic-embed-text-v2-moe)为[多语言维基百科(Multilingual Wikipedia)](https://huggingface.co/datasets/wikimedia/wikipedia)20231101版数据库转储文件中的每一个页面生成的向量。
每个文件夹对应某一特定语言的向量分片(shard)集,例如20231101.en 包含对应英语维基百科页面的向量分片。
每个分片最多包含100万个向量。
若按顺序加载所有分片并沿第0轴进行拼接,所得结果为形状为[文章数量, 嵌入维度(embedding dimension)]的张量,与对应语言分块下的全部文章一一对应。
例如,20231101.en/20231101.en_embeddings_shard_0.npy 的第0个元素对应20231101版多语言维基百科英语分块的第0行;20231101.en/20231101.en_embeddings_shard_1.npy 的第0个元素则对应该英语分块的第100万行,以此类推。
提供机构:
maas
创建时间:
2025-03-12



