five

nomic-embed-v2-wikivecs

收藏
魔搭社区2025-03-14 更新2025-03-15 收录
下载链接:
https://modelscope.cn/datasets/nomic-ai/nomic-embed-v2-wikivecs
下载链接
链接失效反馈
官方服务:
资源简介:
This dataset contains vectors generated by [nomic embed text v2 moe](https://huggingface.co/nomic-ai/nomic-embed-text-v2-moe) for every page in the 20231101 dump of [Multilingual Wikipedia](https://huggingface.co/datasets/wikimedia/wikipedia) Each folder contains shards of vectors for a particular language (e.g. 20231101.en contains shards for vectors corresponding to English Wikipedia pages). Each shard contains at most 1 million vectors. When shards are loaded in order and concatenated along the 0 axis, the result is an [articles, embedding dimension] tensor that corresponds to every article in a language split. (e.g. the 0th element of 20231101.en/20231101.en_embeddings_shard_0.npy corresponds to the 0th row of the 20231101 Multilingaul Wikipedia English split, the 0th element of 20231101.en/20231101.en_embeddings_shard_1.npy corresponds to the 1 millionth row of the 20231101 Multilingaul Wikipedia English split, etc...)

本数据集包含由nomic embed text v2 moe(https://huggingface.co/nomic-ai/nomic-embed-text-v2-moe)为[多语言维基百科(Multilingual Wikipedia)](https://huggingface.co/datasets/wikimedia/wikipedia)20231101版数据库转储文件中的每一个页面生成的向量。 每个文件夹对应某一特定语言的向量分片(shard)集,例如20231101.en 包含对应英语维基百科页面的向量分片。 每个分片最多包含100万个向量。 若按顺序加载所有分片并沿第0轴进行拼接,所得结果为形状为[文章数量, 嵌入维度(embedding dimension)]的张量,与对应语言分块下的全部文章一一对应。 例如,20231101.en/20231101.en_embeddings_shard_0.npy 的第0个元素对应20231101版多语言维基百科英语分块的第0行;20231101.en/20231101.en_embeddings_shard_1.npy 的第0个元素则对应该英语分块的第100万行,以此类推。
提供机构:
maas
创建时间:
2025-03-12
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作