WikiVerse
收藏Hugging Face2026-04-30 更新2026-05-01 收录
下载链接:
https://huggingface.co/datasets/ashvardanian/WikiVerse
下载链接
链接失效反馈官方服务:
资源简介:
WikiVerse是一个基于HuggingFace FineWiki构建的多模型嵌入数据集,专为使用USearch等向量搜索引擎进行近似最近邻(ANN)搜索基准测试而设计。该数据集通过多种模型(包括密集编码器、基于解码器的大型语言模型和后期交互架构)对同一维基百科语料库进行嵌入处理,每个模型的嵌入都附带了预先计算的真实k-最近邻,以便进行可重复的召回率和吞吐量基准测试。数据集源语料库来自HuggingFaceFW/finewiki,包含325种语言的6150万篇文章,经过清理和富集图元数据处理。文本处理不进行分块,短内容模型仅处理摘要,而长上下文模型则优先处理整个文档。数据集规模方面,英语文章有660万篇,平均每篇文章5700字节;前5大语言共有1570万篇文章,平均每篇文章5460字节;前10大语言共有2290万篇文章,平均每篇文章5250字节;所有325种语言共有6160万篇文章,平均每篇文章2740字节。嵌入模型包括Qwen3-Embedding-0.6B、GTE-ModernColBERT-v1、arctic-embed-l-v2.0、nomic-embed-text-v1.5和e5-mistral-7b-instruct,涵盖密集编码器和ColBERT架构,维度从128到4096不等。数据集布局遵循FineWiki的结构,每种语言一个目录,嵌入文件与源parquet文件行对齐。
WikiVerse is a multi-model embedding dataset built on HuggingFace FineWiki, designed for approximate nearest neighbor (ANN) search benchmarking using USearch and other vector search engines. The dataset embeds the same Wikipedia corpus with multiple models (including dense encoders, decoder-based large language models, and late-interaction architectures), with each models embeddings accompanied by pre-computed ground truth k-nearest neighbors for reproducible recall and throughput benchmarking without rerunning expensive exact searches. The source corpus comes from HuggingFaceFW/finewiki, containing 61.5 million articles in 325 languages, cleaned and enriched with metadata. Text processing does not involve chunking, with short-content models processing only summaries and long-context models prioritizing entire documents. In terms of scale, there are 6.6 million English articles averaging 5,700 bytes per article; the top 5 languages have 15.7 million articles averaging 5,460 bytes; the top 10 languages have 22.9 million articles averaging 5,250 bytes; and all 325 languages have 61.6 million articles averaging 2,740 bytes. Embedding models include Qwen3-Embedding-0.6B, GTE-ModernColBERT-v1, arctic-embed-l-v2.0, nomic-embed-text-v1.5, and e5-mistral-7b-instruct, covering dense encoders and ColBERT architectures with dimensions ranging from 128 to 4096. The dataset layout follows FineWikis structure, with one directory per language and embedding files aligned with source parquet file rows.
创建时间:
2026-04-30
原始信息汇总
WikiVerse 数据集概述
数据集定位
WikiVerse 是一个多模型嵌入数据集,基于 HuggingFace FineWiki 构建,专为近似最近邻(ANN)搜索基准测试设计,兼容 USearch 及其他向量搜索引擎。
设计动机
现有 ANN 基准测试存在三个不足:
- 描述符过时:主流基准(SIFT-1B、Deep-1B、GloVe)使用 2014-2021 年的特征
- 单一模型:每个基准仅由一个模型生成
- 缺少解码器嵌入:当前最优嵌入模型多为解码器类 LLM,但无 ANN 基准使用其输出
源语料库
- 来源:HuggingFaceFW/finewiki(2025年8月快照)
- 规模:325种语言,6150万篇文章
- 处理方式:基于 Wikimedia Enterprise HTML 转储(非原始 wikitext),避免模板解析内容丢失;短内容模型仅处理摘要,长上下文模型接收完整文档
语料库规模统计
| 范围 | 文章数 | Parquet(GB) | 平均字节/文章 |
|---|---|---|---|
| 英语 | 660万 | 38 | 5,700 |
| 前5种语言(EN, DE, FR, ES, RU) | 1570万 | 86 | 5,460 |
| 前10种语言 | 2290万 | 120 | 5,250 |
| 前20种语言 | 4160万 | 149 | 3,580 |
| 全部325种语言 | 6160万 | ~170 | 2,740 |
嵌入模型
| 模型 | 年份 | 类型 | 维度 | 上下文 | 参数量 | 许可证 | 开发者 | 性能 |
|---|---|---|---|---|---|---|---|---|
| Qwen3-Embedding-0.6B | 2025 | 密集(解码器) | 1024 | 32K | 600M | Apache 2.0 | Qwen3(阿里巴巴) | 70.7 MTEB v2 |
| GTE-ModernColBERT-v1 | 2025 | ColBERT(编码器) | 128 | 8-32K | 139M | Apache 2.0 | ModernBERT/LightOn | 88.4 LongEmbed |
| arctic-embed-l-v2.0 | 2024 | 密集(编码器) | 1024 | 8K | 303M(有效) | Apache 2.0 | Snowflake | 55.6 BEIR |
| nomic-embed-text-v1.5 | 2024 | 密集(编码器) | 768 | 8K | 137M | Apache 2.0 | Nomic | 62.3 MTEB v1 |
| e5-mistral-7b-instruct | 2023 | 密集(解码器) | 4096 | 4K | 7.1B | MIT | Microsoft | 66.6 MTEB v1 |
数据集布局
镜像 HuggingFaceFW/finewiki 的 data/<wiki>/<group>_<shard>.parquet 结构,每种语言一个目录。每个 .f16bin 文件与源 parquet 文件行对齐,包含 rows × cols 的 FP16 格式嵌入向量。提供 .body.f16bin(文章主体嵌入)和 .title.f16bin(标题嵌入)两种文件。
下载方式
WikiVerse 托管在三个镜像上:
- HuggingFace Hub:包含代码和 LFS 二进制文件(标准版)
- GitHub:仅含代码和 LFS 指针
- Nebius S3:提供扁平 LFS 对象镜像,适合批量下载
许可证
- 嵌入管道代码:Apache 2.0
- Wikipedia 文本:CC BY-SA 4.0
- FineWiki 提取:Apache 2.0
- 嵌入向量:遵循各模型许可证(均为 Apache 2.0 或 MIT)
- 图元数据:CC0(Wikidata)或 CC BY-SA 4.0(Wikipedia)
搜集汇总
数据集介绍

构建方式
WikiVerse数据集构建于HuggingFace FineWiki之上,后者是2025年8月从维基媒体企业HTML转储中提取的包含325种语言、6150万篇文章的快照。为避免传统wikitext解析器因无法展开模板而导致的内容丢失,FineWiki直接使用MediaWiki引擎渲染的完整HTML,保留了章节标题、表格、数学公式和列表等结构化信息,并过滤了机器人生成的存根、消歧页面及跨语言泄漏。在此基础上,研究团队选取了涵盖密集编码器、解码器型大语言模型以及晚期交互(ColBERT风格)架构的多种嵌入模型,对同一语料库独立进行嵌入生成。每个模型的嵌入以FP16精度存储,并遵循FineWiki的数据目录结构,按语言分区,分片文件与原Parquet文件行对齐,确保二进制嵌入可直接与源数据对应。
特点
该数据集的核心价值在于其多维度的创新设计。首先,它解决了现有ANN基准测试中特征描述符陈旧的问题,使用2023至2025年的现代文本嵌入替代了十年前的图像描述子和词向量。其次,通过在同一语料库上提供多种模型的嵌入,使得研究者无需重新嵌入即可比较不同向量分布对同一检索引擎的影响。尤为重要的是,它首次将解码器型大语言模型的输出纳入ANN基准测试,涵盖了如GTE-Qwen、Llama-Embed-Nemotron等前沿架构。此外,每个模型均附有预计算的k近邻真实标签,支持可复现的召回率和吞吐量评估。数据集还提供文章主体嵌入与仅标题嵌入两个版本,便于进行标题与主体间的检索对比研究。
使用方法
使用者可通过HuggingFace Hub、GitHub或Nebius S3三种途径获取数据集。HuggingFace Hub提供完整代码与数据,支持git clone下载。对于需要特定语言或模型嵌入的场景,可使用HuggingFace的hf下载工具指定过滤条件,如仅下载Qwen3-0.6B模型的英文子集。Python环境中,通过数据集自带的wikiverse模块中的read_bin函数可直接加载.f16bin文件为NumPy矩阵,矩阵形状为(分片行数,嵌入维度)。对于需要自定义嵌入的场景,数据集提供了完整的嵌入流水线脚本,支持断点续传,可在多天运行中从上次检查点恢复。添加新的嵌入模型只需执行嵌入生成和真实标签计算两步,语料和图表元数据均可复用,大幅降低了基准测试的搭建成本。
背景与挑战
背景概述
WikiVerse是由Unum Cloud与多位合作者于2025年构建的大规模多模态嵌入数据集,旨在解决近似最近邻搜索(ANN)基准测试中现有数据集陈旧、模型单一且缺乏解码器嵌入的痛点。该数据集基于2025年8月快照的HuggingFace FineWiki语料库,涵盖325种语言、约6150万篇维基百科文章,并采用多种先进嵌入模型(如Qwen3-Embedding、GTE-ModernColBERT、arctic-embed-l-v2.0等)生成稠密、稀疏及延迟交互式向量表示,同时提供预计算的地面真值近邻。WikiVerse不仅为向量搜索引擎(如USearch)提供了统一的评估平台,还能支持含图元数据的过滤搜索,极大推动了信息检索与向量数据库领域的标准化评测。
当前挑战
WikiVerse所应对的领域挑战在于,现有ANN基准普遍依赖2014至2021年间生成的陈旧描述符(如SIFT、GloVe),且仅使用单一模型输出,无法公平对比不同向量分布对同一检索引擎的影响,更缺乏面向解码器大语言模型(如GTE-Qwen)的嵌入评测。在构建过程中,挑战来自大规模语料的清洗与元数据融合:FineWiki虽然采用MediaWiki原生渲染以避免模板丢失,但庞杂的多语言文档、海量的机器人生成条目及跨语言噪音仍需精细过滤;同时,多模型嵌入的生成需要协调不同架构(编码器、解码器、ColBERT)的推理资源,并设计支持断点续传的流水线以应对长期运行的GPU任务。这些工作共同确保了WikiVerse在复现性、可扩展性与多样性上的可靠性。
常用场景
经典使用场景
WikiVerse作为基于大规模多语言维基百科语料的多模型嵌入数据集,其经典使用场景聚焦于近似最近邻(ANN)搜索算法的基准测试。该数据集将同一份经过分块、清洗并富化图元数据的维基百科语料,通过多种现代嵌入模型(包括密集编码器、基于解码器的大型语言模型以及ColBERT式延迟交互架构)独立编码,并以预计算的标准最近邻结果作为真值,使得研究者无需重复运行昂贵的精确搜索即可可靠地评估召回率与吞吐量。这种精心设计为向量搜索引擎的性能对比提供了统一且公平的竞技场。
实际应用
在实际应用中,WikiVerse为工业级向量搜索系统提供了可重复的评估基石。搜索引擎开发者可以借此系统性地测试USearch、FAISS等引擎在不同维度、不同向量分布下的检索效率,从而优化索引结构和量化策略。多语言维基百科的覆盖范围使得跨语言信息检索、多语言语义匹配等场景的基准测试成为可能。此外,该数据集支持基于图元数据的过滤搜索,能够模拟带有类别约束或时间范围的真实检索任务,助力电商推荐、知识图谱查询等复杂应用场景的性能调优。
衍生相关工作
WikiVerse的发布催生了一系列引人瞩目的衍生工作。在基准测试领域,它启发了针对解码器嵌入模型的专用评估方法,推动ANN社区重新审视传统评测指标在高维语言空间中的适用性。在嵌入模型研究方面,研究者利用该数据集分析不同上下文长度、不同参数规模的模型对检索精度的影响,揭示了截断策略与模型性能之间的微妙关系。此外,ColBERT风格嵌入的引入促进了基于多向量表示的检索系统研究,催生了关于延迟交互模型与密集检索融合的新探索方向,为后续混合检索架构的设计提供了宝贵的数据支撑。
以上内容由遇见数据集搜集并总结生成



