unum-cloud/USearchWiki

Name: unum-cloud/USearchWiki
Creator: unum-cloud
Published: 2026-05-04 21:00:36
License: 暂无描述

Hugging Face2026-05-04 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/unum-cloud/USearchWiki

下载链接

链接失效反馈

官方服务：

资源简介：

USearchWiki是一个基于HuggingFace FineWiki构建的多模型嵌入数据集，专为近似最近邻（ANN）搜索基准测试设计。该数据集包含来自多种模型的嵌入，预计算的地面真实k近邻，以及用于过滤搜索的图结构元数据。源语料库来自维基百科，经过处理和丰富，包含各种注释。数据集结构支持多种嵌入模型，详细描述了所使用的模型、其性能以及数据集的布局。README还涵盖了下载选项、嵌入和处理的工作流程、托管详情以及许可信息。

USearchWiki is a multi-model embedding dataset built on HuggingFace FineWiki, specifically designed for approximate nearest neighbor (ANN) search benchmarking. This dataset contains embeddings from multiple models, pre-computed ground-truth k-nearest neighbors, and graph-structured metadata for search filtering. The source corpus is derived from Wikipedia, processed and enriched with various annotations. The dataset structure supports multiple embedding models, and details the employed models, their performance, as well as the dataset layout. The accompanying README also covers download options, embedding and processing workflows, hosting details, and licensing information.

提供机构：

unum-cloud

搜集汇总

数据集介绍

构建方式

USearchWiki 数据集基于 HuggingFace FineWiki 语料库构建，该语料库源自 Wikimedia Enterprise HTML 转储，而非原始 wikitext，从而避免了模板解析导致的内容丢失。数据集涵盖了 325 种语言、约 6150 万篇维基百科文章。在文本处理上，未对文章进行分块处理，短文本模型仅处理摘要，而长文本模型则获取完整的原始文档。随后，利用多种现代嵌入模型（包括基于编码器和解码器的架构）对同一语料库进行独立嵌入，每个模型生成一个或多个向量。最终，数据集包含了预计算的精确 K 近邻真实标签，以及用于支持过滤搜索的图元数据。

特点

USearchWiki 数据集的核心特点在于其多模型、单语料库的设计，解决了现有 ANN 基准测试中描述符陈旧、单一模型以及缺乏解码器嵌入的三大缺陷。该数据集集成了多种类型的嵌入模型，包括稠密的 BERT 类编码器、GPT 风格解码器以及 ColBERT 架构，并提供了每种模型对应的真实 K 近邻标签，使得可重复的召回率和吞吐量基准测试成为可能。此外，数据集的布局与 FineWiki 的目录结构一致，并提供了 .f16bin 格式的二进制嵌入文件，这些文件与源 Parquet 文件的行对齐，便于高效加载。数据集还包含了标题和文章主体的嵌入，为标题与主体检索比较研究提供了便利。

使用方法

USearchWiki 数据集的使用方法灵活多样，支持从 HuggingFace Hub、GitHub 或 Nebius S3 等多源获取。用户可以通过提供的 usearchwiki 模块轻松加载 .f16bin 格式的嵌入文件，例如使用 `read_bin` 函数即可获取指定分片的嵌入矩阵。该数据集还附带了一套完整的 Python 工作流脚本，包括用于重新嵌入 `embed_articles.py`、计算真实标签 `ground_truth.py` 以及构建索引 `build_index.py` 等命令，所有步骤均支持断点续传。无论是进行 ANN 搜索性能基准测试、向量检索研究，还是与其他搜索引擎兼容性评估，该数据集都提供了统一的入口和可复现的评估框架。

背景与挑战

背景概述

USearchWiki数据集由Unum Cloud于2025年创建，旨在解决近似最近邻（ANN）搜索基准测试中存在的关键缺陷。该数据集基于HuggingFace FineWiki语料库（2025年8月快照，涵盖325种语言、6150万篇文章），通过多种现代嵌入模型（包括密集BERT类编码器、GPT风格解码器大语言模型及ColBERT类交互架构）独立生成文档嵌入，并预先计算了真实k近邻（k-NN）结果。其核心研究问题在于提供大规模、多模型、包含丰富图元数据的文本嵌入基准，以替代传统基于陈旧图像或词向量的基准（如SIFT-1B、GloVe），推动向量搜索技术在解码器型嵌入等新范式下的评估。USearchWiki凭借其语料规模、模型多样性与内建评估基础设施，成为向量检索领域影响力深远的新一代标准数据集。

当前挑战

USearchWiki所面临的挑战涵盖领域问题与构建过程两方面。在领域问题上，传统ANN基准普遍使用2014至2021年的陈旧描述符（图像特征或词向量）且均为单一模型生成，无法评估同一检索引擎在不同向量分布下的表现，而最新解码器型嵌入模型（如GTE-Qwen、Llama-Embed-Nemotron）的输出缺乏对应基准——USearchWiki通过统一语料、多模型嵌入及图结构元数据填补此空白。在构建过程中，挑战包括：1）对61.5M篇文章进行跨模型独立嵌入，短上下文模型需处理截断、长上下文模型则保留全文，且ColBERT模型每篇文章产生约2000个token级向量，数据量达数TB；2）嵌入管线设计为多日GPU运行，需支持断电恢复与断点续传，状态文件与幂等步骤增加了工程复杂度；3）各嵌入模型遵循不同开源许可证（Apache 2.0、MIT等），且维基百科文本采用CC BY-SA 4.0，数据整合与分发需严格遵守混杂许可条款。

常用场景

经典使用场景

USearchWiki作为大规模近似最近邻搜索基准测试数据集，其经典使用场景聚焦于评估和比较不同向量搜索引擎在高维嵌入空间中的检索性能。研究者和工程师可以利用该数据集中预计算的多模型嵌入向量及其对应的精确k近邻标签，在统一的维基百科语料上系统性地衡量索引构建速度、查询延迟、召回率及吞吐量等关键指标。这一设计打破了传统基准测试单一模型、陈旧特征的局限，使得从密集编码器到解码器型大语言模型再到交互式ColBERT架构的多种嵌入范式能够在同等条件下进行公平较量，为向量搜索技术的迭代提供了标准化的实验场。

衍生相关工作

USearchWiki衍生了一系列向量搜索与信息检索领域的经典工作。其工程化流水线催生了可复现的嵌入生成与精确最近邻计算框架，支持任意新模型的快速接入与基准扩展。社区基于该数据集开展了对HNSW、IVF等索引算法在不同嵌入分布下性能衰退现象的深入研究，并提出了改进的量化压缩策略。预计算的段落层锚点链接图被进一步用于子文检索任务的监督学习，启发了一批将图神经网络与大语言模型检索相结合的混合系统。该数据集还直接支撑了ANN-Benchmarks生态的更新迭代，使得基准测试能够同步涵盖2025年最新的嵌入模型与索引库特性。

数据集最近研究