wikipedia-en-harrier-0.6b-emb

Hugging Face2026-04-08 更新2026-04-09 收录

下载链接：

https://huggingface.co/datasets/NotHotTryHard/wikipedia-en-harrier-0.6b-emb

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含23.7M个英文Wikipedia文本块的预计算密集嵌入，使用microsoft/harrier-oss-v1-0.6b模型生成（384维）。数据来源于2023年11月的英文Wikipedia dump（6.4M篇文章），经过200词滑动窗口（50词重叠）分块处理。每个样本包含唯一块ID、文章标题、文本内容（约200词）和L2归一化的密集向量。数据集适用于特征提取、文本检索、事实核查等任务，存储为Parquet格式并采用ZSTD压缩。提供FAISS索引构建示例，遵循CC BY-SA 4.0许可协议。

创建时间：

2026-04-06

原始信息汇总

Wikipedia EN Chunks + Harrier 0.6B Embeddings 数据集概述

数据集基本信息

数据集名称: Wikipedia EN Chunks + Harrier 0.6B Embeddings
发布者: NotHotTryHard
许可证: CC BY-SA 4.0
语言: 英语 (en)
数据规模: 10M < n < 100M
任务类别: 特征提取、文本检索
标签: 维基百科、嵌入、密集检索、事实核查、FAISS、Harrier

数据内容与结构

数据源: 基于 wikimedia/wikipedia 20231101.en 数据集（包含 640 万篇文章）。
文本处理: 使用滑动窗口对文章进行分块，窗口大小为 200 个单词，重叠 50 个单词，最小长度为 50 个字符。
数据总量: 约 23,758,035 个文本块。
嵌入模型: 使用 microsoft/harrier-oss-v1-0.6b 模型生成密集嵌入向量。
嵌入维度: 384 维。
嵌入处理: 向量经过 L2 归一化，存储精度为 float32。

数据模式 (Schema)

字段名	数据类型	描述
`chunk_id`	int64	唯一的文本块标识符（顺序编号）
`article_title`	string	维基百科文章标题
`text`	string	文本块内容（约 200 个单词）
`embedding`	list[float32] x 384	L2 归一化的密集向量

存储与格式

存储格式: Parquet 分片文件，采用 ZSTD 压缩。
文件命名: data/train-XXXXX-of-NNNNN.parquet

处理流程

Wikipedia 20231101.en (6.4M 篇文章) -> chunk.py (200词窗口，50词重叠) -> 23.7M 个文本块存入 SQLite -> embed.py (使用 harrier-oss-v1-0.6b 模型，GPU 并行分片处理) -> export_parquet.py -> 生成本数据集

搜集汇总

数据集介绍

构建方式

在知识密集型自然语言处理领域，大规模文本嵌入数据集为语义检索与事实核查等任务提供了关键支撑。该数据集源自2023年11月的英文维基百科全文快照，涵盖约640万篇文章。通过采用200词滑动窗口结合50词重叠的策略对原始文本进行分块处理，确保语义单元的连贯性与上下文完整性，最终生成约2376万个文本块。随后，利用微软Harrier-OSS-v1-0.6B模型为每个文本块生成384维稠密向量，并经过L2归一化处理，最终以Parquet分片格式存储，形成结构化嵌入数据集。

特点

本数据集的核心特征在于其规模与质量的平衡。它提供了超过2300万文本块的高维语义表示，每个嵌入向量均经过L2归一化，便于直接用于相似度计算。嵌入维度为384，由参数量达6亿的先进检索模型生成，能够捕捉细微的语义差异。数据集采用滑动窗口分块机制，既保持了文本的局部连贯性，又通过重叠设计避免了信息割裂。此外，数据集完整保留了原文块ID、文章标题及原始文本，支持端到端的检索与验证流程，为密集检索系统提供了即用的语义索引基础。

使用方法

该数据集主要服务于密集检索与特征提取等应用场景。用户可通过Hugging Face Datasets库直接加载数据集，获取文本块及其对应嵌入向量。对于检索任务，建议将嵌入向量转换为NumPy数组，并利用FAISS等高效索引库构建内积索引，以实现大规模近似最近邻搜索。数据集的结构化设计使得它能够无缝集成到事实核查、开放域问答或文档检索系统中，作为可靠的语义知识库。开发者亦可结合原始文本与嵌入向量，进行检索增强生成或跨模态对齐等前沿实验。

背景与挑战

背景概述

在信息检索与自然语言处理领域，大规模文本嵌入数据集为语义搜索与事实核查等任务提供了关键基础设施。'wikipedia-en-harrier-0.6b-emb'数据集由NotHotTryHard团队于近期构建，其核心研究问题在于如何高效生成并组织海量维基百科文本的密集向量表示，以支持下游的检索与理解应用。该数据集基于2023年11月的英文维基百科快照，通过微软Harrier-0.6B模型生成384维归一化嵌入，涵盖了约2376万个文本片段，显著提升了检索系统在语义层面的准确性与效率，对开放域问答与知识密集型应用产生了积极影响。

当前挑战

该数据集旨在解决密集检索与事实核查中的语义匹配挑战，其核心难题在于如何从非结构化的海量文本中捕获细微的语义关联，并抵抗词汇重叠带来的干扰。构建过程中的挑战同样显著，包括对640万篇原始文章进行高效的滑动窗口分割与去重，确保文本片段的连贯性与完整性；同时，利用大规模预训练模型并行计算2376万个片段的嵌入，需平衡计算资源消耗与向量质量，并保证生成的高维向量具备良好的归一化特性与检索友好性。

常用场景

经典使用场景

在信息检索与知识发现领域，wikipedia-en-harrier-0.6b-emb数据集以其预计算的密集向量嵌入，为大规模文本相似性匹配与语义搜索提供了经典范例。该数据集将维基百科英文条目分割为约2376万个文本块，并利用Harrier-0.6B模型生成384维归一化向量，使得研究者能够直接构建高效的向量索引，无需重复进行耗时的嵌入计算。这一设计显著加速了检索系统的原型开发与实验迭代，成为评估稠密检索模型性能的基准资源。

解决学术问题

该数据集有效应对了自然语言处理中长文档语义表示与高效检索的核心挑战。通过提供大规模、高质量的预计算嵌入，它缓解了学术研究中因计算资源受限而难以处理海量文本的困境，使得聚焦于检索算法优化、跨模态对齐或事实核查等下游任务的研究成为可能。其标准化向量格式促进了不同模型之间的公平比较，为稠密检索领域的可复现研究奠定了数据基础，推动了语义表示学习方法的创新与验证。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在检索增强生成（RAG）架构的优化与评估。许多研究利用其预计算嵌入构建外部知识库，以提升大语言模型在开放域问答中的事实准确性，并减少幻觉现象。同时，它也催生了针对嵌入模型效率与效果权衡的对比研究，例如比较不同规模Harrier模型在相同语料上的表现。这些工作进一步推动了稠密检索与生成模型融合的技术路线发展，形成了从数据到应用的完整研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

数据集	描述
NotHotTryHard/wikipedia-en-harrier-270m-emb	相同文本块，使用较小的 Harrier 270m 模型生成嵌入
NotHotTryHard/wikipedia-en-harrier-0.6b-emb	相同文本块，使用较大的 Harrier 0.6B 模型生成嵌入