NotHotTryHard/wikipedia-en-harrier-0.6b-emb

Name: NotHotTryHard/wikipedia-en-harrier-0.6b-emb
Creator: NotHotTryHard
Published: 2026-04-08 11:46:48
License: 暂无描述

Hugging Face2026-04-08 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/NotHotTryHard/wikipedia-en-harrier-0.6b-emb

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: chunk_id dtype: int64 - name: article_title dtype: string - name: text dtype: string - name: embedding sequence: dtype: float32 length: 384 license: cc-by-sa-4.0 task_categories: - feature-extraction - text-retrieval tags: - wikipedia - embeddings - dense-retrieval - fact-checking - faiss - harrier language: - en size_categories: - 10M<n<100M pretty_name: Wikipedia EN Chunks + Harrier 0.6B Embeddings --- # Wikipedia EN Chunks + Harrier 0.6B Embeddings Pre-computed dense embeddings for **23.7M English Wikipedia chunks** using [microsoft/harrier-oss-v1-0.6b](https://huggingface.co/microsoft/harrier-oss-v1-0.6b) (384-dim). ## Related Datasets | Dataset | Description | |---|---| | [NotHotTryHard/wikipedia-en-harrier-270m-emb](https://huggingface.co/datasets/NotHotTryHard/wikipedia-en-harrier-270m-emb) | Same chunks, embedded with the smaller **Harrier 270m** model | | [NotHotTryHard/wikipedia-en-harrier-0.6b-emb](https://huggingface.co/datasets/NotHotTryHard/wikipedia-en-harrier-0.6b-emb) | Same chunks, embedded with the larger **Harrier 0.6B** model | ## Dataset Details ### Source - **Wikipedia dump**: [wikimedia/wikipedia 20231101.en](https://huggingface.co/datasets/wikimedia/wikipedia) (6.4M articles) - **Chunking**: 200-word sliding window, 50-word overlap, min 50 characters - **Total chunks**: ~23,758,035 ### Embeddings - **Model**: `microsoft/harrier-oss-v1-0.6b` - **Dimension**: 384 - **Normalization**: L2-normalized - **Precision**: float32 ### Schema | Column | Type | Description | |---|---|---| | `chunk_id` | int64 | Unique chunk identifier (sequential) | | `article_title` | string | Wikipedia article title | | `text` | string | Chunk text (~200 words) | | `embedding` | list[float32] x 384 | L2-normalized dense vector | ### Storage - **Format**: Parquet shards with ZSTD compression - **Naming**: `data/train-XXXXX-of-NNNNN.parquet` ## Usage ```python from datasets import load_dataset ds = load_dataset("NotHotTryHard/wiki-en-harrier-0.6b", split="train") print(ds[0]) # {'chunk_id': 0, 'article_title': 'Anarchism', 'text': '...', 'embedding': [0.012, ...]} ``` ### Building a FAISS Index ```python import numpy as np import faiss embeddings = np.array(ds["embedding"], dtype=np.float32) index = faiss.IndexFlatIP(384) index.add(embeddings) ``` ## Pipeline ``` Wikipedia 20231101.en (6.4M articles) -> chunk.py (200w window, 50w overlap) -> 23.7M chunks in SQLite -> embed.py (harrier-oss-v1-0.6b, parallel GPU shards) -> export_parquet.py -> this dataset ``` ## License Wikipedia content is under [CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/).

数据集信息：特征： - 名称：chunk_id，数据类型：int64 - 名称：article_title，数据类型：字符串 - 名称：text，数据类型：字符串 - 名称：embedding，序列类型：float32，长度：384 许可证：CC BY-SA 4.0 任务类别： - 特征提取 - 文本检索标签： - 维基百科（Wikipedia） - 嵌入向量（embeddings） - 稠密检索（dense-retrieval） - 事实核查（fact-checking） - FAISS - Harrier 语言： - 英语规模类别： - 1000万 < 样本数 < 1亿展示名称：英文维基百科分块 + Harrier 0.6B 嵌入向量数据集 # 英文维基百科分块 + Harrier 0.6B 嵌入向量数据集本数据集针对2370万条英文维基百科分块，使用[microsoft/harrier-oss-v1-0.6b](https://huggingface.co/microsoft/harrier-oss-v1-0.6b)模型生成了预计算的稠密嵌入向量（维度为384）。 ## 相关数据集 | 数据集 | 描述 | |---|---| | [NotHotTryHard/wikipedia-en-harrier-270m-emb](https://huggingface.co/datasets/NotHotTryHard/wikipedia-en-harrier-270m-emb) | 使用更小的**Harrier 270m**模型对相同分块生成的嵌入向量数据集 | | [NotHotTryHard/wikipedia-en-harrier-0.6b-emb](https://huggingface.co/datasets/NotHotTryHard/wikipedia-en-harrier-0.6b-emb) | 使用更大的**Harrier 0.6B**模型对相同分块生成的嵌入向量数据集 | ## 数据集详情 ### 数据来源 - **维基百科语料库**：[wikimedia/wikipedia 20231101.en](https://huggingface.co/datasets/wikimedia/wikipedia)（包含640万篇文章） - **分块规则**：采用200词滑动窗口，50词重叠，最小分块长度为50个字符 - **总分块数**：约23,758,035 ### 嵌入向量说明 - **模型**：`microsoft/harrier-oss-v1-0.6b` - **维度**：384 - **归一化方式**：L2归一化 - **精度**：float32（32位浮点数） ### 数据结构 | 列名 | 数据类型 | 说明 | |---|---| | `chunk_id` | int64 | 唯一分块标识符（按顺序生成） | | `article_title` | string | 维基百科文章标题 | | `text` | string | 分块文本（约200词） | | `embedding` | list[float32] × 384 | 经过L2归一化的稠密向量 | ### 存储方式 - **格式**：采用ZSTD压缩的Parquet分块文件 - **命名规则**：`data/train-XXXXX-of-NNNNN.parquet` ## 使用示例 python from datasets import load_dataset ds = load_dataset("NotHotTryHard/wiki-en-harrier-0.6b", split="train") print(ds[0]) # {'chunk_id': 0, 'article_title': 'Anarchism', 'text': '...', 'embedding': [0.012, ...]} ### 构建FAISS索引 python import numpy as np import faiss embeddings = np.array(ds["embedding"], dtype=np.float32) index = faiss.IndexFlatIP(384) index.add(embeddings) ## 处理流程维基百科20231101.en语料库（640万篇文章） -> chunk.py（200词窗口，50词重叠） -> 2370万条分块存入SQLite -> embed.py（使用microsoft/harrier-oss-v1-0.6b模型，GPU并行分块生成嵌入） -> export_parquet.py -> 生成本数据集 ## 许可证维基百科内容遵循[CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/)许可协议。

提供机构：

NotHotTryHard

5,000+

优质数据集

54 个

任务类型

进入经典数据集