five

NotHotTryHard/wikipedia-en-harrier-0.6b-emb

收藏
Hugging Face2026-04-08 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/NotHotTryHard/wikipedia-en-harrier-0.6b-emb
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: chunk_id dtype: int64 - name: article_title dtype: string - name: text dtype: string - name: embedding sequence: dtype: float32 length: 384 license: cc-by-sa-4.0 task_categories: - feature-extraction - text-retrieval tags: - wikipedia - embeddings - dense-retrieval - fact-checking - faiss - harrier language: - en size_categories: - 10M<n<100M pretty_name: Wikipedia EN Chunks + Harrier 0.6B Embeddings --- # Wikipedia EN Chunks + Harrier 0.6B Embeddings Pre-computed dense embeddings for **23.7M English Wikipedia chunks** using [microsoft/harrier-oss-v1-0.6b](https://huggingface.co/microsoft/harrier-oss-v1-0.6b) (384-dim). ## Related Datasets | Dataset | Description | |---|---| | [NotHotTryHard/wikipedia-en-harrier-270m-emb](https://huggingface.co/datasets/NotHotTryHard/wikipedia-en-harrier-270m-emb) | Same chunks, embedded with the smaller **Harrier 270m** model | | [NotHotTryHard/wikipedia-en-harrier-0.6b-emb](https://huggingface.co/datasets/NotHotTryHard/wikipedia-en-harrier-0.6b-emb) | Same chunks, embedded with the larger **Harrier 0.6B** model | ## Dataset Details ### Source - **Wikipedia dump**: [wikimedia/wikipedia 20231101.en](https://huggingface.co/datasets/wikimedia/wikipedia) (6.4M articles) - **Chunking**: 200-word sliding window, 50-word overlap, min 50 characters - **Total chunks**: ~23,758,035 ### Embeddings - **Model**: `microsoft/harrier-oss-v1-0.6b` - **Dimension**: 384 - **Normalization**: L2-normalized - **Precision**: float32 ### Schema | Column | Type | Description | |---|---|---| | `chunk_id` | int64 | Unique chunk identifier (sequential) | | `article_title` | string | Wikipedia article title | | `text` | string | Chunk text (~200 words) | | `embedding` | list[float32] x 384 | L2-normalized dense vector | ### Storage - **Format**: Parquet shards with ZSTD compression - **Naming**: `data/train-XXXXX-of-NNNNN.parquet` ## Usage ```python from datasets import load_dataset ds = load_dataset("NotHotTryHard/wiki-en-harrier-0.6b", split="train") print(ds[0]) # {'chunk_id': 0, 'article_title': 'Anarchism', 'text': '...', 'embedding': [0.012, ...]} ``` ### Building a FAISS Index ```python import numpy as np import faiss embeddings = np.array(ds["embedding"], dtype=np.float32) index = faiss.IndexFlatIP(384) index.add(embeddings) ``` ## Pipeline ``` Wikipedia 20231101.en (6.4M articles) -> chunk.py (200w window, 50w overlap) -> 23.7M chunks in SQLite -> embed.py (harrier-oss-v1-0.6b, parallel GPU shards) -> export_parquet.py -> this dataset ``` ## License Wikipedia content is under [CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/).

数据集信息: 特征: - 名称:chunk_id,数据类型:int64 - 名称:article_title,数据类型:字符串 - 名称:text,数据类型:字符串 - 名称:embedding,序列类型:float32,长度:384 许可证:CC BY-SA 4.0 任务类别: - 特征提取 - 文本检索 标签: - 维基百科(Wikipedia) - 嵌入向量(embeddings) - 稠密检索(dense-retrieval) - 事实核查(fact-checking) - FAISS - Harrier 语言: - 英语 规模类别: - 1000万 < 样本数 < 1亿 展示名称:英文维基百科分块 + Harrier 0.6B 嵌入向量数据集 # 英文维基百科分块 + Harrier 0.6B 嵌入向量数据集 本数据集针对2370万条英文维基百科分块,使用[microsoft/harrier-oss-v1-0.6b](https://huggingface.co/microsoft/harrier-oss-v1-0.6b)模型生成了预计算的稠密嵌入向量(维度为384)。 ## 相关数据集 | 数据集 | 描述 | |---|---| | [NotHotTryHard/wikipedia-en-harrier-270m-emb](https://huggingface.co/datasets/NotHotTryHard/wikipedia-en-harrier-270m-emb) | 使用更小的**Harrier 270m**模型对相同分块生成的嵌入向量数据集 | | [NotHotTryHard/wikipedia-en-harrier-0.6b-emb](https://huggingface.co/datasets/NotHotTryHard/wikipedia-en-harrier-0.6b-emb) | 使用更大的**Harrier 0.6B**模型对相同分块生成的嵌入向量数据集 | ## 数据集详情 ### 数据来源 - **维基百科语料库**:[wikimedia/wikipedia 20231101.en](https://huggingface.co/datasets/wikimedia/wikipedia)(包含640万篇文章) - **分块规则**:采用200词滑动窗口,50词重叠,最小分块长度为50个字符 - **总分块数**:约23,758,035 ### 嵌入向量说明 - **模型**:`microsoft/harrier-oss-v1-0.6b` - **维度**:384 - **归一化方式**:L2归一化 - **精度**:float32(32位浮点数) ### 数据结构 | 列名 | 数据类型 | 说明 | |---|---| | `chunk_id` | int64 | 唯一分块标识符(按顺序生成) | | `article_title` | string | 维基百科文章标题 | | `text` | string | 分块文本(约200词) | | `embedding` | list[float32] × 384 | 经过L2归一化的稠密向量 | ### 存储方式 - **格式**:采用ZSTD压缩的Parquet分块文件 - **命名规则**:`data/train-XXXXX-of-NNNNN.parquet` ## 使用示例 python from datasets import load_dataset ds = load_dataset("NotHotTryHard/wiki-en-harrier-0.6b", split="train") print(ds[0]) # {'chunk_id': 0, 'article_title': 'Anarchism', 'text': '...', 'embedding': [0.012, ...]} ### 构建FAISS索引 python import numpy as np import faiss embeddings = np.array(ds["embedding"], dtype=np.float32) index = faiss.IndexFlatIP(384) index.add(embeddings) ## 处理流程 维基百科20231101.en语料库(640万篇文章) -> chunk.py(200词窗口,50词重叠) -> 2370万条分块存入SQLite -> embed.py(使用microsoft/harrier-oss-v1-0.6b模型,GPU并行分块生成嵌入) -> export_parquet.py -> 生成本数据集 ## 许可证 维基百科内容遵循[CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/)许可协议。
提供机构:
NotHotTryHard
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作