NotHotTryHard/wikipedia-en-harrier-0.6b-emb
收藏Hugging Face2026-04-08 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/NotHotTryHard/wikipedia-en-harrier-0.6b-emb
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: chunk_id
dtype: int64
- name: article_title
dtype: string
- name: text
dtype: string
- name: embedding
sequence:
dtype: float32
length: 384
license: cc-by-sa-4.0
task_categories:
- feature-extraction
- text-retrieval
tags:
- wikipedia
- embeddings
- dense-retrieval
- fact-checking
- faiss
- harrier
language:
- en
size_categories:
- 10M<n<100M
pretty_name: Wikipedia EN Chunks + Harrier 0.6B Embeddings
---
# Wikipedia EN Chunks + Harrier 0.6B Embeddings
Pre-computed dense embeddings for **23.7M English Wikipedia chunks** using [microsoft/harrier-oss-v1-0.6b](https://huggingface.co/microsoft/harrier-oss-v1-0.6b) (384-dim).
## Related Datasets
| Dataset | Description |
|---|---|
| [NotHotTryHard/wikipedia-en-harrier-270m-emb](https://huggingface.co/datasets/NotHotTryHard/wikipedia-en-harrier-270m-emb) | Same chunks, embedded with the smaller **Harrier 270m** model |
| [NotHotTryHard/wikipedia-en-harrier-0.6b-emb](https://huggingface.co/datasets/NotHotTryHard/wikipedia-en-harrier-0.6b-emb) | Same chunks, embedded with the larger **Harrier 0.6B** model |
## Dataset Details
### Source
- **Wikipedia dump**: [wikimedia/wikipedia 20231101.en](https://huggingface.co/datasets/wikimedia/wikipedia) (6.4M articles)
- **Chunking**: 200-word sliding window, 50-word overlap, min 50 characters
- **Total chunks**: ~23,758,035
### Embeddings
- **Model**: `microsoft/harrier-oss-v1-0.6b`
- **Dimension**: 384
- **Normalization**: L2-normalized
- **Precision**: float32
### Schema
| Column | Type | Description |
|---|---|---|
| `chunk_id` | int64 | Unique chunk identifier (sequential) |
| `article_title` | string | Wikipedia article title |
| `text` | string | Chunk text (~200 words) |
| `embedding` | list[float32] x 384 | L2-normalized dense vector |
### Storage
- **Format**: Parquet shards with ZSTD compression
- **Naming**: `data/train-XXXXX-of-NNNNN.parquet`
## Usage
```python
from datasets import load_dataset
ds = load_dataset("NotHotTryHard/wiki-en-harrier-0.6b", split="train")
print(ds[0])
# {'chunk_id': 0, 'article_title': 'Anarchism', 'text': '...', 'embedding': [0.012, ...]}
```
### Building a FAISS Index
```python
import numpy as np
import faiss
embeddings = np.array(ds["embedding"], dtype=np.float32)
index = faiss.IndexFlatIP(384)
index.add(embeddings)
```
## Pipeline
```
Wikipedia 20231101.en (6.4M articles)
-> chunk.py (200w window, 50w overlap)
-> 23.7M chunks in SQLite
-> embed.py (harrier-oss-v1-0.6b, parallel GPU shards)
-> export_parquet.py -> this dataset
```
## License
Wikipedia content is under [CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/).
数据集信息:
特征:
- 名称:chunk_id,数据类型:int64
- 名称:article_title,数据类型:字符串
- 名称:text,数据类型:字符串
- 名称:embedding,序列类型:float32,长度:384
许可证:CC BY-SA 4.0
任务类别:
- 特征提取
- 文本检索
标签:
- 维基百科(Wikipedia)
- 嵌入向量(embeddings)
- 稠密检索(dense-retrieval)
- 事实核查(fact-checking)
- FAISS
- Harrier
语言:
- 英语
规模类别:
- 1000万 < 样本数 < 1亿
展示名称:英文维基百科分块 + Harrier 0.6B 嵌入向量数据集
# 英文维基百科分块 + Harrier 0.6B 嵌入向量数据集
本数据集针对2370万条英文维基百科分块,使用[microsoft/harrier-oss-v1-0.6b](https://huggingface.co/microsoft/harrier-oss-v1-0.6b)模型生成了预计算的稠密嵌入向量(维度为384)。
## 相关数据集
| 数据集 | 描述 |
|---|---|
| [NotHotTryHard/wikipedia-en-harrier-270m-emb](https://huggingface.co/datasets/NotHotTryHard/wikipedia-en-harrier-270m-emb) | 使用更小的**Harrier 270m**模型对相同分块生成的嵌入向量数据集 |
| [NotHotTryHard/wikipedia-en-harrier-0.6b-emb](https://huggingface.co/datasets/NotHotTryHard/wikipedia-en-harrier-0.6b-emb) | 使用更大的**Harrier 0.6B**模型对相同分块生成的嵌入向量数据集 |
## 数据集详情
### 数据来源
- **维基百科语料库**:[wikimedia/wikipedia 20231101.en](https://huggingface.co/datasets/wikimedia/wikipedia)(包含640万篇文章)
- **分块规则**:采用200词滑动窗口,50词重叠,最小分块长度为50个字符
- **总分块数**:约23,758,035
### 嵌入向量说明
- **模型**:`microsoft/harrier-oss-v1-0.6b`
- **维度**:384
- **归一化方式**:L2归一化
- **精度**:float32(32位浮点数)
### 数据结构
| 列名 | 数据类型 | 说明 |
|---|---|
| `chunk_id` | int64 | 唯一分块标识符(按顺序生成) |
| `article_title` | string | 维基百科文章标题 |
| `text` | string | 分块文本(约200词) |
| `embedding` | list[float32] × 384 | 经过L2归一化的稠密向量 |
### 存储方式
- **格式**:采用ZSTD压缩的Parquet分块文件
- **命名规则**:`data/train-XXXXX-of-NNNNN.parquet`
## 使用示例
python
from datasets import load_dataset
ds = load_dataset("NotHotTryHard/wiki-en-harrier-0.6b", split="train")
print(ds[0])
# {'chunk_id': 0, 'article_title': 'Anarchism', 'text': '...', 'embedding': [0.012, ...]}
### 构建FAISS索引
python
import numpy as np
import faiss
embeddings = np.array(ds["embedding"], dtype=np.float32)
index = faiss.IndexFlatIP(384)
index.add(embeddings)
## 处理流程
维基百科20231101.en语料库(640万篇文章)
-> chunk.py(200词窗口,50词重叠)
-> 2370万条分块存入SQLite
-> embed.py(使用microsoft/harrier-oss-v1-0.6b模型,GPU并行分块生成嵌入)
-> export_parquet.py -> 生成本数据集
## 许可证
维基百科内容遵循[CC BY-SA 4.0](https://creativecommons.org/licenses/by-sa/4.0/)许可协议。
提供机构:
NotHotTryHard



