wikipedia_en

Hugging Face2025-05-15 更新2025-05-16 收录

下载链接：

https://huggingface.co/datasets/Leask/wikipedia_en

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个经过精选的英文维基百科页面数据集，用于Chipmunk项目。

创建时间：

2025-05-12

原始信息汇总

数据集概述：`wikipedia_en`

基本信息

许可证：Apache-2.0
任务类别：特征提取
语言：英语（en）
数据规模：10M到100M之间

数据集描述

目的：为Chipmunk项目提供精选的英文维基百科数据。
数据来源：直接来自官方英文维基百科数据库转储。
处理方式：
- 提取页面内容并分块。
- 使用Snowflake/snowflake-arctic-embed-m-v2.0进行嵌入。
- 所有向量嵌入为16位半精度向量，针对cosine索引优化。

数据集结构

1. 元数据表

字段：
- id：页面唯一标识符。
- revid：页面修订ID。
- url：页面URL。
- title：页面标题。
- ignored：页面是否被忽略。
- created_at：页面创建时间。
- updated_at：页面更新时间。

2. 分块表

字段：
- id：分块唯一标识符。
- title：页面标题。
- url：页面URL。
- source_id：页面源ID。
- chunk_index：分块索引。
- chunk_text：分块文本。
- vector：分块的向量嵌入。
- created_at：分块创建时间。
- updated_at：分块更新时间。

使用方式

数据库操作

创建表：
- 元数据表和分块表的SQL创建语句。
加载数据：
- 从本地文件系统或PostgreSQL服务器加载CSV文件。
创建索引：
- 为元数据表和分块表创建多个索引以优化性能。

查询工具

使用Chipmunk进行数据集查询。

数据来源与许可

原始数据：基于维基百科转储。
许可信息：详见维基百科法律页面。

搜集汇总

数据集介绍

构建方式

该数据集基于英文维基百科官方数据库转储文件构建，通过系统化的数据处理流程，将原始页面内容分割为更小的文本块，并采用Snowflake/snowflake-arctic-embed-m-v2.0模型生成16位半精度向量嵌入。所有向量均针对cosine索引优化，与vectorchord系统兼容，确保了高效的信息检索能力。数据处理过程中保留了完整的元数据信息，包括页面ID、修订版本、URL链接等关键字段。

特点

数据集包含超过1000万条经过精心处理的英文维基百科条目，每个条目被分割为便于处理的文本块，并配备了高质量的向量表示。独特的半精度向量设计在保持语义表征能力的同时显著降低了存储需求。数据结构采用双表设计，分别存储页面元数据和文本块信息，支持复杂的检索和分析需求。所有文本内容均来自维基百科的权威知识库，具有高度的准确性和时效性。

使用方法

数据集使用需要PostgreSQL数据库环境支持，通过标准SQL命令导入CSV格式的数据文件。为优化查询性能，建议按照文档说明创建必要的索引结构，特别是针对向量字段的专用索引。数据集与Chipmunk项目深度集成，可通过其提供的接口实现高效的语义搜索功能。用户可根据实际需求灵活配置索引参数，平衡检索精度与性能的关系。

背景与挑战

背景概述

wikipedia_en数据集是基于英文维基百科数据库构建的精选语料库，旨在为Chipmunk项目提供高效的知识检索支持。该数据集由Intelligent-Internet团队开发，通过提取维基百科页面内容并将其分块处理，结合Snowflake/snowflake-arctic-embed-m-v2.0模型生成16位半精度向量嵌入，显著提升了大规模文本检索的效率。作为开放知识库的重要代表，该数据集不仅延续了维基百科多语言、多领域的传统优势，更通过优化的向量化技术为自然语言处理领域提供了新的研究范式。

当前挑战

构建wikipedia_en数据集面临双重挑战。在领域问题层面，如何从海量非结构化维基百科文本中提取语义连贯的文本块，并保持原始知识的完整性与准确性，是核心难题。在技术实现层面，数据预处理过程中需解决页面质量参差不齐、多义词消歧、长文本分块边界模糊等问题；而向量嵌入阶段则需平衡计算效率与语义表征能力，特别是在处理专业术语和跨领域内容时，确保生成的768维半精度向量能有效捕获复杂语义关系。此外，构建高效的混合索引结构以支持实时大规模检索，也对数据库优化提出了极高要求。

常用场景

经典使用场景

在自然语言处理领域，wikipedia_en数据集作为高质量英文文本语料库，常被用于预训练语言模型。其经过分块处理和向量化嵌入的结构特性，使得研究者能够高效地进行语义相似度计算和知识检索。该数据集特别适合构建基于向量数据库的智能问答系统，通过余弦相似度匹配实现精准的知识定位。

衍生相关工作

该数据集催生了多个里程碑式研究，包括基于Chipmunk框架的多模态知识图谱构建、结合向量和弦索引的实时检索系统优化等。Snowflake团队开发的snowflake-arctic-embed-m系列嵌入模型，正是依托该数据集进行训练和验证。相关技术已被应用于开源项目vectorchord的持续迭代中。

数据集最近研究