wiki-category-dataset

Hugging Face2025-05-17 更新2025-05-18 收录

下载链接：

https://huggingface.co/datasets/abbymengyuan/wiki-category-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Wiki Category Dataset是一个包含14个主题类别的英文维基百科文章的数据集。这些类别包括文化、健身、地理、健康、历史、人类活动、数学、神话、自然、人物、哲学、宗教、社会和技术。每个类别包含多个JSON分片，每个分片有2000个文档，整个数据集共有120万个文档。

创建时间：

2025-05-16

原始信息汇总

Wiki Category Dataset 概述

数据集基本信息

数据来源：英文维基百科文章
组织方式：按14个主题类别分类
总文档数：1,200,000
数据格式：JSON文件

类别列表

Culture
Fitness
Geography
Health
History
Human Activities
Mathematics
Mythology
Nature
People
Philosophy
Religion
Society
Technology

数据结构

文件路径：dataset/<CategoryName>/N.json
JSON结构： json { "documents": [ { "title": "Article title", "link": "https://en.wikipedia.org/wiki/...", "content": "Plain-text content with paragraphs separated by newlines.", "docid": "0" }, … ] }

使用方法

加载全部类别： python from datasets import load_dataset dataset = load_dataset("abbymengyuan/wiki-category-dataset")
加载单个类别： python culture = load_dataset( "abbymengyuan/wiki-category-dataset", split="Culture", data_files="dataset/Culture/*.json", field="documents" )

许可信息

许可证：CC BY 4.0

引用方式

bibtex @misc{yourusername_wikicategory_2025, title = {Wiki Category Dataset}, author = {Meng Yuan}, year = {2025}, howpublished = {url{https://huggingface.co/datasets/abbymengyuan/wiki-category-dataset}}, note = {CC BY 4.0} }

搜集汇总

数据集介绍

构建方式

该数据集基于英文维基百科的丰富语料资源，通过系统化的分类整理构建而成。研究人员从维基百科中精选了14个主题类别，包括文化、健康、历史等广泛领域，每个类别包含多个JSON格式的数据分片，每个分片精心收录2000篇文档，最终形成总计120万篇文档的高质量语料库。这种分层分类的构建方式既保证了数据的全面性，又确保了主题的集中性。

使用方法

该数据集可通过Hugging Face的datasets库便捷加载，支持整体加载或按类别灵活调用。研究人员既可以一次性加载全部14个类别的数据，也可以通过指定类别名称和文件路径单独加载特定主题的数据分片。加载后的数据以标准化的JSON格式呈现，文档内容可直接用于文本分析、主题建模等研究场景。数据集采用CC BY 4.0许可协议，确保了学术使用的开放性。

背景与挑战

背景概述

Wiki Category Dataset是由研究人员Meng Yuan于2025年构建的一个大规模英文维基百科文章数据集，涵盖了文化、健康、历史、技术等14个主题类别。该数据集旨在为自然语言处理领域提供结构化的文本资源，支持文本分类、主题建模和信息检索等研究任务。通过整理维基百科的丰富内容，该数据集为跨领域知识表示和语义分析提供了重要基础。

当前挑战

该数据集面临的核心挑战包括：1) 领域问题的挑战，即如何准确分类涵盖多主题的维基百科文章，确保类别边界的清晰性和内容的代表性；2) 构建过程中的挑战，包括处理大规模非结构化文本数据的清洗和格式化，以及平衡不同类别之间的数据分布以避免偏差。

常用场景

经典使用场景

在自然语言处理领域，wiki-category-dataset以其结构化的多主题分类特性，成为文本分类和主题建模研究的基准数据集。研究者通过该数据集14个明确划分的类别标签，能够高效训练和评估分类算法的性能，特别是在跨领域文本的泛化能力测试中展现独特价值。其细粒度的类别划分（如'神话'与'哲学'的区分）为模型理解语义差异提供了丰富的对比样本。

解决学术问题

该数据集有效解决了多类别文本分类中数据稀疏性和领域适应性的关键问题。通过提供120万篇涵盖人文、科技等广泛主题的标准化文档，研究者能够系统探究词向量表征的领域迁移特性，验证新型神经网络架构在跨学科文本中的表现。其均衡的类别分布尤其有助于缓解分类任务中的样本偏差问题，为知识图谱构建中的实体分类研究提供了可靠数据支撑。

实际应用

在实际应用层面，该数据集支撑了智能问答系统的领域识别模块开发，帮助系统快速判断用户问题的所属范畴。教育科技公司利用其清晰的类别边界训练课程内容自动分类器，实现学习资源的智能归档。新闻聚合平台则借鉴其分类体系优化推荐算法，显著提升了跨主题新闻的分发准确率。

数据集最近研究