oshizo/japanese-wikipedia-paragraphs

Name: oshizo/japanese-wikipedia-paragraphs
Creator: oshizo
Published: 2023-12-09 14:09:30
License: 暂无描述

Hugging Face2023-12-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/oshizo/japanese-wikipedia-paragraphs

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: cc-by-sa-4.0 dataset_info: features: - name: id dtype: int64 - name: pageid dtype: int64 - name: revid dtype: int64 - name: title dtype: string - name: section struct: - name: dt dtype: string - name: h2 dtype: string - name: h3 dtype: string - name: h4 dtype: string - name: text dtype: string splits: - name: train num_bytes: 7388520171 num_examples: 10473325 download_size: 3987399592 dataset_size: 7388520171 configs: - config_name: default data_files: - split: train path: data/train-* language: - ja --- A slightly modified version of the parsing and chunking method for [singletongue/wikipedia-utils](https://huggingface.co/datasets/singletongue/wikipedia-utils). Pre-processing was performed using [oshizo/wikipedia-utils](https://github.com/oshizo/wikipedia-utils), which is a fork of the original repository, [singletongue/wikipedia-utils](https://github.com/singletongue/wikipedia-utils). The Wikipedia data was crawled between 2023/12/5 and 2023/12/8.

提供机构：

oshizo

原始信息汇总

数据集概述

许可证

本数据集遵循 CC BY-SA 4.0 许可证。

数据集信息

特征：
- id: 数据类型为 int64。
- pageid: 数据类型为 int64。
- revid: 数据类型为 int64。
- title: 数据类型为 string。
- section: 结构化数据，包含以下字段：
  - dt: 数据类型为 string。
  - h2: 数据类型为 string。
  - h3: 数据类型为 string。
  - h4: 数据类型为 string。
- text: 数据类型为 string。
数据分割：
- train: 包含 10,473,325 个样本，总字节数为 7,388,520,171 字节。
数据大小：
- 下载大小：3,987,399,592 字节。
- 数据集大小：7,388,520,171 字节。

配置

默认配置：
- 数据文件路径：data/train-*。

语言

数据集语言为日语（ja）。

搜集汇总

数据集介绍

构建方式

该数据集源自对日语维基百科的深度解析与段落切分，基于singletongue/wikipedia-utils工具进行了细微改良。预处理流程依托于oshizo/wikipedia-utils这一分支仓库，后者继承自原始代码库。数据爬取工作于2023年12月5日至8日期间完成，确保了内容的时效性。每个样本包含唯一标识符、页面ID、修订版本ID、标题、结构化章节信息（包括时间戳及各级标题）以及正文文本，共计约1047万条训练样本，总字节数逾7.38GB。

特点

数据集的核心特色在于其精细的段落级结构化设计，不仅保留了维基百科页面的层级标题（h2至h4），还嵌入了时间戳字段，便于追踪内容演变。所有文本均以日语呈现，覆盖广泛的知识领域，适用于自然语言处理中的语义理解、信息检索及文本生成任务。数据规模庞大且经过标准化处理，支持高效加载与分布式训练，为日语语料研究提供了坚实的资源基础。

使用方法

使用时，可通过HuggingFace的datasets库直接加载默认配置，调用load_dataset('oshizo/japanese-wikipedia-paragraphs')即可获取训练集。每个样本以字典形式返回，包含id、title、text等字段，其中section字段为嵌套结构，需按需解析。建议在预处理阶段提取text字段用于模型输入，或利用章节信息进行上下文增强。数据已按分片存储于data/train-*路径下，适合流式读取与大规模并行计算。

背景与挑战

背景概述

在自然语言处理领域，高质量、大规模且结构化的语料库是推动词义消歧、文本生成及语义理解等任务发展的基石。oshizo/japanese-wikipedia-paragraphs数据集由研究者oshizo于2023年12月创建，其基于singletongue/wikipedia-utils工具对日语维基百科进行解析与分块处理，旨在提供一种精细化的段落级文本资源。该数据集涵盖了逾千万条训练样本，每一条均包含标题、章节结构及正文内容，为日语语言模型的预训练、段落检索与知识图谱构建等核心研究问题提供了丰富的语料支撑。其影响力体现在为日语NLP社区贡献了一个标准化、可复用的基准，促进了跨领域研究如信息抽取与问答系统的性能提升。

当前挑战

该数据集所面临的挑战首先体现在领域问题的复杂性上：日语文本的形态丰富性（如汉字与假名混合、未分词特性）使得段落切分与语义边界界定极为困难，传统基于规则的方法易导致信息碎片化或冗余。其次，在构建过程中，从维基百科原始快照中提取结构化数据需应对版本差异、格式不一致及噪声干扰，例如修订历史（revid）与页面ID（pageid）的关联处理需确保一致性。此外，大规模数据清洗与去重、章节层级（h2至h4）的准确解析，以及平衡段落长度以避免过长或过短样本，均对预处理算法的鲁棒性提出了严苛要求。

常用场景

经典使用场景

oshizo/japanese-wikipedia-paragraphs数据集是面向日语自然语言处理研究的高质量语料资源，其核心设计理念在于将维基百科条目按语义段落进行精细切分，而非传统的整篇文章或句子级别处理。这一结构化的段落划分方式，使得该数据集成为日语文本表示学习、段落级语义相似度计算以及跨文档信息检索等任务的理想基准。研究者可借助其丰富的标题层级与段落标识，深入探索日语篇章的局部连贯性与主题演化规律，为语言模型提供更贴近真实语言使用场景的训练素材。

衍生相关工作

基于该数据集已衍生出多项具有影响力的学术工作，包括面向日语的段落级预训练语言模型（如Japanese-BERT-Paragraph）以及基于层次化注意力机制的文档编码器。研究者借鉴其段落划分策略，开发了适用于日语维基百科的零样本主题分类器与跨段落事件抽取系统。此外，该数据集被广泛用作日语多任务学习框架的评估基准，催生了融合标题与段落语义的联合表示学习方法，为后续日语自然语言处理研究中篇章级任务的标准化评估奠定了重要基础。

数据集最近研究