inarikami/wikipedia-japanese

Name: inarikami/wikipedia-japanese
Creator: inarikami
Published: 2022-09-11 02:42:50
License: 暂无描述

Hugging Face2022-09-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/inarikami/wikipedia-japanese

下载链接

链接失效反馈

官方服务：

资源简介：

Japanese Wikipedia Dataset是一个包含了截至2022年8月8日的所有日语维基百科文章的数据集。数据经过清理和压缩，存储为一个7GB的jsonl文件。每条记录代表一篇文章，包含标题、页面ID、维基数据ID、类别、重定向、内部链接数量、章节内容等信息。该数据集适用于自然语言处理任务，如文本分类、信息提取等。

提供机构：

inarikami

原始信息汇总

数据集概述

数据集名称： Japanese Wikipedia Dataset
数据集描述： 该数据集包含了截至2022年8月8日的所有日文维基百科文章数据。数据集以一个经过清洗的gzip文件形式提供，旨在加快使用速度。未来计划更新为与huggingface数据集兼容的格式，并提供更好的日文支持。

数据集内容

文件格式： 数据集初始为一个单一的gzip文件，解压后为jsonl格式文件。
文件大小： 解压后的文件大小为7GB。
数据处理： 文章数据从压缩格式处理为jsonl文件，过程中使用了WikiCleaner项目进行过滤，移除了多余的字符。

数据集示例

示例数据结构： 每条记录包含标题、页面ID、维基数据ID、类别、重定向、内部链接数和文章段落等。
示例内容： 例如，"東洋大学朝霞キャンパス"文章包含标题、页面ID、维基数据ID、类别、重定向、内部链接数和多个段落内容。

数据集使用案例

数据加载： 使用Python的pandas库和datasets库加载数据。
数据处理： 用户可以根据需要对数据进行预处理，如转换为CSV格式。
数据访问： 加载后的数据可以通过索引访问，例如获取训练集的第一条记录。

数据集访问

数据集下载： 通过克隆仓库并解压文件进行访问。
命令示例： 使用git clone和gunzip命令下载并解压数据集文件。

数据集特点

全面性： 包含所有日文维基百科文章，覆盖广泛的主题和领域。
易用性： 提供预处理后的数据文件，方便直接加载和分析。
可扩展性： 未来计划支持更多数据处理工具和格式，增强数据集的兼容性和可用性。

5,000+

优质数据集

54 个

任务类型

进入经典数据集