inarikami/wikipedia-japanese
收藏Hugging Face2022-09-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/inarikami/wikipedia-japanese
下载链接
链接失效反馈官方服务:
资源简介:
Japanese Wikipedia Dataset是一个包含了截至2022年8月8日的所有日语维基百科文章的数据集。数据经过清理和压缩,存储为一个7GB的jsonl文件。每条记录代表一篇文章,包含标题、页面ID、维基数据ID、类别、重定向、内部链接数量、章节内容等信息。该数据集适用于自然语言处理任务,如文本分类、信息提取等。
提供机构:
inarikami
原始信息汇总
数据集概述
数据集名称: Japanese Wikipedia Dataset
数据集描述: 该数据集包含了截至2022年8月8日的所有日文维基百科文章数据。数据集以一个经过清洗的gzip文件形式提供,旨在加快使用速度。未来计划更新为与huggingface数据集兼容的格式,并提供更好的日文支持。
数据集内容
- 文件格式: 数据集初始为一个单一的gzip文件,解压后为jsonl格式文件。
- 文件大小: 解压后的文件大小为7GB。
- 数据处理: 文章数据从压缩格式处理为jsonl文件,过程中使用了WikiCleaner项目进行过滤,移除了多余的字符。
数据集示例
- 示例数据结构: 每条记录包含标题、页面ID、维基数据ID、类别、重定向、内部链接数和文章段落等。
- 示例内容: 例如,"東洋大学朝霞キャンパス"文章包含标题、页面ID、维基数据ID、类别、重定向、内部链接数和多个段落内容。
数据集使用案例
- 数据加载: 使用Python的pandas库和datasets库加载数据。
- 数据处理: 用户可以根据需要对数据进行预处理,如转换为CSV格式。
- 数据访问: 加载后的数据可以通过索引访问,例如获取训练集的第一条记录。
数据集访问
- 数据集下载: 通过克隆仓库并解压文件进行访问。
- 命令示例: 使用
git clone和gunzip命令下载并解压数据集文件。
数据集特点
- 全面性: 包含所有日文维基百科文章,覆盖广泛的主题和领域。
- 易用性: 提供预处理后的数据文件,方便直接加载和分析。
- 可扩展性: 未来计划支持更多数据处理工具和格式,增强数据集的兼容性和可用性。



