five

inarikami/wikipedia-japanese

收藏
Hugging Face2022-09-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/inarikami/wikipedia-japanese
下载链接
链接失效反馈
官方服务:
资源简介:
Japanese Wikipedia Dataset是一个包含了截至2022年8月8日的所有日语维基百科文章的数据集。数据经过清理和压缩,存储为一个7GB的jsonl文件。每条记录代表一篇文章,包含标题、页面ID、维基数据ID、类别、重定向、内部链接数量、章节内容等信息。该数据集适用于自然语言处理任务,如文本分类、信息提取等。
提供机构:
inarikami
原始信息汇总

数据集概述

数据集名称: Japanese Wikipedia Dataset
数据集描述: 该数据集包含了截至2022年8月8日的所有日文维基百科文章数据。数据集以一个经过清洗的gzip文件形式提供,旨在加快使用速度。未来计划更新为与huggingface数据集兼容的格式,并提供更好的日文支持。

数据集内容

  • 文件格式: 数据集初始为一个单一的gzip文件,解压后为jsonl格式文件。
  • 文件大小: 解压后的文件大小为7GB。
  • 数据处理: 文章数据从压缩格式处理为jsonl文件,过程中使用了WikiCleaner项目进行过滤,移除了多余的字符。

数据集示例

  • 示例数据结构: 每条记录包含标题、页面ID、维基数据ID、类别、重定向、内部链接数和文章段落等。
  • 示例内容: 例如,"東洋大学朝霞キャンパス"文章包含标题、页面ID、维基数据ID、类别、重定向、内部链接数和多个段落内容。

数据集使用案例

  • 数据加载: 使用Python的pandas库和datasets库加载数据。
  • 数据处理: 用户可以根据需要对数据进行预处理,如转换为CSV格式。
  • 数据访问: 加载后的数据可以通过索引访问,例如获取训练集的第一条记录。

数据集访问

  • 数据集下载: 通过克隆仓库并解压文件进行访问。
  • 命令示例: 使用git clonegunzip命令下载并解压数据集文件。

数据集特点

  • 全面性: 包含所有日文维基百科文章,覆盖广泛的主题和领域。
  • 易用性: 提供预处理后的数据文件,方便直接加载和分析。
  • 可扩展性: 未来计划支持更多数据处理工具和格式,增强数据集的兼容性和可用性。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作