five

globis-university/aozorabunko-clean

收藏
Hugging Face2023-10-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/globis-university/aozorabunko-clean
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集提供了来自青空文庫(Aozora Bunko)的便捷且用户友好的数据格式,青空文庫是一个收录日本公共领域书籍的网站,非常适合用于机器学习应用。数据集经过数据收集、去重和清理等步骤,最终以用户友好的格式提供。

该数据集提供了来自青空文庫(Aozora Bunko)的便捷且用户友好的数据格式,青空文庫是一个收录日本公共领域书籍的网站,非常适合用于机器学习应用。数据集经过数据收集、去重和清理等步骤,最终以用户友好的格式提供。
提供机构:
globis-university
原始信息汇总

数据集概述

  • 来源:数据集源自Aozora Bunko (青空文庫),该网站收集了日本的公共领域书籍。
  • 用途:适用于机器学习应用,特别是文本生成和文本分类任务。
  • 语言:日语(ja)
  • 规模:数据集大小介于10,000至100,000条记录之间。

数据收集与处理

  • 数据收集
    • 从CSV文件下载并提取书籍信息,包括作品ID和人物ID。
    • 筛选出公共领域的书籍,并提取其主文本。
  • 数据清洗
    • 将新行转换为
    • 移除头部和脚注,将脚注添加到footnote字段。
    • 将插入的笔记转换为常规括号文本。
    • 移除注音(ruby)。
    • 将特定字符转换为标准Unicode字符。
    • 移除所有剩余的标记。
    • 移除前导和尾随的新行及水平规则。

数据去重

  • 通过比较図書カードURL作品ID人物ID来移除重复项。
  • 移除文本内容完全相同的重复记录。

数据示例

  • 数据结构:包含textfootnotemeta字段。
  • 示例数据
    • 训练集包含16,951条记录。
    • 通过筛选,可以得到仅包含现代日语的子集,该子集包含10,246条记录。
    • 示例文本内容展示了一段日语文本的前100个字符。

许可证

  • 授权方式:CC BY 4.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作