globis-university/aozorabunko-clean
收藏Hugging Face2023-10-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/globis-university/aozorabunko-clean
下载链接
链接失效反馈官方服务:
资源简介:
该数据集提供了来自青空文庫(Aozora Bunko)的便捷且用户友好的数据格式,青空文庫是一个收录日本公共领域书籍的网站,非常适合用于机器学习应用。数据集经过数据收集、去重和清理等步骤,最终以用户友好的格式提供。
该数据集提供了来自青空文庫(Aozora Bunko)的便捷且用户友好的数据格式,青空文庫是一个收录日本公共领域书籍的网站,非常适合用于机器学习应用。数据集经过数据收集、去重和清理等步骤,最终以用户友好的格式提供。
提供机构:
globis-university
原始信息汇总
数据集概述
- 来源:数据集源自Aozora Bunko (青空文庫),该网站收集了日本的公共领域书籍。
- 用途:适用于机器学习应用,特别是文本生成和文本分类任务。
- 语言:日语(ja)
- 规模:数据集大小介于10,000至100,000条记录之间。
数据收集与处理
- 数据收集:
- 从CSV文件下载并提取书籍信息,包括作品ID和人物ID。
- 筛选出公共领域的书籍,并提取其主文本。
- 数据清洗:
- 将新行转换为
。 - 移除头部和脚注,将脚注添加到
footnote字段。 - 将插入的笔记转换为常规括号文本。
- 移除注音(ruby)。
- 将特定字符转换为标准Unicode字符。
- 移除所有剩余的标记。
- 移除前导和尾随的新行及水平规则。
- 将新行转换为
数据去重
- 通过比较
図書カードURL、作品ID和人物ID来移除重复项。 - 移除文本内容完全相同的重复记录。
数据示例
- 数据结构:包含
text、footnote和meta字段。 - 示例数据:
- 训练集包含16,951条记录。
- 通过筛选,可以得到仅包含现代日语的子集,该子集包含10,246条记录。
- 示例文本内容展示了一段日语文本的前100个字符。
许可证
- 授权方式:CC BY 4.0



