globis-university/aozorabunko-clean

Name: globis-university/aozorabunko-clean
Creator: globis-university
Published: 2023-10-27 13:22:32
License: 暂无描述

Hugging Face2023-10-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/globis-university/aozorabunko-clean

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集提供了来自青空文庫（Aozora Bunko）的便捷且用户友好的数据格式，青空文庫是一个收录日本公共领域书籍的网站，非常适合用于机器学习应用。数据集经过数据收集、去重和清理等步骤，最终以用户友好的格式提供。

提供机构：

globis-university

原始信息汇总

数据集概述

数据收集：
- 从CSV文件下载并提取书籍信息，包括作品ID和人物ID。
- 筛选出公共领域的书籍，并提取其主文本。
数据清洗：
- 将新行转换为。
- 移除头部和脚注，将脚注添加到footnote字段。
- 将插入的笔记转换为常规括号文本。
- 移除注音（ruby）。
- 将特定字符转换为标准Unicode字符。
- 移除所有剩余的标记。
- 移除前导和尾随的新行及水平规则。

数据结构：包含text、footnote和meta字段。
示例数据：
- 训练集包含16,951条记录。
- 通过筛选，可以得到仅包含现代日语的子集，该子集包含10,246条记录。
- 示例文本内容展示了一段日语文本的前100个字符。

5,000+

优质数据集

54 个

任务类型

进入经典数据集