five

Calvin-Xu/Furigana-Aozora

收藏
Hugging Face2024-07-28 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/Calvin-Xu/Furigana-Aozora
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为振り仮名注釈コーパス(青空文库コーパス),源自青空文库及Sapee的点字数据,专注于振假名注释,适用于文本到文本生成任务。在验证过程中,纠正了307处不匹配的实例。数据集为日语,规模在1M到10M之间,采用MIT许可证,标签为教育和振假名相关应用。

The dataset, named Furigana Annotation Corpus (Aozora Bunko Corpus), is derived from Aozora Bunko and Sapees braille data, focusing on furigana annotations and intended for text-to-text generation tasks. During validation, 307 mismatched instances were corrected. The dataset is in Japanese, with a size ranging from 1M to 10M entries, licensed under MIT, and tagged for education and furigana-related applications.
提供机构:
Calvin-Xu
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作