five

indonesian-children-books

收藏
Hugging Face2025-04-28 更新2025-04-29 收录
下载链接:
https://huggingface.co/datasets/haznitrama/indonesian-children-books
下载链接
链接失效反馈
官方服务:
资源简介:
印度尼西亚儿童书籍数据集包含从2740本儿童书籍中直接提取的原始文本,总共有165,245页,约25,759,439个词汇,其中有698,094个唯一词汇。数据集包含通过OCR、pymupdf和pypdf三种方法提取的文本。每条数据包含页面全文内容、书名、页码和提取方法。这些书籍来源于公开可用的儿童书籍和教育材料,并遵循知识共享署名-非商业性使用4.0国际许可。
创建时间:
2025-04-14
原始信息汇总

Indonesian Children Books Dataset 概述

基本描述

  • 语言:印尼语 (id)
  • 许可证:Creative Commons Attribution-NonCommercial 4.0 International (cc-by-nc-4.0)

数据集详情

统计信息

  • 书籍数量:2,740
  • 总页数:165,245
  • 总token数:25,759,439
  • 唯一token数:698,094
  • 平均每页token数:155.89

文本提取方法分布

  • OCR:16,064页
  • pymupdf:148,951页
  • pypdf:230页

数据字段

  • text:页面的完整文本内容
  • title:书籍标题
  • page_num:页码
  • extraction_method:文本提取方法(OCR或直接文本提取)

数据来源与处理

来源

  • 公开可用的儿童书籍和教育材料

处理流程

  1. 从多个来源收集书籍
  2. 使用多种方法提取文本:
    • 直接从PDF中提取文本
    • 对扫描页面使用OCR
搜集汇总
数据集介绍
main_image_url
构建方式
印度尼西亚儿童图书数据集通过系统化的文本采集与提取流程构建而成,涵盖2,740本公开获取的儿童读物与教育材料。数据采集阶段采用多源异构策略,针对不同格式的原始材料分别应用PyMuPDF文本直接提取(148,951页)、OCR光学字符识别(16,064页)和PyPDF解析(230页)三重技术方案,最终形成包含165,245页文本的原始语料库。所有文本数据均保留书籍标题、页码及提取方法等元数据字段,遵循CC-BY-NC-4.0国际许可协议。
特点
该数据集以2,570万词汇量构成印度尼西亚语儿童文学语料库,平均每页包含155.89个词汇,698,094个独特词项展现丰富的语言多样性。原始文本保留书籍排版层级信息,通过extraction_method字段清晰标注不同提取技术来源,为研究OCR误差与自然文本差异提供实验基础。非结构化的原始文本特性使其适用于文本清洗、语言模型预训练等需要深度预处理的研究场景。
使用方法
研究者可通过text字段获取原始页面文本,结合page_num字段实现书籍内容定位,利用extraction_method区分不同质量文本来源。建议应用前进行标准化清洗流程,包括拼写校正、OCR错误修复等处理。该数据集特别适用于低资源语言处理任务,可支持印尼语儿童文学分析、教育文本生成模型训练等应用,使用时需遵守非商业性授权条款。
背景与挑战
背景概述
印尼儿童图书数据集(Indonesian Children Books Dataset)是专注于印度尼西亚儿童文学领域的文本资源集合,由公开可获取的儿童书籍和教育材料构建而成。该数据集收录了2,740本图书,共计165,245页文本,词汇总量达25,759,439个,为自然语言处理领域提供了丰富的低资源语言研究素材。其构建融合了直接文本提取与光学字符识别(OCR)技术,旨在支持印尼语的语言模型训练、儿童文学分析与教育应用研究。遵循CC-BY-NC-4.0许可协议,该数据集为促进东南亚语言技术发展提供了重要基础。
当前挑战
该数据集面临双重挑战:在领域问题层面,印尼语作为低资源语言存在标注规范缺失、方言变体复杂等问题,制约了儿童语言模型的细粒度优化;在构建技术层面,原始文本包含OCR识别错误(涉及16,064页)与PDF解析异常(230页采用pypdf提取),需进行拼写校正与格式标准化。多源数据导致的文本质量差异(平均每页155.89个词汇,但存在698,094个唯一词形)进一步增加了语义一致性维护的难度。
常用场景
经典使用场景
在自然语言处理领域,印尼儿童图书数据集为研究低资源语言的文本处理提供了重要素材。该数据集特别适用于探索儿童文学的语言特征,包括简单句式、基础词汇和重复性结构,这些特点使其成为训练轻量级语言模型的理想选择。研究人员常利用该数据集进行词嵌入训练、文本分类和语言生成任务,尤其在跨文化语境下的语言习得研究中展现出独特价值。
实际应用
在教育科技领域,该数据集支撑了智能阅读辅助系统的开发,能够根据儿童认知水平自动生成适龄阅读材料。出版机构利用其文本特征分析结果优化图书分级标准,而语言学习应用则基于该数据集开发了印尼语启蒙教育模块。政府部门参考数据集统计指标进行基础教育资源的均衡配置决策。
衍生相关工作
基于该数据集衍生的经典研究包括低资源语言BERT变体IndoBERT的预训练,以及儿童文学可读性评估指标的建立。在跨语言研究方面,学者们构建了印尼语-英语儿童故事平行语料库。最近的工作还探索了该数据集在生成式AI中的应用,如开发具有文化适应性的故事生成系统。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作