Hemanth-thunder/ocr-data-tnpsc
收藏Hugging Face2024-04-07 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/Hemanth-thunder/ocr-data-tnpsc
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含超过30本泰米尔语学校的教科书和部分泰米尔纳德邦公共服务委员会(TNPSC)的材料,这些材料被认为是公共领域的。数据集主要用于文本生成和文本到文本的生成任务,涵盖化学、生物学、金融和医学等多个学科领域。
该数据集包含超过30本泰米尔语学校的教科书和部分泰米尔纳德邦公共服务委员会(TNPSC)的材料,这些材料被认为是公共领域的。数据集主要用于文本生成和文本到文本的生成任务,涵盖化学、生物学、金融和医学等多个学科领域。
提供机构:
Hemanth-thunder
原始信息汇总
数据集概述
基本信息
- 数据集名称: Tamil Public Domain Books (Tamil)
- 许可证: apache-2.0
- 语言: 泰米尔语 (ta)
- 标签: ocr, tnpsc, tamil, chemistry, biology, finance, medical
- 任务类别: 文本生成, 文本到文本生成
数据集内容
- 描述: 该数据集包含超过30本学校教科书和部分TNPSC(泰米尔纳德邦公共服务委员会)材料,均为泰米尔语,被认为是公共领域。
数据结构
- 特征:
- 名称: text
- 数据类型: string
- 分割:
- 名称: train
- 字节数: 12574068
- 样本数: 9217
数据大小
- 下载大小: 4400902 字节
- 数据集大小: 12574068 字节



