mastergokul/project-madurai-books
收藏Hugging Face2024-04-26 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mastergokul/project-madurai-books
下载链接
链接失效反馈官方服务:
资源简介:
Project Madurai Books Text数据集旨在将Project Madurai网站上的泰米尔语书籍转换为HuggingFace数据集。该数据集从Project Madurai网站上抓取,包含超过1006本书籍,涵盖了从文学到小说的多种类型。数据集包含两个表:元数据表和源数据表。元数据表包含书籍的索引、编号、作者、标题和Unicode信息,而源数据表包含书籍的索引、ID、链接和泰米尔文本。泰米尔文本占95%以上,其余为罗马字母、数字和英文文本。该数据集适用于文本分类、问答、句子相似性和标记分类等NLP任务。
Project Madurai Books Text数据集旨在将Project Madurai网站上的泰米尔语书籍转换为HuggingFace数据集。该数据集从Project Madurai网站上抓取,包含超过1006本书籍,涵盖了从文学到小说的多种类型。数据集包含两个表:元数据表和源数据表。元数据表包含书籍的索引、编号、作者、标题和Unicode信息,而源数据表包含书籍的索引、ID、链接和泰米尔文本。泰米尔文本占95%以上,其余为罗马字母、数字和英文文本。该数据集适用于文本分类、问答、句子相似性和标记分类等NLP任务。
提供机构:
mastergokul
原始信息汇总
数据集概述
数据集名称
- 名称: Project Madurai Books Text Dataset
数据集配置
- Metadata: 包含
pm_info_table.csv文件,提供数据集的元数据,如索引、书籍编号、作者、书名和Unicode(HTML页面名称)。 - Source Data: 包含
pm_source_text.csv文件,提供数据集的源数据,包括索引、书籍ID、链接和泰米尔语文本。
任务类别
- 文本分类
- 问答
- 句子相似度
- 标记分类
语言
- 泰米尔语 (ta)
数据集大小
- 小于1000条记录 (n<1K)
许可证
- Apache-2.0
数据集结构
- 第一表结构: 包含数据集的元数据,用于查找源数据的来源。
- 第二表结构: 包含数据集的源数据,每行可能包含一本书或半本书的内容。
tamil_text列主要包含泰米尔语文本,可能包含分隔符以简化数据处理。
数据集内容
- 数据集涵盖多种类型的泰米尔书籍,从文学到小说,适用于开发泰米尔语的自然语言处理模型。



