mastergokul/project-madurai-books

Name: mastergokul/project-madurai-books
Creator: mastergokul
Published: 2024-04-26 11:28:45
License: 暂无描述

Hugging Face2024-04-26 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/mastergokul/project-madurai-books

下载链接

链接失效反馈

官方服务：

资源简介：

Project Madurai Books Text数据集旨在将Project Madurai网站上的泰米尔语书籍转换为HuggingFace数据集。该数据集从Project Madurai网站上抓取，包含超过1006本书籍，涵盖了从文学到小说的多种类型。数据集包含两个表：元数据表和源数据表。元数据表包含书籍的索引、编号、作者、标题和Unicode信息，而源数据表包含书籍的索引、ID、链接和泰米尔文本。泰米尔文本占95%以上，其余为罗马字母、数字和英文文本。该数据集适用于文本分类、问答、句子相似性和标记分类等NLP任务。

提供机构：

mastergokul

原始信息汇总

数据集概述

数据集名称

名称: Project Madurai Books Text Dataset

数据集配置

Metadata: 包含 pm_info_table.csv 文件，提供数据集的元数据，如索引、书籍编号、作者、书名和Unicode（HTML页面名称）。
Source Data: 包含 pm_source_text.csv 文件，提供数据集的源数据，包括索引、书籍ID、链接和泰米尔语文本。

任务类别

文本分类
问答
句子相似度
标记分类

语言

泰米尔语 (ta)

数据集大小

小于1000条记录 (n<1K)

许可证

Apache-2.0

数据集结构

第一表结构: 包含数据集的元数据，用于查找源数据的来源。
第二表结构: 包含数据集的源数据，每行可能包含一本书或半本书的内容。tamil_text 列主要包含泰米尔语文本，可能包含分隔符以简化数据处理。

数据集内容

数据集涵盖多种类型的泰米尔书籍，从文学到小说，适用于开发泰米尔语的自然语言处理模型。

5,000+

优质数据集

54 个

任务类型

进入经典数据集