Malayalam-books-granthappura-new

Hugging Face2025-08-08 更新2025-08-09 收录

下载链接：

https://huggingface.co/datasets/cazzz307/Malayalam-books-granthappura-new

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含马拉雅拉姆语历史书籍和文献的数字集合，来源于Granthappura数字档案馆，涵盖了从19世纪末到20世纪初的古典文学、宗教作品、电影歌曲书籍以及其他文化重要文本。数据集以PDF格式存储，并提供了一个紧凑型索引来辅助研究。

创建时间：

2025-08-08

原始信息汇总

Malayalam Books from Granthappura (File Dataset) 概述

基本信息

名称: Malayalam Books from Granthappura (File Dataset)
语言: 马拉雅拉姆语 (ml)
标签: malayalam, books, literature, kerala, digital-archive, historical-texts, pdf, scanned
许可证: CC BY 4.0
规模: 1K<n<10K

数据集来源

原始来源: Granthappura Digital Archive (https://gpura.org)
内容: 历史马拉雅拉姆语书籍和文档，涵盖19世纪末至20世纪的古典文学、宗教作品、电影歌曲书籍等。

数据集结构

PDF文件: 存储在 pdfs/ 目录下 (Git LFS)
索引文件:
- index/index.csv (CSV格式)
- index/index.parquet (Parquet格式)

索引模式

每行对应一个PDF文件，包含以下字段：

filename: PDF文件名
path_in_repo: 文件在仓库中的相对路径
size_bytes: 文件大小（字节）
title: 从文件名解析的标题
year: 出版年份
author: 作者（如可解析）
publisher: 通常为 "Granthappura"
language: 马拉雅拉姆语 (ml)
type: 类型（如 book）

使用方式

选项A: 本地下载索引和PDF

python from pathlib import Path from huggingface_hub import snapshot_download import pandas as pd

repo_id = "cazzz307/Malayalam-books-granthappura-new" local_dir = snapshot_download( repo_id=repo_id, repo_type="dataset", allow_patterns=["index/", "pdfs/.pdf"], )

index_path = Path(local_dir) / "index/index.parquet" df = pd.read_parquet(index_path) print(len(df), "rows")

pdf_path = Path(local_dir) / df.loc[0, "path_in_repo"] print(pdf_path.exists())

选项B: 仅远程读取索引

python import pandas as pd repo_id = "cazzz307/Malayalam-books-granthappura-new" base = f"https://huggingface.co/datasets/{repo_id}/resolve/main/index" index_url = f"{base}/index.csv"

df = pd.read_csv(index_url) print(df.head())

import requests pdf_url = f"https://huggingface.co/datasets/{repo_id}/resolve/main/" + df.loc[0, "path_in_repo"] r = requests.get(pdf_url) open("sample.pdf", "wb").write(r.content)

使用场景

OCR基准测试和训练（马拉雅拉姆语）
历史文本分析 / 数字人文
扫描材料的文档布局/视觉任务
PDF检索和索引研究

伦理与权利

归属: 请引用并注明原始来源 — Granthappura Digital Archive (https://gpura.org)
权利: PDF为历史扫描件，权利归Granthappura和/或原始出版商所有
许可证: 数据集索引和卡片使用CC BY 4.0，但不适用于PDF内容
移除: 通过数据集页面联系以请求立即删除

引用

主要归属

Original Source: Granthappura Digital Archive (https://gpura.org) Kerala Digital Heritage Collection

数据集引用

Malayalam Historical Books (File Dataset) Aggregated from: Granthappura Digital Archive (https://gpura.org) Accessed: August 2025 Note: All rights remain with original source and rightsholders.

限制

元数据为最佳效果，可能不完整
PDF文件较大，下载整个集合需要大量带宽和存储空间
未提供OCR文本，PDF为扫描件

变更日志

2025-08: 初始发布为文件数据集，包含紧凑索引（未在Parquet中嵌入PDF）

搜集汇总

数据集介绍

构建方式

该数据集构建于Granthappura数字档案馆公开的马拉雅拉姆语书籍扫描件，涵盖19世纪末至20世纪的历史文献。采用文件级存储架构，PDF文档通过Git LFS技术托管，配套轻量级元数据索引以CSV和Parquet格式提供。索引信息通过启发式算法从文件名提取，包含书名、出版年份等关键字段，形成约89GB的数字化文献集合。

使用方法

研究者可通过HuggingFace Hub的snapshot_download接口批量获取PDF及索引，或仅远程读取CSV索引进行选择性下载。典型应用场景包括：基于pandas的元数据分析、requests库实现的单文档获取，以及大规模文档处理任务的预处理。使用时应特别注意存储需求预警，89GB的体量需配置相应硬件支持，并始终遵循Granthappura档案馆的引用规范。

背景与挑战

背景概述

Malayalam-books-granthappura-new数据集由Granthappura数字档案馆创建，旨在保存和传播马拉雅拉姆语的历史文献。该数据集收录了19世纪末至20世纪的珍贵书籍和文档，涵盖古典文学、宗教著作、电影歌曲集等多种文化文本，为研究喀拉拉邦的历史与文化提供了重要资源。数据集以PDF格式存储，并通过紧凑的索引文件（CSV和Parquet）提供元数据，便于学术研究和技术开发。该数据集的发布不仅推动了马拉雅拉姆语文献的数字化进程，也为OCR技术、历史文本分析和数字人文研究提供了丰富的素材。

当前挑战

该数据集面临的主要挑战包括：1) 领域问题方面，马拉雅拉姆语作为低资源语言，其OCR技术尚未成熟，历史文献的扫描质量参差不齐，进一步增加了文本识别的难度；2) 构建过程中，由于文献年代久远，部分元数据缺失或不准确，需要通过启发式方法从文件名中提取，导致数据质量不稳定。此外，数据集体积庞大（约89GB），对存储和带宽提出了较高要求，且未提供OCR文本，用户需自行处理扫描文件，增加了使用门槛。

常用场景

经典使用场景

在马拉雅拉姆语文献研究领域，该数据集为学者提供了19世纪末至20世纪丰富的原始文本资源，涵盖古典文学、宗教典籍和电影歌曲集等多元体裁。其典型应用场景包括历史语言学中的词汇演变分析，通过对比不同时期的文本特征，揭示语言发展的内在规律。数字人文研究者可借助该数据集构建时间序列模型，量化文学作品风格的变化趋势。

解决学术问题

该数据集有效解决了南亚语言学研究中的原始材料获取难题，为低资源语言处理任务提供了基准测试平台。其历史文本特性支持学者探讨殖民时期语言接触现象，而扫描文档的多样性则为文档图像分析领域创造了研究条件。在文化传承维度，数据集填补了喀拉拉邦地方文献数字化保护的空白。

实际应用

教育机构利用该数据集开发马拉雅拉姆语OCR训练系统，提升古籍数字化效率。图书馆将其作为元数据标引的参考标准，优化文献检索体系。文化保护组织通过文本挖掘技术，从电影歌曲集中提取民俗音乐演变模式，辅助非物质文化遗产的活态传承。

数据集最近研究