five

Malayalam-books-granthappura-new

收藏
Hugging Face2025-08-08 更新2025-08-09 收录
下载链接:
https://huggingface.co/datasets/cazzz307/Malayalam-books-granthappura-new
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含马拉雅拉姆语历史书籍和文献的数字集合,来源于Granthappura数字档案馆,涵盖了从19世纪末到20世纪初的古典文学、宗教作品、电影歌曲书籍以及其他文化重要文本。数据集以PDF格式存储,并提供了一个紧凑型索引来辅助研究。
创建时间:
2025-08-08
原始信息汇总

Malayalam Books from Granthappura (File Dataset) 概述

基本信息

  • 名称: Malayalam Books from Granthappura (File Dataset)
  • 语言: 马拉雅拉姆语 (ml)
  • 标签: malayalam, books, literature, kerala, digital-archive, historical-texts, pdf, scanned
  • 许可证: CC BY 4.0
  • 规模: 1K<n<10K

数据集来源

  • 原始来源: Granthappura Digital Archive (https://gpura.org)
  • 内容: 历史马拉雅拉姆语书籍和文档,涵盖19世纪末至20世纪的古典文学、宗教作品、电影歌曲书籍等。

数据集结构

  • PDF文件: 存储在 pdfs/ 目录下 (Git LFS)
  • 索引文件:
    • index/index.csv (CSV格式)
    • index/index.parquet (Parquet格式)

索引模式

每行对应一个PDF文件,包含以下字段:

  • filename: PDF文件名
  • path_in_repo: 文件在仓库中的相对路径
  • size_bytes: 文件大小(字节)
  • title: 从文件名解析的标题
  • year: 出版年份
  • author: 作者(如可解析)
  • publisher: 通常为 "Granthappura"
  • language: 马拉雅拉姆语 (ml)
  • type: 类型(如 book

使用方式

选项A: 本地下载索引和PDF

python from pathlib import Path from huggingface_hub import snapshot_download import pandas as pd

repo_id = "cazzz307/Malayalam-books-granthappura-new" local_dir = snapshot_download( repo_id=repo_id, repo_type="dataset", allow_patterns=["index/", "pdfs/.pdf"], )

index_path = Path(local_dir) / "index/index.parquet" df = pd.read_parquet(index_path) print(len(df), "rows")

pdf_path = Path(local_dir) / df.loc[0, "path_in_repo"] print(pdf_path.exists())

选项B: 仅远程读取索引

python import pandas as pd repo_id = "cazzz307/Malayalam-books-granthappura-new" base = f"https://huggingface.co/datasets/{repo_id}/resolve/main/index" index_url = f"{base}/index.csv"

df = pd.read_csv(index_url) print(df.head())

import requests pdf_url = f"https://huggingface.co/datasets/{repo_id}/resolve/main/" + df.loc[0, "path_in_repo"] r = requests.get(pdf_url) open("sample.pdf", "wb").write(r.content)

使用场景

  • OCR基准测试和训练(马拉雅拉姆语)
  • 历史文本分析 / 数字人文
  • 扫描材料的文档布局/视觉任务
  • PDF检索和索引研究

伦理与权利

  • 归属: 请引用并注明原始来源 — Granthappura Digital Archive (https://gpura.org)
  • 权利: PDF为历史扫描件,权利归Granthappura和/或原始出版商所有
  • 许可证: 数据集索引和卡片使用CC BY 4.0,但不适用于PDF内容
  • 移除: 通过数据集页面联系以请求立即删除

引用

主要归属

Original Source: Granthappura Digital Archive (https://gpura.org) Kerala Digital Heritage Collection

数据集引用

Malayalam Historical Books (File Dataset) Aggregated from: Granthappura Digital Archive (https://gpura.org) Accessed: August 2025 Note: All rights remain with original source and rightsholders.

限制

  • 元数据为最佳效果,可能不完整
  • PDF文件较大,下载整个集合需要大量带宽和存储空间
  • 未提供OCR文本,PDF为扫描件

变更日志

  • 2025-08: 初始发布为文件数据集,包含紧凑索引(未在Parquet中嵌入PDF)
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集构建于Granthappura数字档案馆公开的马拉雅拉姆语书籍扫描件,涵盖19世纪末至20世纪的历史文献。采用文件级存储架构,PDF文档通过Git LFS技术托管,配套轻量级元数据索引以CSV和Parquet格式提供。索引信息通过启发式算法从文件名提取,包含书名、出版年份等关键字段,形成约89GB的数字化文献集合。
使用方法
研究者可通过HuggingFace Hub的snapshot_download接口批量获取PDF及索引,或仅远程读取CSV索引进行选择性下载。典型应用场景包括:基于pandas的元数据分析、requests库实现的单文档获取,以及大规模文档处理任务的预处理。使用时应特别注意存储需求预警,89GB的体量需配置相应硬件支持,并始终遵循Granthappura档案馆的引用规范。
背景与挑战
背景概述
Malayalam-books-granthappura-new数据集由Granthappura数字档案馆创建,旨在保存和传播马拉雅拉姆语的历史文献。该数据集收录了19世纪末至20世纪的珍贵书籍和文档,涵盖古典文学、宗教著作、电影歌曲集等多种文化文本,为研究喀拉拉邦的历史与文化提供了重要资源。数据集以PDF格式存储,并通过紧凑的索引文件(CSV和Parquet)提供元数据,便于学术研究和技术开发。该数据集的发布不仅推动了马拉雅拉姆语文献的数字化进程,也为OCR技术、历史文本分析和数字人文研究提供了丰富的素材。
当前挑战
该数据集面临的主要挑战包括:1) 领域问题方面,马拉雅拉姆语作为低资源语言,其OCR技术尚未成熟,历史文献的扫描质量参差不齐,进一步增加了文本识别的难度;2) 构建过程中,由于文献年代久远,部分元数据缺失或不准确,需要通过启发式方法从文件名中提取,导致数据质量不稳定。此外,数据集体积庞大(约89GB),对存储和带宽提出了较高要求,且未提供OCR文本,用户需自行处理扫描文件,增加了使用门槛。
常用场景
经典使用场景
在马拉雅拉姆语文献研究领域,该数据集为学者提供了19世纪末至20世纪丰富的原始文本资源,涵盖古典文学、宗教典籍和电影歌曲集等多元体裁。其典型应用场景包括历史语言学中的词汇演变分析,通过对比不同时期的文本特征,揭示语言发展的内在规律。数字人文研究者可借助该数据集构建时间序列模型,量化文学作品风格的变化趋势。
解决学术问题
该数据集有效解决了南亚语言学研究中的原始材料获取难题,为低资源语言处理任务提供了基准测试平台。其历史文本特性支持学者探讨殖民时期语言接触现象,而扫描文档的多样性则为文档图像分析领域创造了研究条件。在文化传承维度,数据集填补了喀拉拉邦地方文献数字化保护的空白。
实际应用
教育机构利用该数据集开发马拉雅拉姆语OCR训练系统,提升古籍数字化效率。图书馆将其作为元数据标引的参考标准,优化文献检索体系。文化保护组织通过文本挖掘技术,从电影歌曲集中提取民俗音乐演变模式,辅助非物质文化遗产的活态传承。
数据集最近研究
最新研究方向
在数字人文领域,马拉雅拉姆语历史文献数据集Malayalam-books-granthappura-new正推动着多学科交叉研究。该数据集收录的19至20世纪喀拉拉邦珍贵文献,为语言技术研究提供了稀缺资源,尤其在低资源语言OCR模型优化方向引发广泛关注。近期研究聚焦于结合深度学习与文档图像分析技术,提升对复杂马拉雅拉姆文字符和古籍版式的识别精度。数字档案的开放共享特性,促使文献计量学研究者探索南印度地区文化传播的时空演变模式,而宗教典籍与电影歌本的并存,为文化符号的跨媒介研究创造了独特条件。在技术伦理层面,数据集采用的分布式存储架构与权利分离策略,为数字遗产的合规使用提供了可借鉴的实践方案。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作