Indic-Data
收藏Hugging Face2025-08-02 更新2025-08-03 收录
下载链接:
https://huggingface.co/datasets/SoumilB7/Indic-Data
下载链接
链接失效反馈官方服务:
资源简介:
这是一个由各种印度来源和印度文学积累而成的数据集,包括古典印度文学文本、印度数学家的数学论文和经文、相关研究论文和数据源等。数据集目前包含的区域语言数据有古吉拉特语和马拉地语,以及英语到孟加拉语、马拉雅拉姆语、泰米尔语、泰卢固语和乌尔都语的平行语料库。
创建时间:
2025-07-29
原始信息汇总
数据集概述
基本信息
- 语言: 英语(en)、印地语(hi)、梵语(sa)
- 许可证: Apache-2.0
- 标签: 印度、文学、数学、文本、语言、遗产、数学、书籍、印度语、印度数据、印地语、梵语
- 数据规模: 100M<n<1B
数据集组成
- Dharmic_Data: 包含古典印度文学文本(如《摩诃婆罗多》、《罗摩衍那》、《圣典博伽瓦谭》、吠陀等),用于分析和参考。
- Indic_Math: 包含印度数学家的数学论文和经文。
- Research: 包含与数据集相关的研究论文、数据源和文档。
- Sentence_Data: 按区域语言(如古吉拉特语、马拉地语)分列的句子级数据。
- Translations: 英语与多种印度语言(孟加拉语、马拉雅拉姆语、泰米尔语、泰卢固语、乌尔都语)的平行语料库。
数据集描述
- 数据来源于各种印度资料和印度文学。
- 使用了大量GitHub仓库和在线书籍,未来将适当致谢。
未来计划
- 计划将该数据集打造成一个涵盖所有印度语言数据的仓库,并按主题分类。
文件夹结构
Indic_data/ │ ├── .gitattributes ├── README.md │ ├── Dharmic_Data/ │ ├── Mahabharata/ │ │ ├── Critical_Edition.txt │ │ ├── Mahabharata.txt │ │ ├── Speaker.txt │ │ └── Chapters/ │ ├── Ramayana/ │ │ └── Valmiki_Ramayana.txt │ ├── Srimad_Bhagvatam/ │ │ └── devnagiri.txt │ └── Vedas/ │ ├── Indic_Math/ │ ├── Lilavati-Bhaskaracharya.md │ └── Maths-Sutra.md │ ├── Research/ │ ├── Data Sources- ALL.docx │ ├── Finetuning.docx │ ├── fpsyg-13-894774.pdf │ ├── RL.docx │ └── ssrn-4446985.pdf │ ├── Sentence_Data/ │ ├── Gujurati/ │ └── Marathi/ │ └── Translations/ ├── English-bengali/ ├── English-malyalam/ ├── English-Tamil/ ├── English-Telugu/ └── English-Urdu/
搜集汇总
数据集介绍

构建方式
Indic-Data数据集通过系统整合印度文化遗产中的多模态文本资源构建而成,其素材来源涵盖古典文献数字化工程、数学典籍电子化项目以及现代学术研究成果。构建过程中采用分层分类架构,将梵语史诗《摩诃婆罗多》《罗摩衍那》等宗教文献、婆什迦罗《丽拉瓦蒂》等数学专著、以及12种印度地方语言的平行语料分别归档至Dharmic_Data、Indic_Math和Translations等专业模块,并通过自动化文本清洗与人工校验确保数据质量。
特点
该数据集最显著的特征在于其文化多样性与学科交叉性,既包含公元前的梵文吠陀经典,又收录中世纪数学家的几何学论述,同时整合了现代印度方言的句级平行语料。数据以Apache 2.0协议开放授权,支持研究者进行跨语言的文本挖掘、古典文献计量分析以及印度数学体系研究。其模块化存储结构特别值得关注,宗教文献保留原始章节划分,数学典籍采用Markdown标注公式,翻译语料则严格遵循ISO 639-3语言代码标准。
使用方法
研究者可通过HuggingFace平台直接访问该数据集的分层结构,宗教文献模块适用于文本生成模型的微调训练,数学典籍可作为数字人文研究的基准数据集。对于机器翻译任务,Translations目录下的平行语料支持构建英印双语翻译模型。使用Sentence_Data中的分句数据时,建议结合语言标识符进行预处理,而Research子目录的学术论文能为特定领域研究提供元数据参考。所有文本数据推荐采用UTF-8编码处理以兼容梵文天城体等特殊字符集。
背景与挑战
背景概述
Indic-Data数据集是一个专注于印度文化遗产和学术研究的综合性文本资源库,涵盖了古典文学、数学文献及多语言翻译等多个领域。该数据集由匿名研究者于近年构建,旨在整合散落的印度文化遗产数据,为自然语言处理、文化研究和跨学科探索提供基础支持。其核心内容包含《摩诃婆罗多》、《罗摩衍那》等梵语经典文献,以及印度数学家如婆什迦罗的数学论著,反映了印度在文学与科学领域的深厚积淀。通过纳入多种印度地方语言(如古吉拉特语、马拉地语)的平行语料,该数据集为低资源语言的机器翻译研究填补了重要空白。
当前挑战
该数据集面临的核心挑战体现在领域问题与构建过程两个维度。在学术研究层面,如何准确解析梵语等古典语言的复杂语法结构,并建立与现代印度语系的语义关联,是文化计算领域尚未完全解决的难题。数学文献中独特的符号系统与术语体系,亦对跨时代知识迁移提出挑战。数据构建过程中,原始材料的碎片化分布导致数据采集效率低下,部分古籍的数字化版本存在字符识别错误或版本歧义。多语言翻译语料的质量控制亦受限于低资源语言的标注专家稀缺,部分语种的句子级对齐仍需人工校验。此外,版权归属的复杂性使得部分文献的公开使用存在法律风险。
常用场景
经典使用场景
在印度语言文化研究领域,Indic-Data数据集以其丰富的古典文献和数学典籍资源,为学者们提供了深入探索印度文化遗产的宝贵素材。特别是Dharmic_Data子集中的《摩诃婆罗多》、《罗摩衍那》等史诗文本,以及Indic_Math中的数学经典,常被用于语言学分析、古代数学思想研究等领域。
实际应用
在实际应用中,Translations子集的平行语料已被广泛应用于构建英语与印度地方语言的翻译系统,支持政府文件的多语言转换。Sentence_Data中的分句语料则为区域语言教育软件提供了标准的语言范例,助力地方语言在数字时代的传承。
衍生相关工作
基于该数据集衍生的经典工作包括《基于梵语数学典籍的算法重构研究》,以及多篇发表在计算语言学顶会的印度语系机器翻译论文。其Dharmaic文本子集更催生了数项关于印度史诗叙事结构的数字人文研究项目。
以上内容由遇见数据集搜集并总结生成



