AMBILE_Shah_Jo_Risalo_Labeled
收藏Hugging Face2025-08-28 更新2025-08-29 收录
下载链接:
https://huggingface.co/datasets/ambile-official/AMBILE_Shah_Jo_Risalo_Labeled
下载链接
链接失效反馈官方服务:
资源简介:
AMBILE Shah Jo Risalo数据集是一个全面的语言学和文学资源,包含了来自Shah Abdul Latif Bhittai的杰作中的4,767行信德语诗歌,这些诗歌涵盖了30个传统的Surs(部分)。每个诗歌都有罗马脚本、梵文脚本和信德语Unicode格式的配对,以及信德语、英语、乌尔都语和旁遮普语的翻译。该数据集为研究人员、语言学家、教育工作者和开发人员提供了一个宝贵的资源,用于研究信德文学和AI/NLP应用。
创建时间:
2025-08-26
原始信息汇总
AMBILE Shah Jo Risalo 数据集概述
数据集基本信息
- 名称:AMBILE Shah Jo Risalo
- 开发机构:Abdul Majid Bhurgri Institute of Language Engineering (AMBILE), Hyderabad
- 管理机构:Culture, Tourism, Antiquities & Archives Department, Government of Sindh
- 许可证:Creative Commons Attribution-NonCommercial 4.0 License
- 数据格式:CSV
- 文件名称:Bhittaipedia Risalo -(25-08-25).csv
- 数据规模:4,767条诗歌诗句
- 语言:信德语(Sindhi Arabic Perso脚本)
- 标签:教育、艺术、ShahJORisalo、诗歌
数据集内容
数据集包含来自Shah Abdul Latif Bhittai代表作30个传统Surs(章节)的4,767条信德诗歌诗句。每条诗歌诗句包含以下多语言和多脚本版本:
- 原始文本:信德语阿拉伯波斯文字(Sindhi Arabic Perso)
- 转写文本:罗马文字(Roman Script)、天城文字(Devanagri Script)
- 翻译文本:信德语解释(Explanation)、英语翻译(Amar Fayaz Buriro译)、乌尔都语翻译(Agha Saleem译)、旁遮普语翻译(Kartar Singh Arsh译)
数据结构
CSV文件包含以下字段:
- Row_ID:唯一行标识符
- Melody Number:旋律编号
- Melody (سر):Sur(章节)名称
- Chapter Number:章节内诗句编号
- Chapter (داستان):Sur内子章节
- Type:诗句类型或类别
- Bait / Vaayi Number:诗歌形式编号
- Sindhi Arabic Perso:原始信德诗歌诗句
- Roman Script:罗马文字转写
- Devanagri Script:天城文字转写
- Explanation:信德语解释
- English Translation:英语翻译
- Urdu Translation:乌尔都语翻译
- Punjabi Translation:旁遮普语翻译
- Keywords:搜索优化关键词
应用领域
- 信德语自然语言处理(NLP)研究
- AI驱动的信德语聊天机器人和对话代理开发
- 文学学习教育工具创建
- 文本转语音(TTS)系统训练
- 诗歌分类和情感分析项目
- 信德文学遗产的数字保存和推广
数据来源
数据集来源于https://bhittaipedia.org/sur-kalyan/d-1/1的AMBILE Bhittaipedia项目,该项目旨在数字化和保存信德文学文化遗产。
使用限制
本数据集仅用于教育和研究目的,禁止商业用途。
联系方式
- 邮箱:datasets@sindh.ai
- 团队:https://bhittaipedia.org/p/bhittai-pedia-team
搜集汇总
数据集介绍

构建方式
在文化遗产数字化保护的背景下,AMBILE_Shah_Jo_Risalo_Labeled数据集通过系统化采集与多维度标注构建而成。项目团队从30个传统苏尔(Surs)章节中精选4,767行信德语诗歌原文,采用三重文字体系(阿拉伯波斯式信德文、罗马化转写、天城文转写)呈现,并邀请专业译者团队完成信德语、英语、乌尔都语及旁遮普语的四重平行翻译。每行诗歌均配备哲学解读与关键词标注,形成结构化的多模态文学语料库。
特点
该数据集突出体现多语言平行对齐与文化遗产深度标注的双重特性。诗歌原文严格采用Unicode标准化信德文字符,确保语言处理的准确性;七种文本变体(原文+三种文字体系+四种译文)为跨语言NLP研究提供稀缺资源。关键词标注层融合文学主题与情感标签,支持细粒度文本分类。数据集设计兼顾机器可读性与人文研究需求,成为南亚语言数字人文研究的标杆性资源。
使用方法
研究者可通过加载CSV文件快速开展多任务NLP实验。使用Pandas库读取数据后,可提取特定字段进行跨语言词向量训练、诗歌韵律分析或多机翻译任务。针对教育应用场景,可结合Explanation字段开发智能诗歌解读系统;Keywords字段支持构建主题检索引擎。文本生成任务建议联合多译文数据训练创作模型,情感分析则可利用多语言标注实现跨文化情感映射验证。
背景与挑战
背景概述
AMBILE_Shah_Jo_Risalo_Labeled数据集由信德省政府文化、旅游、古迹与档案部下属的海得拉巴Abdul Majid Bhurgri语言工程研究所(AMBILE)开发,致力于数字化保存18世纪苏非诗人Shah Abdul Latif Bhittai的经典作品《Shah Jo Risalo》。该数据集收录了来自30个传统旋律章节的4767条信德语诗歌节,采用信德阿拉伯波斯文、罗马文、天城文等多文字体系呈现,并配备信德语、英语、乌尔都语和旁遮普语的多语言译文,为研究南亚文学、跨语言计算语言学与数字人文提供了珍贵的语料资源。
当前挑战
该数据集旨在解决信德语文学数字化与多模态自然语言处理中的核心挑战,包括低资源语言的诗句自动分类、跨脚本文本对齐与多语言语义等效性验证。构建过程中面临古籍文本的字符标准化问题,涉及信德阿拉伯波斯文Unicode编码的统一处理;多译者译文的质量一致性控制,以及诗歌特有的韵律结构与隐喻语言在机器可读格式中的无损保留。
常用场景
经典使用场景
在数字人文与计算语言学领域,该数据集为研究信德语古典诗歌提供了多模态分析基础。学者们利用其平行语料开展跨语言韵律学研究,通过对比原文与罗马化、天城文转写版本,深入解析沙阿·阿卜杜勒·拉蒂夫·布塔伊诗歌的音韵结构和格律特征。多语言译文版本进一步支持比较文学研究,揭示不同文化视角下的诗意诠释差异。
衍生相关工作
基于该数据集衍生了信德语诗歌自动分类系统,采用深度学习模型对30种传统旋律(Sur)进行风格识别。学者们构建了多语言诗歌情感分析框架,通过对比四语译文探究文化特异性情感表达。近期研究还开发了跨语言诗歌生成模型,利用平行语料学习信德语与乌尔都语、旁遮普语之间的诗意转换规律。
数据集最近研究
最新研究方向
在数字人文与计算语言学交叉领域,该数据集正推动多模态诗歌分析的前沿探索。研究者通过融合音韵特征与语义表征,构建跨语言的诗歌情感计算框架,结合迁移学习技术提升低资源语言的诗节分类精度。近期研究聚焦于生成式人工智能在文化传承中的应用,如基于多语言对齐的诗歌续写和风格模仿,同时探索多脚本文本的神经机器翻译模型优化,为南亚地区数字文化遗产保护提供关键技术支撑。
以上内容由遇见数据集搜集并总结生成



