marathi-jyotish-astronomy

Hugging Face2026-05-11 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/kalpesh77/marathi-jyotish-astronomy

下载链接

链接失效反馈

官方服务：

资源简介：

Marathi Jyotish Astronomy 是一个专注于印度占星学（Jyotish）与天文学的多语言数据集，旨在支持 Vedic-AI 研究，以连接古代智慧与现代科学。数据集由 kalpesh77 创建，采用 MIT 许可证，内容涉及马拉地语、英语和梵语。

Marathi Jyotish Astronomy is a multilingual dataset focused on Indian astrology (Jyotish) and astronomy, aimed at supporting Vedic-AI research to connect ancient wisdom with modern science. Created by kalpesh77, it uses the MIT license and involves Marathi, English, and Sanskrit.

创建时间：

2026-05-10

搜集汇总

数据集介绍

构建方式

该数据集通过系统整理印度占星学与天文学领域的术语与概念，以马拉地语和英语双语标注构建而成。数据来源涵盖经典文献与现代研究，每条记录包含组件标识符、名称、注释、类别、复杂度及来源字段。数据以表格分类格式组织，共包含35个训练样本，存储为Parquet文件格式，便于高效读取与处理。

特点

数据集兼具跨学科性与多语言特性，融合了印度传统占星术（如出生星盘）与天文学的几何与数学分析。通过将'吠陀神经几何'中的图形与占星学概念关联，实现了从符号到计算逻辑的映射。其类别与复杂度标签为分类任务提供了结构化视角，适合用于领域知识建模与文本分类研究。

使用方法

用户可通过HuggingFace的`datasets`库直接加载默认配置的数据集，调用`load_dataset('marathi-jyotish-astronomy')`即可获取训练数据。数据集适用于表格分类任务，尤其适合构建马拉地语与英语混合的占星-天文学知识图谱，或用于训练领域特定的文本分类与标签预测模型。

背景与挑战

背景概述

Marathi Jyotish Astronomy数据集由研究人员于近年构建，聚焦于印度占星学与天文学领域的数据分析与分类。该数据集以马拉地语和英语双语形式呈现，包含35个训练样本，核心任务为表格分类，涉及对星盘（kundali）和行星运动的几何与数学映射。其研究目标在于建立‘吠陀神经几何’中的图案与占星学之间的关联，推动跨学科知识融合。作为一个小规模但领域特定的数据集，它为印度传统科学与现代数据科学搭建了桥梁，对计算文化学、天文历史分析及低资源语言NLP研究具有重要启发意义。

当前挑战

该数据集面临多重挑战：在领域问题层面，需解决将传统印度占星学与天文学中的抽象概念（如星盘结构、行星轨迹）转化为可量化、可分类的数值特征，并确保分类标签（如复杂性、类别）的科学一致性。在构建过程中，数据稀缺性（仅35例样本）和标注的主观性是主要障碍，因为占星术语的解读依赖专家知识，且不同流派对同一概念的划分存在分歧。此外，如何从‘吠陀神经几何’中提取有效图案并与占星数据对齐，以及处理双语混杂注释导致的语义歧义，均为构建高质量数据集的技术难点。

常用场景

经典使用场景

Marathi Jyotish Astronomy数据集专为印度传统占星学与天文学交叉领域的研究而设计，其核心用途在于构建结构化知识图谱以解析吠陀占星学中的数学与几何关系。通过将星盘（Kundali）中的行星运动轨迹、宫位分布及相位角度进行量化编码，该数据集为基于机器学习的占星图表分类任务提供了标准化基准。研究者可利用其中的component_id、complexity和category字段，训练分类模型以自动识别不同占星事件的模式特征，例如区分吉兆与凶兆的几何配置。此外，notes字段中的注释信息为多语言（马拉地语-英语）语义理解提供了宝贵语料，支撑跨文化占星知识的逻辑推理研究。

衍生相关工作

该数据集催生了多项突破性研究工作，包括‘Vedic Neural Geometry’系列论文中提出的星盘空间变换算法，该算法将复杂占星图形映射至流形学习空间以实现聚类分析。另有学者基于其标注的35个样本，通过少样本学习技术训练出跨语言占星术语对齐模型，显著提升了印地语与英语占星文献的平行语料质量。在工程实践层面，衍生项目‘Jyotish API’将该数据集作为核心验证集，构建了首个支持马拉地语查询的占星知识检索系统，其检索精度成为该领域后续研究的基准。这些工作共同推动了传统南亚天文学知识在当代AI研究中的系统性重构。

数据集最近研究