five

TamilThagaval/avvaiyar-konraiventan

收藏
Hugging Face2026-04-13 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/TamilThagaval/avvaiyar-konraiventan
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit task_categories: - translation - table-question-answering - text-classification language: - ta tags: - art pretty_name: Konraiventan size_categories: - 1K<n<10K --- # 📘 Dataset Card: Vinayakar Literature Dataset (Tamil) ## 🧾 Dataset Overview This dataset is derived from classical Tamil literature focusing on **Vinayakar-related verses** and structured poetic content. The dataset captures poems along with their meanings (explanations), making it suitable for Natural Language Processing (NLP) tasks in Tamil. The name of the work is derived from the opening line of the poem: > **"பாட்டின் முதல் தொடரால் இந்நூல் இப்பெயரைப் பெற்றது."** This collection contains: * **91 அடிப்பாக்கல் (verses)** * Structured poetic and explanatory content --- ## 📚 Dataset Structure Each entry in the dataset may contain: * `poem` → Tamil verse * `explanation` → Meaning or interpretation of the verse Example: ```json { "poem": "அன்னையும் பிதாவும் முன்னறி தெய்வம்", "explanation": "தாய், தந்தையர் கண்கண்ட தெய்வம்" } ``` --- ## 🪔 Sections Included ### 1. கடவுள் வாழ்த்து (Invocation) **Poem:** கொன்றை வேந்தன் செல்வன் அடியினை என்றும் ஏத்தித் தொழுவோம் யாமே. **Explanation:** கொன்றைப் பூமாலையை அணிந்திருக்கும் சிவபெருமானின் செல்வனாகிய வினாயகக் கடவுளை என்றும் போற்றி வணங்குவோம். --- ### 2. நூல் (Main Content) #### உயிர் வருக்கம் (Section: Uyir Varukkam) **Verse 1:** அன்னையும் பிதாவும் முன்னறி தெய்வம் **Explanation:** தாய், தந்தையர் கண்கண்ட தெய்வம் --- ## 🎯 Use Cases This dataset can be used for: * 📖 Tamil Question Answering (QA) * 🧠 Semantic Search in Tamil * ✍️ Text Generation (Kural-style or poetic generation) * 🏷️ Text Classification * 🔍 Information Retrieval --- ## 🌐 Language * Tamil (ta) --- ## 🛠️ Preprocessing Notes * Text is normalized in Unicode Tamil * Line breaks are preserved for poetic structure * Explanations are aligned with corresponding verses --- ## ⚖️ License Please ensure compliance with the original source licensing if applicable. --- ## 🙌 Acknowledgement This dataset is curated to support Tamil NLP research and promote accessibility of classical Tamil literature. --- ## 🚀 Future Improvements * Add more Tamil literary works * Expand annotations (POS, NER, semantic labels) * Build embeddings and search indexes --- 💡 *This dataset is ideal for building AI models that understand and generate Tamil literary text.*
提供机构:
TamilThagaval
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作