five

Thirukural

收藏
魔搭社区2025-12-04 更新2025-03-01 收录
下载链接:
https://modelscope.cn/datasets/AI-ModelScope/Thirukural
下载链接
链接失效反馈
官方服务:
资源简介:
# 📖 திருக்குறள் Dataset ## 🔹 Introduction இந்த dataset-ல் **திருக்குறள்**, அதன் **விளக்கம்**, **பாடப்பிரிவுகள்** மற்றும் பல **உரைகள்** உள்ளன. > **Selvakumar Duraipandian**, one of the developers of **[thirukural.ai](https://thirukural.ai/)**, has contributed to this dataset, making it a valuable resource for various language models and chatbot applications. இதை **Natural Language Processing (NLP)** மற்றும் **Chatbot Fine-tuning** போன்ற Machine Learning வேலைகளுக்கு பயன்படுத்தலாம். ## 📂 Dataset Structure இந்த dataset **JSONL (JSON Lines) format**-ல் உள்ளது. ஒவ்வொரு **திருக்குறள்**-க்கும் அதன் பல்வேறு **உரைகள்** சேர்த்து கொடுக்கப்பட்டுள்ளன. ### 🔹 Example Structure ```json { "ID": 1, "Kural": "அகர முதல எழுத்தெல்லாம் ஆதி\nபகவன் முதற்றே உலகு.", "Transliteration": "Akara Mudhala Ezhuththellaam Aadhi Pakavan Mudhatre Ulaku", "Vilakam": "அகரம் எழுத்துக்களுக்கு முதன்மை; ஆதிபகவன், உலகில் வாழும் உயிர்களுக்கு முதன்மை", "parimezhalagar_urai": "...", "kalaingar_urai": "...", "m_varadharajanar": "...", "Solomon_pappaiya": "..." } ``` ## 🚀 Usage இந்த dataset-ஐ **Hugging Face**-ல் இருந்து Python-இல் load செய்ய: ```python from datasets import load_dataset dataset = load_dataset("Selvakumarduraipandian/Thirukural") print(dataset["train"][0]) ``` ## 🎯 Applications ✅ **Chatbot Training** - திருக்குறளை chat-style question-answer format-ஆக fine-tune செய்யலாம். ✅ **NLP Research** - Language Models-க்கு தமிழ் data வேண்டும் என்றால் இதை பயன்படுத்தலாம். ✅ **Educational Use** - திருக்குறள் தொடர்பான learning applications-ல் integrate செய்யலாம். ## 💡 Contribution இந்த dataset-ஐ மேம்படுத்த விரும்பினால், **Pull Request** அனுப்பலாம் அல்லது issue raise செய்யலாம்! 🙌 📩 Contact: [LinkedIn Profile](https://www.linkedin.com/in/selvakumarduraipandian/) --- license: mit dataset_info: features: - name: ID dtype: int64 - name: Adhigaram_ID dtype: int64 - name: Paal dtype: string - name: Iyal dtype: string - name: Adhigaram dtype: string - name: Kural dtype: string - name: Transliteration dtype: string - name: Vilakam dtype: string - name: Couplet dtype: string - name: Chapter dtype: string - name: Section dtype: string - name: Athigaram dtype: string - name: Kalaingar_Urai dtype: string - name: Parimezhalagar_Urai dtype: string - name: M_Varadharajanar dtype: string - name: Solomon_Pappaiya dtype: string splits: - name: train num_bytes: 4216819 num_examples: 1330 download_size: 1519400 dataset_size: 4216819 configs: - config_name: default data_files: - split: train path: data/train-* ---

# 📖 蒂鲁古拉尔(Thirukkural)数据集 ## 🔹 数据集简介 本数据集收录蒂鲁古拉尔原文、其注释解读、篇章分类以及多种评述文本。 > **塞勒瓦库马尔·杜拉潘迪安(Selvakumar Duraipandian)** 作为 **thirukural.ai** 的开发者之一,为本数据集作出了贡献,使其成为适配各类大语言模型与聊天机器人应用的优质资源。 本数据集可用于**自然语言处理(Natural Language Processing, NLP)**与**聊天机器人微调(Chatbot Fine-tuning)**等机器学习任务。 ## 📂 数据集结构 本数据集采用**JSONL(JSON Lines)格式**存储,每条蒂鲁古拉尔条目均附带其对应的多种评述文本。 ### 🔹 示例结构 json { "ID": 1, "Kural": "அகர முதல எழுத்தெல்லாம் ஆதி பகவன் முதற்றே உலகு.", "Transliteration": "Akara Mudhala Ezhuththellaam Aadhi Pakavan Mudhatre Ulaku", "Vilakam": "அகரம் எழுத்துக்களுக்கு முதன்மை; ஆதிபகவன், உலகில் வாழும் உயிர்களுக்கு முதன்மை", "parimezhalagar_urai": "...", "kalaingar_urai": "...", "m_varadharajanar": "...", "Solomon_pappaiya": "..." } ## 🚀 使用方法 可通过以下方式在Python中从**Hugging Face**加载本数据集: python from datasets import load_dataset dataset = load_dataset("Selvakumarduraipandian/Thirukural") print(dataset["train"][0]) ## 🎯 应用场景 ✅ **聊天机器人训练**:可将蒂鲁古拉尔数据转换为对话式问答格式以进行微调。 ✅ **自然语言处理研究**:若大语言模型需要泰米尔语训练数据,可使用本数据集。 ✅ **教育用途**:可将其集成至蒂鲁古拉尔相关的学习应用中。 ## 💡 贡献与反馈 若您希望完善本数据集,可提交**Pull Request(拉取请求)**或发起**Issue(议题)**! 🙌 📩 联系方式:[LinkedIn主页](https://www.linkedin.com/in/selvakumarduraipandian/) --- license: mit dataset_info: features: - name: ID dtype: int64 - name: Adhigaram_ID dtype: int64 - name: Paal dtype: string - name: Iyal dtype: string - name: Adhigaram dtype: string - name: Kural dtype: string - name: Transliteration dtype: string - name: Vilakam dtype: string - name: Couplet dtype: string - name: Chapter dtype: string - name: Section dtype: string - name: Athigaram dtype: string - name: Kalaingar_Urai dtype: string - name: Parimezhalagar_Urai dtype: string - name: M_Varadharajanar dtype: string - name: Solomon_Pappaiya dtype: string splits: - name: train num_bytes: 4216819 num_examples: 1330 download_size: 1519400 dataset_size: 4216819 configs: - config_name: default data_files: - split: train path: data/train-* ---
提供机构:
maas
创建时间:
2025-02-25
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作