Thirukkural-Tamil-Dataset

github2024-05-06 更新2024-05-31 收录

下载链接：

https://github.com/vijayanandrp/Thirukkural-Tamil-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Thirukkural-Tamil-Dataset包含了由Thiruvalluvar编写的Thirukkural的全部内容，分为三个书：关于Aram（道德或达摩）、Porul（物质或阿莎）和Inbam（快乐或卡玛）。数据集详细记录了每个章节的内容，并提供了泰米尔语和英语的翻译。

The Thirukkural-Tamil-Dataset encompasses the complete content of Thirukkural, authored by Thiruvalluvar, organized into three books: Aram (virtue or dharma), Porul (wealth or artha), and Inbam (love or kama). This dataset meticulously documents the content of each chapter and provides translations in both Tamil and English.

创建时间：

2017-08-19

原始信息汇总

数据集概述

数据集名称

Thirukkural---Datasets

作者

Thiruvalluvar

内容结构

第一本书：Aram (Dharma)
- 共37章
- 前4章为Payiram（序言）
- 中间20章关于Ill-Aram（家庭生活）
- 后13章关于Turavaram（弃绝生活）
第二本书：Porul (Artha)
- 共70章
- 前20章关于国王及其职责
- 中间32章关于国家事务
- 后13章关于其他事务
第三本书：Inbam (Kama)
- 共25章
- 前7章关于婚前爱情
- 后18章关于婚后爱情

数据集内容

text_all
- 包含基于每个章节的所有数据
text
- 包含基于每个章节的数据

数据格式

每个kural以JSON格式存储，包含多个键值对，如：
- 0_number, 1_couplet, 1_kural, 1_line1, 1_line2, 1_translation, 1_transliteration1, 1_transliteration2, 2_adikaram, 2_translation, 2_transliteration, 3_pal, 3_translation, 3_transliteration, 4_iyal, 4_translation, 4_transliteration, 5_explanation, 5_mk, 5_mv, 5_sp, 6_explanation, 6_manikudavar, 6_mu_karu, 6_mu_varatha, 6_parimela, 6_salaman, 6_translation, 6_v_munusami

语言支持

所有翻译均提供泰米尔语和英语版本。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于泰米尔文学经典《திருக்குறள்》（Thirukkural），由泰米尔诗人திருவள்ளுவர்（Thiruvalluvar）创作。该作品分为三部分，分别探讨了阿兰（道德）、波鲁尔（物质）和因巴姆（欢乐）的主题。数据集通过将《திருக்குறள்》的每一章节内容进行结构化处理，生成了包含所有章节的JSON格式数据。每个库尔（kural）都以JSON对象的形式呈现，包含编号、双行诗、翻译、注释等多项信息，确保了数据的完整性和可读性。

使用方法

使用该数据集时，用户可以通过加载JSON文件来访问《திருக்குறள்》的所有内容。数据集提供了多种字段，如编号、双行诗、翻译、注释等，用户可以根据需求选择相应的字段进行分析或展示。此外，数据集还附带了一个Python脚本（main.py），用于读取和处理JSON文件，生成最终的库尔JSON文件，简化了数据处理流程，便于用户快速上手使用。

背景与挑战

背景概述

Thirukkural-Tamil-Dataset 是一个关于泰米尔文学经典《திருக்குறள்》（Thirukkural）的数据集。该作品由泰米尔诗人திருவள்ளுவர்（Thiruvalluvar）创作，分为三部分，分别探讨了阿兰（道德）、波鲁尔（物质）和因巴姆（爱情）的主题。该数据集包含了所有章节的文本，并提供了泰米尔语和英语的双语翻译，涵盖了从道德到政治、爱情等多个领域的智慧。该数据集的创建旨在为研究者提供一个全面的资源，以便深入研究泰米尔文学及其哲学思想。

当前挑战

Thirukkural-Tamil-Dataset 面临的挑战主要集中在数据的多语言处理和文本的深度解析上。首先，确保泰米尔语和英语翻译的准确性和一致性是一个重要问题，因为这直接影响到研究者对文本的理解。其次，构建过程中需要处理大量的文本数据，如何有效地组织和索引这些数据以方便研究者检索和分析也是一个技术挑战。此外，该数据集的应用领域广泛，包括文学研究、语言学、哲学等，如何在不同领域中发挥其最大价值也是一个需要解决的问题。

常用场景

经典使用场景

Thirukkural-Tamil-Dataset 数据集的经典使用场景主要集中在对泰米尔文学经典《திருக்குறள்》（Thirukkural）的深入研究与分析。该数据集提供了完整的库尔文本及其翻译，涵盖了道德、物质和情感三个主要领域。研究者可以利用该数据集进行文本分析、语言学研究以及跨文化比较，尤其是对泰米尔语及其文化背景的深入理解。此外，该数据集还支持机器翻译、自然语言处理等领域的研究，为开发泰米尔语相关的语言模型提供了宝贵的资源。

解决学术问题

Thirukkural-Tamil-Dataset 数据集解决了多个学术研究问题，特别是在泰米尔语文学、语言学和文化研究领域。首先，它为研究者提供了丰富的文本资源，使得对《திருக்குறள்》的结构、内容和哲学思想进行深入分析成为可能。其次，该数据集通过提供多种语言的翻译，促进了跨文化交流和比较研究，有助于理解不同文化背景下的价值观和道德观念。此外，该数据集还为自然语言处理和机器翻译领域的研究提供了宝贵的语料库，推动了泰米尔语的数字化和现代化进程。

实际应用

Thirukkural-Tamil-Dataset 数据集在实际应用中具有广泛的潜力。首先，它可以用于教育领域，帮助学生和学者更好地理解和研究泰米尔文学经典，促进文化传承和语言学习。其次，该数据集在语言技术领域具有重要应用，如开发泰米尔语的语音识别、文本分析和机器翻译系统，提升泰米尔语的数字化水平。此外，该数据集还可以用于文化传播和旅游推广，通过展示泰米尔文化的深厚底蕴，吸引更多人了解和欣赏这一文化遗产。

数据集最近研究