aitamilnadu/thirukkural_instruct
收藏数据集概述
基本信息
- 许可证: Apache 2.0
- 任务类别: 文本生成、问答、对话
- 语言: 泰米尔语
- 数据集大小: 1K<n<10K
- 语言创建者: 专家生成、机器生成
- 多语言性: 单语
- 美观名称: Thirukkural_QA
数据集摘要
thirukkural_QA 是一个开源的指令风格记录数据集,通过转换公开可用的 Thirukkural 及其含义数据生成。该数据集由 Cohere For AI 作为 Aya Open Science Initiative 的一部分创建。
支持的任务
- 训练大型语言模型(LLMs)
- 合成数据生成
- 数据增强
- 问答
数据集概览
thirukkural_QA 是一个包含 3990 条记录的语料库,通过将现有的 Thirukkural 及其含义转换为指令风格生成。该数据集可用于以下任务:
- 给定 Thirukkural 并询问其含义,生成该 Kural 的含义。
- 给定 Kural 的含义,生成原始 Kural。
- 给定 Kural 的开头并询问其含义,生成原始 Kural 及其含义。
预期用途
该数据集不仅适用于大型语言模型的指令微调,还为合成数据生成提供了宝贵的机会。例如,可以将提示-完成作为少量示例提交给大型开放语言模型,以生成类似风格的新 Kural。
数据集加载
使用 datasets 库加载该数据集,需要安装 datasets 库并使用以下代码:
python
from datasets import load_dataset
ds = load_dataset(aitamilnadu/thirukkural_QA)
收集目的
泰米尔语是一种低资源语言(尽管拥有丰富的文学作品),据我所知,目前没有指令风格的数据集。该数据集由 Cohere For AI 作为 Aya Open Science Initiative 的一部分创建,以确保泰米尔语在 AI/ML 领域得到充分代表。与其他仅限于非商业用途的数据集不同,该数据集可以用于、修改和扩展任何目的,包括学术或商业应用。
数据来源
- Thirukkural.com: 该网站的数据被抓取并可在 Thirukkural-Tamil-Dataset 获取。
- 抓取的数据经过仔细分析,确保没有遗漏的单词、拼写错误,并且数据仅限于泰米尔语。
- 接下来,进行一些预处理,从抓取的数据中提取 Kural、Adhigaram、Kural No 和不同的含义。
- 最后,将抓取的数据转换为指令风格的提示和完成。
模板
为了从抓取的数据创建指令风格的提示和完成,使用了以下三个模板:
模板 ID: 1
给定 Thirukkural 并询问其含义,生成该 Kural 的含义。 python Prompt: {Adigaram_Name} என்னும் அதிகாரத்தில் வரும், {Complete_Kural} என்ற குறளின் பொருளை விளக்குக.
Completion: கொடுக்கப்பட்டுள்ள குறளின் பொருள்: {Kural_Meaning} என்பதாகும். இந்த குறள் {Adigaram_Name} என்னும் அதிகாரத்தில் வரும் {Kural_Number}ஆம் குரள் ஆகும்.
模板 ID: 2
给定 Kural 的含义,生成原始 Kural。 python Prompt: {Kural_Meaning} என்னும் பொருளுக்கு ஏற்ற {Adigram_Name} என்னும் அதிகாரத்தில் வரும் {Kural_Number}ஆம் குறளைத் தருக.
Completion: {Complete_Kural} என்னும் குறளே கொடுக்கப்பட்டுள்ள பொருளுக்குப் பொருத்தமான குறளாகும்.
模板 ID: 3
给定 Kural 的开头并询问其含义,生成原始 Kural 及其含义。 python Prompt: {Kural_Starting} எனத் தொடங்கும் குறளையும் அதன் பொருளையும் தருக.
Completion: {Complete_Kural} என்னும் குறளே கொடுக்கப்பட்டுள்ள வார்த்தைகளிலிருந்து தொடங்கும் குறளாகும். இதன் பொருள்: {Kural_Meaning}
个人或敏感数据
该数据集包含公共信息。据我所知,没有私人个人的个人标识符或敏感信息。
已知限制
- 提示/完成中使用的含义是根据完整句子的可用性随机选择的,这可能会忽略其他学者编写的其他含义,从而反映出一些偏差。



