aitamilnadu/thirukkural_instruct

Name: aitamilnadu/thirukkural_instruct
Creator: aitamilnadu
Published: 2024-01-23 06:26:26
License: 暂无描述

Hugging Face2024-01-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/aitamilnadu/thirukkural_instruct

下载链接

链接失效反馈

官方服务：

资源简介：

`thirukkural_QA`是一个开源数据集，包含3990条记录，这些记录是通过将现有的Thirukkural及其含义转换为指令风格生成的。该数据集可用于训练大型语言模型、合成数据生成、数据增强和问答任务。数据集来源于Thirukkural.com网站，经过预处理后转换为指令风格的提示和完成。数据集使用Apache 2.0许可证，允许任何目的的使用，包括学术和商业应用。

提供机构：

aitamilnadu

原始信息汇总

数据集概述

基本信息

许可证: Apache 2.0
任务类别: 文本生成、问答、对话
语言: 泰米尔语
数据集大小: 1K<n<10K
语言创建者: 专家生成、机器生成
多语言性: 单语
美观名称: Thirukkural_QA

数据集摘要

thirukkural_QA 是一个开源的指令风格记录数据集，通过转换公开可用的 Thirukkural 及其含义数据生成。该数据集由 Cohere For AI 作为 Aya Open Science Initiative 的一部分创建。

支持的任务

训练大型语言模型（LLMs）
合成数据生成
数据增强
问答

数据集概览

thirukkural_QA 是一个包含 3990 条记录的语料库，通过将现有的 Thirukkural 及其含义转换为指令风格生成。该数据集可用于以下任务：

给定 Thirukkural 并询问其含义，生成该 Kural 的含义。
给定 Kural 的含义，生成原始 Kural。
给定 Kural 的开头并询问其含义，生成原始 Kural 及其含义。

预期用途

该数据集不仅适用于大型语言模型的指令微调，还为合成数据生成提供了宝贵的机会。例如，可以将提示-完成作为少量示例提交给大型开放语言模型，以生成类似风格的新 Kural。

数据集加载

使用 datasets 库加载该数据集，需要安装 datasets 库并使用以下代码： python from datasets import load_dataset ds = load_dataset(aitamilnadu/thirukkural_QA)

收集目的

泰米尔语是一种低资源语言（尽管拥有丰富的文学作品），据我所知，目前没有指令风格的数据集。该数据集由 Cohere For AI 作为 Aya Open Science Initiative 的一部分创建，以确保泰米尔语在 AI/ML 领域得到充分代表。与其他仅限于非商业用途的数据集不同，该数据集可以用于、修改和扩展任何目的，包括学术或商业应用。

数据来源

Thirukkural.com: 该网站的数据被抓取并可在 Thirukkural-Tamil-Dataset 获取。
抓取的数据经过仔细分析，确保没有遗漏的单词、拼写错误，并且数据仅限于泰米尔语。
接下来，进行一些预处理，从抓取的数据中提取 Kural、Adhigaram、Kural No 和不同的含义。
最后，将抓取的数据转换为指令风格的提示和完成。

模板

为了从抓取的数据创建指令风格的提示和完成，使用了以下三个模板：

模板 ID: 1

给定 Thirukkural 并询问其含义，生成该 Kural 的含义。 python Prompt: {Adigaram_Name} என்னும் அதிகாரத்தில் வரும், {Complete_Kural} என்ற குறளின் பொருளை விளக்குக.

Completion: கொடுக்கப்பட்டுள்ள குறளின் பொருள்: {Kural_Meaning} என்பதாகும். இந்த குறள் {Adigaram_Name} என்னும் அதிகாரத்தில் வரும் {Kural_Number}ஆம் குரள் ஆகும்.

模板 ID: 2

给定 Kural 的含义，生成原始 Kural。 python Prompt: {Kural_Meaning} என்னும் பொருளுக்கு ஏற்ற {Adigram_Name} என்னும் அதிகாரத்தில் வரும் {Kural_Number}ஆம் குறளைத் தருக.

Completion: {Complete_Kural} என்னும் குறளே கொடுக்கப்பட்டுள்ள பொருளுக்குப் பொருத்தமான குறளாகும்.

模板 ID: 3

给定 Kural 的开头并询问其含义，生成原始 Kural 及其含义。 python Prompt: {Kural_Starting} எனத் தொடங்கும் குறளையும் அதன் பொருளையும் தருக.

Completion: {Complete_Kural} என்னும் குறளே கொடுக்கப்பட்டுள்ள வார்த்தைகளிலிருந்து தொடங்கும் குறளாகும். இதன் பொருள்: {Kural_Meaning}

个人或敏感数据

该数据集包含公共信息。据我所知，没有私人个人的个人标识符或敏感信息。

已知限制

提示/完成中使用的含义是根据完整句子的可用性随机选择的，这可能会忽略其他学者编写的其他含义，从而反映出一些偏差。

贡献者

AbinayaM02

5,000+

优质数据集

54 个

任务类型

进入经典数据集