five

aitamilnadu/thirukkural_instruct

收藏
Hugging Face2024-01-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/aitamilnadu/thirukkural_instruct
下载链接
链接失效反馈
官方服务:
资源简介:
`thirukkural_QA`是一个开源数据集,包含3990条记录,这些记录是通过将现有的Thirukkural及其含义转换为指令风格生成的。该数据集可用于训练大型语言模型、合成数据生成、数据增强和问答任务。数据集来源于Thirukkural.com网站,经过预处理后转换为指令风格的提示和完成。数据集使用Apache 2.0许可证,允许任何目的的使用,包括学术和商业应用。
提供机构:
aitamilnadu
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache 2.0
  • 任务类别: 文本生成、问答、对话
  • 语言: 泰米尔语
  • 数据集大小: 1K<n<10K
  • 语言创建者: 专家生成、机器生成
  • 多语言性: 单语
  • 美观名称: Thirukkural_QA

数据集摘要

thirukkural_QA 是一个开源的指令风格记录数据集,通过转换公开可用的 Thirukkural 及其含义数据生成。该数据集由 Cohere For AI 作为 Aya Open Science Initiative 的一部分创建。

支持的任务

  • 训练大型语言模型(LLMs)
  • 合成数据生成
  • 数据增强
  • 问答

数据集概览

thirukkural_QA 是一个包含 3990 条记录的语料库,通过将现有的 Thirukkural 及其含义转换为指令风格生成。该数据集可用于以下任务:

  • 给定 Thirukkural 并询问其含义,生成该 Kural 的含义。
  • 给定 Kural 的含义,生成原始 Kural。
  • 给定 Kural 的开头并询问其含义,生成原始 Kural 及其含义。

预期用途

该数据集不仅适用于大型语言模型的指令微调,还为合成数据生成提供了宝贵的机会。例如,可以将提示-完成作为少量示例提交给大型开放语言模型,以生成类似风格的新 Kural。

数据集加载

使用 datasets 库加载该数据集,需要安装 datasets 库并使用以下代码: python from datasets import load_dataset ds = load_dataset(aitamilnadu/thirukkural_QA)

收集目的

泰米尔语是一种低资源语言(尽管拥有丰富的文学作品),据我所知,目前没有指令风格的数据集。该数据集由 Cohere For AI 作为 Aya Open Science Initiative 的一部分创建,以确保泰米尔语在 AI/ML 领域得到充分代表。与其他仅限于非商业用途的数据集不同,该数据集可以用于、修改和扩展任何目的,包括学术或商业应用。

数据来源

  • Thirukkural.com: 该网站的数据被抓取并可在 Thirukkural-Tamil-Dataset 获取。
  • 抓取的数据经过仔细分析,确保没有遗漏的单词、拼写错误,并且数据仅限于泰米尔语。
  • 接下来,进行一些预处理,从抓取的数据中提取 Kural、Adhigaram、Kural No 和不同的含义。
  • 最后,将抓取的数据转换为指令风格的提示和完成。

模板

为了从抓取的数据创建指令风格的提示和完成,使用了以下三个模板:

模板 ID: 1

给定 Thirukkural 并询问其含义,生成该 Kural 的含义。 python Prompt: {Adigaram_Name} என்னும் அதிகாரத்தில் வரும், {Complete_Kural} என்ற குறளின் பொருளை விளக்குக.

Completion: கொடுக்கப்பட்டுள்ள குறளின் பொருள்: {Kural_Meaning} என்பதாகும். இந்த குறள் {Adigaram_Name} என்னும் அதிகாரத்தில் வரும் {Kural_Number}ஆம் குரள் ஆகும்.

模板 ID: 2

给定 Kural 的含义,生成原始 Kural。 python Prompt: {Kural_Meaning} என்னும் பொருளுக்கு ஏற்ற {Adigram_Name} என்னும் அதிகாரத்தில் வரும் {Kural_Number}ஆம் குறளைத் தருக.

Completion: {Complete_Kural} என்னும் குறளே கொடுக்கப்பட்டுள்ள பொருளுக்குப் பொருத்தமான குறளாகும்.

模板 ID: 3

给定 Kural 的开头并询问其含义,生成原始 Kural 及其含义。 python Prompt: {Kural_Starting} எனத் தொடங்கும் குறளையும் அதன் பொருளையும் தருக.

Completion: {Complete_Kural} என்னும் குறளே கொடுக்கப்பட்டுள்ள வார்த்தைகளிலிருந்து தொடங்கும் குறளாகும். இதன் பொருள்: {Kural_Meaning}

个人或敏感数据

该数据集包含公共信息。据我所知,没有私人个人的个人标识符或敏感信息。

已知限制

  • 提示/完成中使用的含义是根据完整句子的可用性随机选择的,这可能会忽略其他学者编写的其他含义,从而反映出一些偏差。

贡献者

AbinayaM02

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作