five

aitamilnadu/thirukkural_instruct|泰米尔文学数据集|自然语言处理数据集

收藏
hugging_face2024-01-23 更新2024-03-04 收录
泰米尔文学
自然语言处理
下载链接:
https://hf-mirror.com/datasets/aitamilnadu/thirukkural_instruct
下载链接
链接失效反馈
资源简介:
`thirukkural_QA`是一个开源数据集,包含3990条记录,这些记录是通过将现有的Thirukkural及其含义转换为指令风格生成的。该数据集可用于训练大型语言模型、合成数据生成、数据增强和问答任务。数据集来源于Thirukkural.com网站,经过预处理后转换为指令风格的提示和完成。数据集使用Apache 2.0许可证,允许任何目的的使用,包括学术和商业应用。
提供机构:
aitamilnadu
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache 2.0
  • 任务类别: 文本生成、问答、对话
  • 语言: 泰米尔语
  • 数据集大小: 1K<n<10K
  • 语言创建者: 专家生成、机器生成
  • 多语言性: 单语
  • 美观名称: Thirukkural_QA

数据集摘要

thirukkural_QA 是一个开源的指令风格记录数据集,通过转换公开可用的 Thirukkural 及其含义数据生成。该数据集由 Cohere For AI 作为 Aya Open Science Initiative 的一部分创建。

支持的任务

  • 训练大型语言模型(LLMs)
  • 合成数据生成
  • 数据增强
  • 问答

数据集概览

thirukkural_QA 是一个包含 3990 条记录的语料库,通过将现有的 Thirukkural 及其含义转换为指令风格生成。该数据集可用于以下任务:

  • 给定 Thirukkural 并询问其含义,生成该 Kural 的含义。
  • 给定 Kural 的含义,生成原始 Kural。
  • 给定 Kural 的开头并询问其含义,生成原始 Kural 及其含义。

预期用途

该数据集不仅适用于大型语言模型的指令微调,还为合成数据生成提供了宝贵的机会。例如,可以将提示-完成作为少量示例提交给大型开放语言模型,以生成类似风格的新 Kural。

数据集加载

使用 datasets 库加载该数据集,需要安装 datasets 库并使用以下代码: python from datasets import load_dataset ds = load_dataset(aitamilnadu/thirukkural_QA)

收集目的

泰米尔语是一种低资源语言(尽管拥有丰富的文学作品),据我所知,目前没有指令风格的数据集。该数据集由 Cohere For AI 作为 Aya Open Science Initiative 的一部分创建,以确保泰米尔语在 AI/ML 领域得到充分代表。与其他仅限于非商业用途的数据集不同,该数据集可以用于、修改和扩展任何目的,包括学术或商业应用。

数据来源

  • Thirukkural.com: 该网站的数据被抓取并可在 Thirukkural-Tamil-Dataset 获取。
  • 抓取的数据经过仔细分析,确保没有遗漏的单词、拼写错误,并且数据仅限于泰米尔语。
  • 接下来,进行一些预处理,从抓取的数据中提取 Kural、Adhigaram、Kural No 和不同的含义。
  • 最后,将抓取的数据转换为指令风格的提示和完成。

模板

为了从抓取的数据创建指令风格的提示和完成,使用了以下三个模板:

模板 ID: 1

给定 Thirukkural 并询问其含义,生成该 Kural 的含义。 python Prompt: {Adigaram_Name} என்னும் அதிகாரத்தில் வரும், {Complete_Kural} என்ற குறளின் பொருளை விளக்குக.

Completion: கொடுக்கப்பட்டுள்ள குறளின் பொருள்: {Kural_Meaning} என்பதாகும். இந்த குறள் {Adigaram_Name} என்னும் அதிகாரத்தில் வரும் {Kural_Number}ஆம் குரள் ஆகும்.

模板 ID: 2

给定 Kural 的含义,生成原始 Kural。 python Prompt: {Kural_Meaning} என்னும் பொருளுக்கு ஏற்ற {Adigram_Name} என்னும் அதிகாரத்தில் வரும் {Kural_Number}ஆம் குறளைத் தருக.

Completion: {Complete_Kural} என்னும் குறளே கொடுக்கப்பட்டுள்ள பொருளுக்குப் பொருத்தமான குறளாகும்.

模板 ID: 3

给定 Kural 的开头并询问其含义,生成原始 Kural 及其含义。 python Prompt: {Kural_Starting} எனத் தொடங்கும் குறளையும் அதன் பொருளையும் தருக.

Completion: {Complete_Kural} என்னும் குறளே கொடுக்கப்பட்டுள்ள வார்த்தைகளிலிருந்து தொடங்கும் குறளாகும். இதன் பொருள்: {Kural_Meaning}

个人或敏感数据

该数据集包含公共信息。据我所知,没有私人个人的个人标识符或敏感信息。

已知限制

  • 提示/完成中使用的含义是根据完整句子的可用性随机选择的,这可能会忽略其他学者编写的其他含义,从而反映出一些偏差。

贡献者

AbinayaM02

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国区域教育数据库

该数据集包含了中国各区域的教育统计数据,涵盖了学校数量、学生人数、教师资源、教育经费等多个方面的信息。

www.moe.gov.cn 收录

Thyroid Disease Data

该数据集包含13个临床病理特征,旨在预测分化良好的甲状腺癌的复发。数据集收集了15年间的数据,每位患者至少被跟踪了10年。

github 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录