aitamilnadu/thirukkural_instruct|泰米尔文学数据集|自然语言处理数据集
收藏数据集概述
基本信息
- 许可证: Apache 2.0
- 任务类别: 文本生成、问答、对话
- 语言: 泰米尔语
- 数据集大小: 1K<n<10K
- 语言创建者: 专家生成、机器生成
- 多语言性: 单语
- 美观名称: Thirukkural_QA
数据集摘要
thirukkural_QA
是一个开源的指令风格记录数据集,通过转换公开可用的 Thirukkural 及其含义数据生成。该数据集由 Cohere For AI 作为 Aya Open Science Initiative 的一部分创建。
支持的任务
- 训练大型语言模型(LLMs)
- 合成数据生成
- 数据增强
- 问答
数据集概览
thirukkural_QA
是一个包含 3990 条记录的语料库,通过将现有的 Thirukkural 及其含义转换为指令风格生成。该数据集可用于以下任务:
- 给定 Thirukkural 并询问其含义,生成该 Kural 的含义。
- 给定 Kural 的含义,生成原始 Kural。
- 给定 Kural 的开头并询问其含义,生成原始 Kural 及其含义。
预期用途
该数据集不仅适用于大型语言模型的指令微调,还为合成数据生成提供了宝贵的机会。例如,可以将提示-完成作为少量示例提交给大型开放语言模型,以生成类似风格的新 Kural。
数据集加载
使用 datasets
库加载该数据集,需要安装 datasets
库并使用以下代码:
python
from datasets import load_dataset
ds = load_dataset(aitamilnadu/thirukkural_QA)
收集目的
泰米尔语是一种低资源语言(尽管拥有丰富的文学作品),据我所知,目前没有指令风格的数据集。该数据集由 Cohere For AI 作为 Aya Open Science Initiative 的一部分创建,以确保泰米尔语在 AI/ML 领域得到充分代表。与其他仅限于非商业用途的数据集不同,该数据集可以用于、修改和扩展任何目的,包括学术或商业应用。
数据来源
- Thirukkural.com: 该网站的数据被抓取并可在 Thirukkural-Tamil-Dataset 获取。
- 抓取的数据经过仔细分析,确保没有遗漏的单词、拼写错误,并且数据仅限于泰米尔语。
- 接下来,进行一些预处理,从抓取的数据中提取 Kural、Adhigaram、Kural No 和不同的含义。
- 最后,将抓取的数据转换为指令风格的提示和完成。
模板
为了从抓取的数据创建指令风格的提示和完成,使用了以下三个模板:
模板 ID: 1
给定 Thirukkural 并询问其含义,生成该 Kural 的含义。 python Prompt: {Adigaram_Name} என்னும் அதிகாரத்தில் வரும், {Complete_Kural} என்ற குறளின் பொருளை விளக்குக.
Completion: கொடுக்கப்பட்டுள்ள குறளின் பொருள்: {Kural_Meaning} என்பதாகும். இந்த குறள் {Adigaram_Name} என்னும் அதிகாரத்தில் வரும் {Kural_Number}ஆம் குரள் ஆகும்.
模板 ID: 2
给定 Kural 的含义,生成原始 Kural。 python Prompt: {Kural_Meaning} என்னும் பொருளுக்கு ஏற்ற {Adigram_Name} என்னும் அதிகாரத்தில் வரும் {Kural_Number}ஆம் குறளைத் தருக.
Completion: {Complete_Kural} என்னும் குறளே கொடுக்கப்பட்டுள்ள பொருளுக்குப் பொருத்தமான குறளாகும்.
模板 ID: 3
给定 Kural 的开头并询问其含义,生成原始 Kural 及其含义。 python Prompt: {Kural_Starting} எனத் தொடங்கும் குறளையும் அதன் பொருளையும் தருக.
Completion: {Complete_Kural} என்னும் குறளே கொடுக்கப்பட்டுள்ள வார்த்தைகளிலிருந்து தொடங்கும் குறளாகும். இதன் பொருள்: {Kural_Meaning}
个人或敏感数据
该数据集包含公共信息。据我所知,没有私人个人的个人标识符或敏感信息。
已知限制
- 提示/完成中使用的含义是根据完整句子的可用性随机选择的,这可能会忽略其他学者编写的其他含义,从而反映出一些偏差。
贡献者
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
中国区域教育数据库
该数据集包含了中国各区域的教育统计数据,涵盖了学校数量、学生人数、教师资源、教育经费等多个方面的信息。
www.moe.gov.cn 收录
Thyroid Disease Data
该数据集包含13个临床病理特征,旨在预测分化良好的甲状腺癌的复发。数据集收集了15年间的数据,每位患者至少被跟踪了10年。
github 收录
VisDrone2019
VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。
github 收录