aitamilnadu/tamil_stories
收藏Hugging Face2024-01-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/aitamilnadu/tamil_stories
下载链接
链接失效反馈官方服务:
资源简介:
`tamil_stories`是一个开源数据集,包含了从公开的泰米尔语短故事网站抓取并转换为指令风格的记录。数据集经过自动清理和志愿者手动标记,适用于多种任务,如训练大型语言模型、生成合成数据、数据增强和问答。数据集由Cohere For AI的Aya Open Science Initiative创建,遵循Apache 2.0许可证,可用于学术或商业目的。数据集包含1202条记录,主要用于根据故事生成标题或根据关键词和标题生成完整故事。数据集的创建目的是为了填补泰米尔语在AI/ML领域缺乏指令风格数据集的空白。
`tamil_stories`是一个开源数据集,包含了从公开的泰米尔语短故事网站抓取并转换为指令风格的记录。数据集经过自动清理和志愿者手动标记,适用于多种任务,如训练大型语言模型、生成合成数据、数据增强和问答。数据集由Cohere For AI的Aya Open Science Initiative创建,遵循Apache 2.0许可证,可用于学术或商业目的。数据集包含1202条记录,主要用于根据故事生成标题或根据关键词和标题生成完整故事。数据集的创建目的是为了填补泰米尔语在AI/ML领域缺乏指令风格数据集的空白。
提供机构:
aitamilnadu
原始信息汇总
数据集概述
tamil_stories 是一个开源数据集,包含1202条指令风格的记录,通过抓取公开可用的短篇故事生成。该数据集可用于以下任务:
- 给定故事,生成适当的标题。
- 给定故事中的一些突出角色/词汇以及标题,生成完整的故事。
数据集详情
- 许可证:Apache 2.0
- 任务类别:文本生成、问答、对话
- 语言:泰米尔语
- 数据规模:1K<n<2K
- 语言创建者:专家生成、机器生成
- 多语言性:单语种
- 数据集名称:tamil_stories
数据集用途
该数据集主要用于指令微调大型语言模型,也可用于合成数据生成和数据增强。
数据集来源
数据从以下网站抓取:
数据处理
- 数据通过抓取和自动清洗生成,并由志愿者手动标记。
- 抓取的数据经过仔细分析,确保没有遗漏的单词、拼写错误,并且数据仅包含泰米尔语。
- 单词/字符由志愿者手动添加到故事中。
- 最后,将预处理的数据转换为指令风格的提示和完成。
模板
用于创建指令风格提示和完成的模板如下:
模板1
python Prompt: கீழே கொடுக்கப்பட்டுள்ள கதைக்குப் பொருத்தமான தலைப்பைக் கொடு. கதை: {Story}
Completion: கொடுக்கப்பட்டுள்ள கதைக்குப் பொருத்தமான தலைப்பு {Title} என்பதாகும்.
模板2
python Prompt: கீழே கொடுக்கப்பட்டுள்ள வார்த்தைகளையும் தலைப்பையும் பயன்படுத்தி சிறு கதை எழுதுக. வார்த்தைகள்: {Comma_Seperated_Words} தலைப்பு: {Title}
Completion: {Story}
个人或敏感数据
该数据集包含公共信息,据我所知,没有私人个人的个人标识符或敏感信息。
已知限制
- 提示/完成中使用的含义是根据完整句子的可用性随机选择的,这可能会忽略其他学者编写的其他含义,从而反映出一些偏见。



