five

aitamilnadu/tamil_stories

收藏
Hugging Face2024-01-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/aitamilnadu/tamil_stories
下载链接
链接失效反馈
官方服务:
资源简介:
`tamil_stories`是一个开源数据集,包含了从公开的泰米尔语短故事网站抓取并转换为指令风格的记录。数据集经过自动清理和志愿者手动标记,适用于多种任务,如训练大型语言模型、生成合成数据、数据增强和问答。数据集由Cohere For AI的Aya Open Science Initiative创建,遵循Apache 2.0许可证,可用于学术或商业目的。数据集包含1202条记录,主要用于根据故事生成标题或根据关键词和标题生成完整故事。数据集的创建目的是为了填补泰米尔语在AI/ML领域缺乏指令风格数据集的空白。

`tamil_stories`是一个开源数据集,包含了从公开的泰米尔语短故事网站抓取并转换为指令风格的记录。数据集经过自动清理和志愿者手动标记,适用于多种任务,如训练大型语言模型、生成合成数据、数据增强和问答。数据集由Cohere For AI的Aya Open Science Initiative创建,遵循Apache 2.0许可证,可用于学术或商业目的。数据集包含1202条记录,主要用于根据故事生成标题或根据关键词和标题生成完整故事。数据集的创建目的是为了填补泰米尔语在AI/ML领域缺乏指令风格数据集的空白。
提供机构:
aitamilnadu
原始信息汇总

数据集概述

tamil_stories 是一个开源数据集,包含1202条指令风格的记录,通过抓取公开可用的短篇故事生成。该数据集可用于以下任务:

  • 给定故事,生成适当的标题。
  • 给定故事中的一些突出角色/词汇以及标题,生成完整的故事。

数据集详情

  • 许可证:Apache 2.0
  • 任务类别:文本生成、问答、对话
  • 语言:泰米尔语
  • 数据规模:1K<n<2K
  • 语言创建者:专家生成、机器生成
  • 多语言性:单语种
  • 数据集名称:tamil_stories

数据集用途

该数据集主要用于指令微调大型语言模型,也可用于合成数据生成和数据增强。

数据集来源

数据从以下网站抓取:

数据处理

  • 数据通过抓取和自动清洗生成,并由志愿者手动标记。
  • 抓取的数据经过仔细分析,确保没有遗漏的单词、拼写错误,并且数据仅包含泰米尔语。
  • 单词/字符由志愿者手动添加到故事中。
  • 最后,将预处理的数据转换为指令风格的提示和完成。

模板

用于创建指令风格提示和完成的模板如下:

模板1

python Prompt: கீழே கொடுக்கப்பட்டுள்ள கதைக்குப் பொருத்தமான தலைப்பைக் கொடு. கதை: {Story}

Completion: கொடுக்கப்பட்டுள்ள கதைக்குப் பொருத்தமான தலைப்பு {Title} என்பதாகும்.

模板2

python Prompt: கீழே கொடுக்கப்பட்டுள்ள வார்த்தைகளையும் தலைப்பையும் பயன்படுத்தி சிறு கதை எழுதுக. வார்த்தைகள்: {Comma_Seperated_Words} தலைப்பு: {Title}

Completion: {Story}

个人或敏感数据

该数据集包含公共信息,据我所知,没有私人个人的个人标识符或敏感信息。

已知限制

  • 提示/完成中使用的含义是根据完整句子的可用性随机选择的,这可能会忽略其他学者编写的其他含义,从而反映出一些偏见。

贡献者

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作