aitamilnadu/tamil_stories

Name: aitamilnadu/tamil_stories
Creator: aitamilnadu
Published: 2024-01-23 07:46:01
License: 暂无描述

Hugging Face2024-01-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/aitamilnadu/tamil_stories

下载链接

链接失效反馈

官方服务：

资源简介：

`tamil_stories`是一个开源数据集，包含了从公开的泰米尔语短故事网站抓取并转换为指令风格的记录。数据集经过自动清理和志愿者手动标记，适用于多种任务，如训练大型语言模型、生成合成数据、数据增强和问答。数据集由Cohere For AI的Aya Open Science Initiative创建，遵循Apache 2.0许可证，可用于学术或商业目的。数据集包含1202条记录，主要用于根据故事生成标题或根据关键词和标题生成完整故事。数据集的创建目的是为了填补泰米尔语在AI/ML领域缺乏指令风格数据集的空白。

提供机构：

aitamilnadu

原始信息汇总

数据集概述

tamil_stories 是一个开源数据集，包含1202条指令风格的记录，通过抓取公开可用的短篇故事生成。该数据集可用于以下任务：

给定故事，生成适当的标题。
给定故事中的一些突出角色/词汇以及标题，生成完整的故事。

数据集详情

许可证：Apache 2.0
任务类别：文本生成、问答、对话
语言：泰米尔语
数据规模：1K<n<2K
语言创建者：专家生成、机器生成
多语言性：单语种
数据集名称：tamil_stories

数据集用途

该数据集主要用于指令微调大型语言模型，也可用于合成数据生成和数据增强。

数据集来源

数据从以下网站抓取：

数据处理

数据通过抓取和自动清洗生成，并由志愿者手动标记。
抓取的数据经过仔细分析，确保没有遗漏的单词、拼写错误，并且数据仅包含泰米尔语。
单词/字符由志愿者手动添加到故事中。
最后，将预处理的数据转换为指令风格的提示和完成。

模板

用于创建指令风格提示和完成的模板如下：

模板1

python Prompt: கீழே கொடுக்கப்பட்டுள்ள கதைக்குப் பொருத்தமான தலைப்பைக் கொடு. கதை: {Story}

Completion: கொடுக்கப்பட்டுள்ள கதைக்குப் பொருத்தமான தலைப்பு {Title} என்பதாகும்.

模板2

python Prompt: கீழே கொடுக்கப்பட்டுள்ள வார்த்தைகளையும் தலைப்பையும் பயன்படுத்தி சிறு கதை எழுதுக. வார்த்தைகள்: {Comma_Seperated_Words} தலைப்பு: {Title}

Completion: {Story}

个人或敏感数据

该数据集包含公共信息，据我所知，没有私人个人的个人标识符或敏感信息。

已知限制

提示/完成中使用的含义是根据完整句子的可用性随机选择的，这可能会忽略其他学者编写的其他含义，从而反映出一些偏见。

贡献者

5,000+

优质数据集

54 个

任务类型

进入经典数据集