SuryaKrishna02/aya-telugu-jokes
收藏Hugging Face2024-01-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SuryaKrishna02/aya-telugu-jokes
下载链接
链接失效反馈官方服务:
资源简介:
`aya-telugu-jokes`是一个开源数据集,包含通过网页抓取泰卢固语笑话网站生成的指令风格记录。该数据集由Cohere For AI的Aya Open Science Initiative创建,旨在确保泰卢固语在AI/ML领域得到充分代表。数据集包含900多条记录,可用于训练大型语言模型、生成合成数据和数据增强等任务。数据集的语言为泰卢固语,数据字段包括`inputs`、`targets`、`template_id`和`template_lang`。数据集的使用不受限制,可用于学术或商业目的。
提供机构:
SuryaKrishna02
原始信息汇总
数据集概述
基本信息
- 数据集名称:
aya-telugu-jokes - 语言: 泰卢固语 (Telugu)
- 数据集大小: 少于1千条记录
- 许可证: Apache 2.0
- 多语言性: 单语种
- 标签: 笑话, 幽默, 有趣的对话
- 任务类别: 文本生成
- 任务ID: 语言建模
数据集详情
- 创建者: 专家生成
- 来源: 原始数据
- 数据集用途: 用于训练大型语言模型 (LLMs)、合成数据生成和数据增强
- 数据集内容: 通过网络爬虫从泰卢固语笑话网站抓取的超过900条记录
- 数据字段:
inputs: 语言模型的提示或输入targets: 语言模型的完成或输出template_id: 在inputs和targets中使用的模板IDtemplate_lang: 在inputs和targets中使用的语言的ISO代码,其中tel代表泰卢固语
模板
- 模板类别: 一种模板类别,包含14种不同变体,用于从抓取的数据中创建指令风格的提示和完成。
数据集用途
- 主要用途: 用于指令微调大型语言模型,作为指令提示的语料库。
- 其他用途: 可用于合成数据生成,例如,将提示-完成作为少样本示例提交给大型开放语言模型,以生成额外的有趣对话及其标题。
数据收集目的
- 目的: 泰卢固语是一种低资源语言,目前没有有趣的对话生成指令风格的数据集。该数据集的创建旨在确保泰卢固语在AI/ML领域得到充分代表。
数据来源
- 来源: 从Andhrajyothi网站进行网络爬虫抓取,该网站包含有趣的对话。
个人或敏感数据
- 数据类型: 公共信息,据我们所知,不包含私人个人的个人标识符或敏感信息。
已知限制
- 限制: 数据集从笑话网站抓取,内容可能反映偏见、事实错误、不当和敏感问题。尽管尽力保持数据集为单语种,但可能有些记录包含泰卢固语和英语。
贡献者
- 贡献者: SuryaKrishna02 和 Desik98



