five

SuryaKrishna02/aya-telugu-jokes

收藏
Hugging Face2024-01-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SuryaKrishna02/aya-telugu-jokes
下载链接
链接失效反馈
官方服务:
资源简介:
`aya-telugu-jokes`是一个开源数据集,包含通过网页抓取泰卢固语笑话网站生成的指令风格记录。该数据集由Cohere For AI的Aya Open Science Initiative创建,旨在确保泰卢固语在AI/ML领域得到充分代表。数据集包含900多条记录,可用于训练大型语言模型、生成合成数据和数据增强等任务。数据集的语言为泰卢固语,数据字段包括`inputs`、`targets`、`template_id`和`template_lang`。数据集的使用不受限制,可用于学术或商业目的。
提供机构:
SuryaKrishna02
原始信息汇总

数据集概述

基本信息

  • 数据集名称: aya-telugu-jokes
  • 语言: 泰卢固语 (Telugu)
  • 数据集大小: 少于1千条记录
  • 许可证: Apache 2.0
  • 多语言性: 单语种
  • 标签: 笑话, 幽默, 有趣的对话
  • 任务类别: 文本生成
  • 任务ID: 语言建模

数据集详情

  • 创建者: 专家生成
  • 来源: 原始数据
  • 数据集用途: 用于训练大型语言模型 (LLMs)、合成数据生成和数据增强
  • 数据集内容: 通过网络爬虫从泰卢固语笑话网站抓取的超过900条记录
  • 数据字段:
    • inputs: 语言模型的提示或输入
    • targets: 语言模型的完成或输出
    • template_id: 在inputstargets中使用的模板ID
    • template_lang: 在inputstargets中使用的语言的ISO代码,其中tel代表泰卢固语

模板

  • 模板类别: 一种模板类别,包含14种不同变体,用于从抓取的数据中创建指令风格的提示和完成。

数据集用途

  • 主要用途: 用于指令微调大型语言模型,作为指令提示的语料库。
  • 其他用途: 可用于合成数据生成,例如,将提示-完成作为少样本示例提交给大型开放语言模型,以生成额外的有趣对话及其标题。

数据收集目的

  • 目的: 泰卢固语是一种低资源语言,目前没有有趣的对话生成指令风格的数据集。该数据集的创建旨在确保泰卢固语在AI/ML领域得到充分代表。

数据来源

  • 来源: 从Andhrajyothi网站进行网络爬虫抓取,该网站包含有趣的对话。

个人或敏感数据

  • 数据类型: 公共信息,据我们所知,不包含私人个人的个人标识符或敏感信息。

已知限制

  • 限制: 数据集从笑话网站抓取,内容可能反映偏见、事实错误、不当和敏感问题。尽管尽力保持数据集为单语种,但可能有些记录包含泰卢固语和英语。

贡献者

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作