five

desik98/TeluguRiddles

收藏
Hugging Face2024-01-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/desik98/TeluguRiddles
下载链接
链接失效反馈
官方服务:
资源简介:
`TeluguRiddles`是一个开源数据集,包含通过从多个谜语网站抓取生成的800多条记录。该数据集主要用于训练大型语言模型、生成合成数据和数据增强。数据集以Telugu语言为主,但也可能包含一些英语内容。数据集可以用于任何目的,包括学术和商业用途,遵循Apache 2.0许可证。

TeluguRiddles is an open-source dataset containing over 800 records generated by scraping from multiple riddle websites. This dataset is primarily intended for training large language models (LLMs), generating synthetic data, and data augmentation. It is mainly in the Telugu language, but may also contain some English content. The dataset can be used for any purpose, including academic and commercial applications, under the Apache 2.0 license.
提供机构:
desik98
原始信息汇总

数据集概述

基本信息

  • 名称: Telugu Riddles
  • 语言: 泰卢固语 (te)
  • 许可证: Apache 2.0
  • 数据集大小: n<1K
  • 数据来源: 原创
  • 标签: 谜语
  • 任务类别: 文本生成
  • 任务ID: 语言建模

数据集详情

  • 概述: TeluguRiddles 是一个包含超过800条记录的语料库,通过网络爬虫从多个谜语网站收集而来。该数据集可用于以下任务:
    • 给定谜语,生成答案。

数据字段

  • inputs: 语言模型的提示或输入。
  • targets: 语言模型的完成或输出。
  • template_id: 在 inputstargets 中使用的模板的ID。
  • template_lang: 在 inputstargets 中使用的语言的ISO代码,其中 tel 指泰卢固语。

模板

  • 用于从爬取的数据创建指令样式提示和完成的模板如下:
    1. 给定文章的标题/标题,生成带有该标题/标题的文章。
      template_id inputs targets
      1 ఈ రిడిల్ కి సమాధానం ఇవ్వు {{Riddle}} మీరు అడిగిన రిడిల్ కి సమాధానం: {{Answer}}
      2 ఈ పొడుపు కథ కి సమాధానం ఇవ్వు {{Riddle}} మీరు అడిగిన పొడుపు కథ కి సమాధానం: {{Answer}}

已知限制

  • 该数据集从多个谜语网站爬取,数据集内容可能反映偏见、事实错误、不当和敏感问题。
  • 尽管尽最大努力保持数据集为单语种,但可能会有一些记录同时包含泰卢固语和英语。

贡献者

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作