five

Jotschi/kleiner-astronaut

收藏
Hugging Face2024-04-27 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Jotschi/kleiner-astronaut
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含合成生成的德语儿童冒险故事,讲述了一个小宇航员的故事。数据集由Jotschi策划,语言为德语,许可证为Apache 2.0。数据集的创建使用了`microsoft/Phi-3-mini-4k-instruct`模型,基于给定的输入生成故事,并通过质量门脚本过滤掉不符合要求的故事。数据集的灵感来源于roneneldan/TinyStories。

该数据集包含合成生成的德语儿童冒险故事,讲述了一个小宇航员的故事。数据集由Jotschi策划,语言为德语,许可证为Apache 2.0。数据集的创建使用了`microsoft/Phi-3-mini-4k-instruct`模型,基于给定的输入生成故事,并通过质量门脚本过滤掉不符合要求的故事。数据集的灵感来源于roneneldan/TinyStories。
提供机构:
Jotschi
原始信息汇总

数据集卡片:Kleiner Astronaut

数据集描述

  • 语言: 德语
  • 许可证: Apache 2.0
  • 标签: 德语, 合成数据
  • 注释创建者: 机器生成
  • 数据集名称: Kleiner Astronaut
  • 数据集大小: n<30k
  • 任务类别: 文本生成

数据集创建

  • 创建者: Jotschi

  • 创建方法: 使用 microsoft/Phi-3-mini-4k-instruct 模型生成故事,基于给定的输入产生更多变体。

  • 输入格式: json { "text": "Es war einmal ein kleiner Astronaut namens Astro…", "topic": "Galaktische Abenteuer", "word_1": "Robert", "adjective_1": "Lustig", "verb": "schlafen", "word_2": "Schatzkarten", "adjective_2": "Abenteuerlustig" }

  • 质量控制: 使用质量门脚本过滤掉包含不想要输出或英语语言的虚假故事。

灵感来源

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作