five

davanstrien/haiku_prompts

收藏
Hugging Face2024-01-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/davanstrien/haiku_prompts
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为‘合成俳句提示’,旨在模拟用户向聊天模型请求关于特定主题的俳句。数据通过使用distilabel库和OpenHermes-2.5-Mistral-7B模型生成,采用了一种改进的SELF-INSTRUCT论文中的提示策略。此数据集主要用于探索开放模型和直接偏好优化(DPO)在生成可用于培养语言模型特定行为(如写俳句)的合成数据方面的应用。

该数据集名为‘合成俳句提示’,旨在模拟用户向聊天模型请求关于特定主题的俳句。数据通过使用distilabel库和OpenHermes-2.5-Mistral-7B模型生成,采用了一种改进的SELF-INSTRUCT论文中的提示策略。此数据集主要用于探索开放模型和直接偏好优化(DPO)在生成可用于培养语言模型特定行为(如写俳句)的合成数据方面的应用。
提供机构:
davanstrien
原始信息汇总

数据集概述

数据集详情

数据集描述

  • 名称: Synthetic Haiku Prompts
  • 语言: 英语(合成生成)
  • 许可证: CC-BY-4.0
  • 大小类别: 1K<n<10K
  • 任务类别: 文本生成
  • 标签: 诗歌、俳句、合成、distilabel

数据集结构

  • 特征:
    • instructions: 字符串类型
  • 分割:
    • train: 4303个样本,280969字节

数据集创建

  • 创建者: Daniel van Strien
  • 生成方法: 使用distilabel库和OpenHermes-2.5-Mistral-7B模型生成。
  • 生成策略: 基于SELF-INSTRUCT论文的提示策略,并进行了微调。

数据集用途

  • 直接用途: 用于生成关于特定主题的俳句。
  • 注意事项: 主要用于学习和研究,使用前需验证提示的适用性。

数据集限制

  • 潜在风险: 未手动验证所有提示,可能存在有害内容。
  • 建议: 如发现有害提示,请提出讨论并移除。

引用

bibtex @misc{vanstrien2024synthetichaikuprompts, author = {van Strien, Daniel}, title = {Synthetic Haiku Prompts}, year = {2024}, publisher = {Hugging Face}, howpublished = {url{https://huggingface.co/datasets/davanstrien/haiku_prompts}} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作