guppylm-60k-generic
收藏GuppyLM Chat 数据集概述
数据集基本信息
- 数据集名称: GuppyLM Chat
- 数据集标识: arman-bd/guppylm-60k-generic
- 许可协议: MIT
- 任务类别: 文本生成
- 主要语言: 英语
- 数据规模: 10K < n < 100K
- 标签: fish, character, tiny-llm, synthetic
- 显示名称: GuppyLM Chat
数据集描述
该数据集是用于训练 GuppyLM 的对话数据,GuppyLM 是一个约 9M 参数的语言模型,其说话方式模仿一条小鱼。 数据集包含 60,000 条单轮对话,对话在人类和名为 Guppy 的小鱼角色之间进行。 Guppy 的回应使用简短、小写的句子,内容涉及水、食物、光线和鱼缸生活等主题,且不理解人类的抽象概念。
数据示例
Input: are you hungry Output: yes. always yes. i will swim to the top right now.
Input: what do you think about politics Output: i dont know what politics is. is it wet.
Input: goodnight guppy Output: night. ill rest near the bottom. maybe tomorrow there will be pellets.
数据字段
| 字段 | 类型 | 描述 |
|---|---|---|
input |
字符串 | 用户消息 |
output |
字符串 | Guppy 的回应 |
category |
字符串 | 话题类别(共 60 个类别) |
话题类别
问候、感受、温度(热/冷)、食物、光线、水、关于、困惑(人类事物)、鱼缸、噪音、夜晚、孤独、杂项、告别、气泡、玻璃、倒影、呼吸、游泳、颜色、味道、植物、过滤器、藻类、蜗牛、敲击玻璃、害怕、兴奋、无聊、好奇、快乐、疲倦、外面、猫、雨、季节、音乐、访客、儿童、生命的意义、时间、记忆、梦想、大小、未来、过去、名字、天气、睡眠、朋友、笑话、恐惧、爱、年龄、智力、浴室、健康、唱歌、电视。
使用方法
python from datasets import load_dataset ds = load_dataset("arman-bd/guppylm-60k-generic") print(ds["train"][0])
{input: hi guppy, output: hello. the water is nice today., category: greeting}
数据生成方式
数据通过模板组合与随机化组件(鱼缸物体、食物类型、活动、身体部位等)合成生成,以确保输出具有高度多样性。
相关链接
- 代码仓库: https://github.com/arman-bd/guppylm
- 模型: https://huggingface.co/arman-bd/guppylm-9M




