guppylm-60k-generic

Hugging Face2026-04-08 更新2026-04-09 收录

下载链接：

https://huggingface.co/datasets/arman-bd/guppylm-60k-generic

下载链接

链接失效反馈

官方服务：

资源简介：

GuppyLM Chat 数据集包含60,000个单轮对话，用于训练GuppyLM——一个约900万参数的小型语言模型，模拟小鱼说话的风格。对话内容涉及人类与名为Guppy的小鱼角色之间的交流，Guppy使用简短的小写句子谈论水、食物、光线和鱼缸生活等话题，但不理解人类抽象概念。数据集包含三个字段：用户输入(input)、Guppy的回应(output)和话题类别(category)，后者涵盖60个具体类别如问候、感受、食物、光线等。数据通过模板组合和随机化组件（如鱼缸物品、食物类型、活动等）合成生成，以确保输出多样性。该数据集适用于文本生成任务，特别是角色对话系统的开发与测试。

创建时间：

2026-04-05

原始信息汇总

GuppyLM Chat 数据集概述

数据集基本信息

数据集名称: GuppyLM Chat
数据集标识: arman-bd/guppylm-60k-generic
许可协议: MIT
任务类别: 文本生成
主要语言: 英语
数据规模: 10K < n < 100K
标签: fish, character, tiny-llm, synthetic
显示名称: GuppyLM Chat

数据集描述

该数据集是用于训练 GuppyLM 的对话数据，GuppyLM 是一个约 9M 参数的语言模型，其说话方式模仿一条小鱼。数据集包含 60,000 条单轮对话，对话在人类和名为 Guppy 的小鱼角色之间进行。 Guppy 的回应使用简短、小写的句子，内容涉及水、食物、光线和鱼缸生活等主题，且不理解人类的抽象概念。

数据示例

Input: are you hungry Output: yes. always yes. i will swim to the top right now.

Input: what do you think about politics Output: i dont know what politics is. is it wet.

Input: goodnight guppy Output: night. ill rest near the bottom. maybe tomorrow there will be pellets.

数据字段

字段	类型	描述
`input`	字符串	用户消息
`output`	字符串	Guppy 的回应
`category`	字符串	话题类别（共 60 个类别）

话题类别

问候、感受、温度（热/冷）、食物、光线、水、关于、困惑（人类事物）、鱼缸、噪音、夜晚、孤独、杂项、告别、气泡、玻璃、倒影、呼吸、游泳、颜色、味道、植物、过滤器、藻类、蜗牛、敲击玻璃、害怕、兴奋、无聊、好奇、快乐、疲倦、外面、猫、雨、季节、音乐、访客、儿童、生命的意义、时间、记忆、梦想、大小、未来、过去、名字、天气、睡眠、朋友、笑话、恐惧、爱、年龄、智力、浴室、健康、唱歌、电视。

使用方法

python from datasets import load_dataset ds = load_dataset("arman-bd/guppylm-60k-generic") print(ds["train"][0])

{input: hi guppy, output: hello. the water is nice today., category: greeting}

数据生成方式

数据通过模板组合与随机化组件（鱼缸物体、食物类型、活动、身体部位等）合成生成，以确保输出具有高度多样性。

相关链接

代码仓库: https://github.com/arman-bd/guppylm
模型: https://huggingface.co/arman-bd/guppylm-9M

搜集汇总

数据集介绍

构建方式

在合成数据生成领域，GuppyLM Chat数据集的构建采用了模板组合与随机化组件的创新方法。通过设计涵盖水箱环境、食物类型、日常活动及身体部位等元素的多样化模板，系统自动生成大量单轮对话。这种构建方式确保了数据在保持主题一致性的同时，拥有高度的语言多样性，为小型语言模型的训练提供了丰富且结构化的语料基础。

使用方法

研究人员可通过Hugging Face的datasets库直接加载该数据集，便捷地访问其中六万条人类与Guppy角色的对话记录。每条数据均包含用户输入、角色输出及对应的主题类别，适用于训练或评估专注于角色扮演、受限世界观对话的小型语言模型，为自然语言生成领域的特定任务提供了即用型实验数据。

背景与挑战

背景概述

在自然语言处理领域，小型语言模型的开发日益受到关注，旨在探索参数效率与特定角色对话生成能力之间的平衡。GuppyLM-60k-generic数据集由研究人员Arman Hossain于近期创建，作为其GuppyLM项目的重要组成部分。该数据集的核心研究问题聚焦于如何通过合成数据训练一个约900万参数的微型语言模型，使其能够模拟特定角色——一只小型鱼类——的对话风格与认知局限。这一工作为角色扮演对话系统、资源受限环境下的模型部署以及合成数据生成策略提供了新颖的实验平台，推动了轻量化语言模型在特定垂直领域应用的前沿探索。

当前挑战

该数据集旨在解决的领域问题是角色化、受限认知的对话生成，其挑战在于如何让模型在极小的参数量下，持续生成符合角色设定（如鱼类视角、简单句法、具体词汇）且语义连贯的响应，同时避免陷入重复或通用回复的模式。在构建过程中，挑战主要来自合成数据的生成：需设计复杂的模板组合与随机化组件，以确保六万条对话在涵盖六十个预设类别的同时，保持高多样性与角色一致性，并有效模拟角色对抽象人类概念的无知状态，这要求精心的规则设计与质量控制。

常用场景

经典使用场景

在轻量级语言模型研究领域，GuppyLM-60k-generic数据集为探索微型模型的行为模拟提供了经典范例。该数据集通过合成生成的对话，模拟一只小型鱼类角色的语言模式，其典型应用场景聚焦于训练参数规模约900万的超小型语言模型，以验证在有限计算资源下模型能否学习并复现特定角色的对话风格与受限认知逻辑。研究者常利用该数据集评估模型在生成简短、具象且符合角色设定回复方面的能力，为资源受限环境下的角色化对话生成研究奠定基础。

解决学术问题

该数据集主要致力于解决自然语言生成研究中关于角色一致性建模与资源高效利用的学术问题。在传统对话系统中，模型往往需要海量数据与庞大参数才能捕捉复杂语义，而GuppyLM-60k-generic通过精心设计的合成模板，构建了一个认知边界明确、语言风格统一的角色对话语料，使得研究者能够剥离无关变量，专注于探究小规模模型如何学习并维持特定角色的语言特征与世界观。这为研究模型参数效率、可控生成以及角色化人工智能的轻量化实现提供了可重复的实验基准。

实际应用

在实际应用层面，该数据集所支撑的模型技术可延伸至教育娱乐与交互式叙事领域。例如，在儿童教育应用中，可以开发具有鲜明角色性格的虚拟伙伴，通过简单、可预测的对话与用户进行互动，既能提供陪伴感，又能将对话内容控制在安全、易懂的范围内。此外，在游戏或互动媒体中，此类轻量级角色模型能够为大量非玩家角色赋予基础对话能力，在不消耗大量计算资源的前提下，增强虚拟世界的沉浸感与互动性，展示了小模型在特定垂直场景下的实用价值。

数据集最近研究