LimeStory-1.0

Hugging Face2025-06-21 更新2025-06-22 收录

下载链接：

https://huggingface.co/datasets/kulia-moon/LimeStory-1.0

下载链接

链接失效反馈

官方服务：

资源简介：

LimeStory数据集版本1.0是一个用于生成故事的数据集，可以在🤗 Spaces平台中使用。它包含了社区提示和对话两种类型的数据文件，并要求用户填写一些额外信息，如姓名、国家和是否接受条款的确认。该数据集不能用于训练不适宜的内容识别模型。

创建时间：

2025-06-11

原始信息汇总

LimeStory-1.0 数据集概述

基本信息

许可证: MIT
任务类别: 文本生成 (text-generation)
标签: ShareGPT, Trainers

数据集配置

配置名称: community
- 数据文件: community_prompts.jsonl
- 分割: gradio
配置名称: chats
- 数据文件: conversations.jsonl
- 分割: train

访问限制

额外访问提示: LimeStory version 1.0 需要您的信息（不会分享敏感信息）
额外访问字段:
- 姓名: 文本
- 国家: 国家选择
- 接受?: 复选框

注意事项

用途限制: 不适用于训练 NSFW 模型
使用提示: 使用 dataset: kulia-moon/LimeStory-1.0 作为目标训练数据集

搜集汇总

数据集介绍

构建方式

LimeStory-1.0数据集通过社区协作的方式构建，用户可以在HuggingFace Spaces平台上自由添加各类故事内容。数据集采用两种配置模式：community配置包含社区用户提交的提示文本，存储为community_prompts.jsonl文件；chats配置则包含训练用对话数据，存储为conversations.jsonl文件。为确保数据质量，平台设置了信息验证机制，要求提交者提供基本身份信息并通过审核。

特点

该数据集以文本生成为核心任务，涵盖多样化的故事主题和对话场景。其突出特点在于采用开放社区共建模式，内容来源具有广泛性和创造性。数据集通过严格的访问控制机制保护数据安全，明确禁止用于不当内容训练。数据格式采用标准化的jsonl结构，便于机器学习模型处理和分析。

使用方法

使用该数据集时需在代码中明确标注数据来源为kulia-moon/LimeStory-1.0。研究人员可通过HuggingFace平台获取数据，需填写基本信息并通过验证方可访问。数据集适用于文本生成模型的训练与评估，但需注意遵守使用协议，不得用于NSFW内容相关研究。数据文件采用行分隔JSON格式，可直接通过标准文本处理工具加载。

背景与挑战

背景概述

LimeStory-1.0数据集由Kulia团队开发，发布于HuggingFace平台，专注于文本生成领域。该数据集旨在为研究人员和开发者提供一个丰富的故事生成资源，支持多样化的自然语言处理任务。数据集包含社区提示和对话记录，通过ShareGPT和Trainers等工具进行优化，适用于生成具有创造性和连贯性的文本内容。其发布标志着在开放域故事生成领域的重要进展，为相关研究提供了宝贵的数据支持。

当前挑战

LimeStory-1.0数据集面临的主要挑战包括：在文本生成领域，如何确保生成内容的质量和多样性，避免重复或低质量的输出；在构建过程中，需处理大量用户生成的故事和对话数据，确保数据的清洁度和一致性；此外，数据集明确禁止用于训练NSFW模型，如何在数据收集和处理过程中有效过滤不当内容，也是一个重要的技术难点。

常用场景

经典使用场景

在自然语言处理领域，LimeStory-1.0数据集以其丰富的故事生成内容成为文本生成任务的理想选择。该数据集通过收集多样化的社区故事和对话，为研究人员提供了高质量的文本生成素材。其经典使用场景包括训练和评估故事生成模型，特别是那些需要创造性文本输出的场景。数据集中的gradio和train分割为不同需求的研究者提供了灵活的选择。

解决学术问题

LimeStory-1.0数据集有效解决了创造性文本生成领域的数据稀缺问题。在故事生成、对话系统等研究方向，该数据集为模型训练提供了大量真实且多样化的文本样本。通过分析这些数据，研究者能够深入理解人类叙事的结构和模式，进而开发出更具创造性和连贯性的文本生成算法。数据集还特别强调了非NSFW内容，为安全文本生成研究提供了保障。

衍生相关工作

基于LimeStory-1.0数据集，已经衍生出多个重要的研究工作。在创造性文本生成领域，研究者利用该数据集开发了新型的故事生成架构。对话系统研究中也出现了基于这些数据的创新模型，能够产生更自然的故事性对话。数据集还启发了对文本安全性的深入研究，推动了NSFW内容过滤技术的发展。这些工作共同推动了自然语言生成领域的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集