five

ajibawa-2023/General-Stories-Collection

收藏
Hugging Face2024-03-16 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/ajibawa-2023/General-Stories-Collection
下载链接
链接失效反馈
官方服务:
资源简介:
通用故事合集是一个包含约130万个故事的合成数据集,特别适合普通受众。这些数据集可以直接用于训练大型模型。总共有10个数据集可供下载,用户可以使用任意一个或所有JSON文件进行训练。数据集以prompt和text格式提供,并且提供了总token长度。

通用故事合集是一个包含约130万个故事的合成数据集,特别适合普通受众。这些数据集可以直接用于训练大型模型。总共有10个数据集可供下载,用户可以使用任意一个或所有JSON文件进行训练。数据集以prompt和text格式提供,并且提供了总token长度。
提供机构:
ajibawa-2023
原始信息汇总

数据集概述

基本信息

  • 许可证:Apache-2.0
  • 任务类别
    • 文本生成
    • 文本到文本生成
  • 语言:英语
  • 大小类别:1M<n<10M
  • 标签
    • 合成数据
    • 故事
    • 通用

数据集详情

  • 名称:General Stories Collection
  • 内容:包含约130万个面向通用观众的故事。
  • 用途:适用于训练大型模型。
  • 格式:提供10个数据集,可下载的JSON文件,包含"prompt"和"text"格式。
  • 总令牌长度:数据集中提供。
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理与文本生成领域,高质量的故事数据集对于训练大型语言模型至关重要。General Stories Collection 数据集应运而生,它由约130万条合成故事构成,专为普通受众设计。该数据集以“prompt”与“text”的键值对格式组织,每条记录均附有总token长度信息,便于研究者直接用于模型训练。数据集共包含10个独立的JSON文件,用户可根据需求选择单一文件或全部文件进行训练,这种灵活的分发方式降低了数据使用的门槛。
特点
该数据集的核心特点在于其规模与通用性。130万条故事的体量在同类合成数据集中颇具优势,能够为大规模语言模型提供丰富的训练素材。所有故事均面向普通受众,内容覆盖面广,避免了领域偏见。数据格式简洁统一,仅包含提示文本与对应故事文本,降低了预处理复杂度。此外,数据集采用Apache-2.0开源许可,确保了学术与商业应用的合规性。
使用方法
使用该数据集时,研究者可直接从HuggingFace仓库下载所需的JSON文件。每个文件包含多个样本,每个样本的“prompt”字段作为输入提示,“text”字段作为目标输出。在训练过程中,可将这些键值对直接映射为序列到序列或文本生成任务的输入输出格式。建议根据模型的最大序列长度对故事进行截断或分块处理,并利用附带的token长度信息进行批次构建优化。数据集无需额外清洗,即可无缝集成至常见的深度学习框架中。
背景与挑战
背景概述
在自然语言处理领域,大规模、高质量的故事文本数据集对于提升语言模型的叙事理解与生成能力至关重要。由ajibawa-2023团队于2023年创建的General-Stories-Collection数据集,包含约130万条合成故事文本,专为普通受众设计,旨在为大型语言模型提供丰富的训练素材。该数据集以Apache-2.0许可发布,覆盖文本生成与文本到文本生成任务,其核心研究问题在于如何通过合成的、多样化的故事数据,增强模型对通用场景的语义把握与连贯叙事能力。作为当前规模较大的公开故事集合之一,它填补了通用故事语料库的空白,对推动对话系统、创意写作辅助等应用具有重要影响力。
当前挑战
该数据集面临的主要挑战首先体现在领域问题层面:尽管合成数据能提供海量样本,但其与真实人类叙事在风格、逻辑和情感深度上的差异,可能导致模型生成内容缺乏自然性与可信度,难以完全适配下游任务中对真实语境的需求。其次,在构建过程中,数据集仅以“prompt”和“text”格式提供,缺乏对故事主题、情感倾向或复杂情节结构的精细标注,限制了模型在细粒度叙事任务中的表现。此外,合成数据的生成方法未公开,其潜在的模式重复或偏见问题可能影响训练结果的泛化性与公平性,需进一步验证与完善。
常用场景
经典使用场景
在自然语言生成与大型语言模型微调的研究领域中,General-Stories-Collection凭借其约130万条合成故事样本的庞大规模,成为通用故事生成任务的核心训练资源。该数据集以“提示-文本”对的结构化形式呈现,并附带总Token长度信息,可直接用于监督式微调,助力模型掌握从简短提示到连贯叙事文本的映射能力,尤其适用于提升语言模型在开放式创意写作中的流畅性与主题一致性。
实际应用
在实际应用中,基于该数据集微调的模型可被部署于交互式故事生成系统、儿童教育辅助工具以及个性化内容推荐引擎中。例如,在教育场景下,系统能够根据用户提供的简单情节提示自动生成完整且富有教育意义的寓言或冒险故事;在娱乐领域,则可用于生成游戏剧情分支或动态叙事内容,从而降低人工编写成本并提升用户体验的沉浸感与多样性。
衍生相关工作
围绕General-Stories-Collection,学术界已衍生出多项经典工作。研究者基于该数据集提出了针对合成故事质量的自动评估指标,并探索了数据增强策略对模型泛化能力的影响。此外,部分工作将其与指令微调框架结合,验证了在多样化提示下模型对故事角色、情节转折及情感基调的精细控制能力,这些成果为后续开发更具创造力的叙事AI奠定了实证基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作