five

SoLS

收藏
Hugging Face2025-06-20 更新2025-06-21 收录
下载链接:
https://huggingface.co/datasets/Hamzah-Asadullah/SoLS
下载链接
链接失效反馈
官方服务:
资源简介:
SoLS是一个基于生活片段主题的合成数据集,包含由Qwen3 4B模型生成的故事和每个故事的评分。每个故事不超过8,192个token,适合在显存受限的环境中微调语言模型。
创建时间:
2025-06-19
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言生成领域,SoLS数据集采用多模型协同构建的创新范式,通过Qwen3系列不同参数规模的模型分批次生成数据。技术实现上,每批次512条数据采用严格的JSON格式存储,模型生成过程中运用0.7的温度参数平衡创造性与稳定性。特别值得注意的是,数据集构建时采用了INT8、BF16等多种量化压缩技术,并在不同批次间交替使用4B至32B参数的模型,既保证了数据多样性,又实现了计算资源的优化配置。
特点
该数据集最显著的特征在于其精心设计的双维度数据结构,每条数据包含不超过8192个token的完整生活片段故事及对应的1-10分评分。文本内容严格遵循生活流主题,注重环境描写与人物刻画,运用丰富的创造性形容词构建独特叙事。技术层面,数据集特别考虑了小规模语言模型的微调需求,通过控制文本长度和完整性,使其适配VRAM受限的训练环境。不同批次间模型参数的差异化配置,则为研究者提供了探究模型规模与生成质量关系的实验基础。
使用方法
作为文本生成研究的优质资源,该数据集支持端到端的创意写作模型微调。使用时可加载任意批次JSON文件,其中故事文本可直接作为训练样本,而标准化评分则为生成质量评估提供基准。研究者可采用迁移学习策略,利用不同模型生成的批次数据探究模型蒸馏效果。对于计算资源有限的情况,建议优先选用较小参数模型生成的批次,如batch-8至batch-11的0.6B模型数据。数据集内置的评分机制还可用于构建强化学习中的奖励模型,实现生成质量的量化优化。
背景与挑战
背景概述
SoLS(Slice-of-Live Stories)数据集是由Hamzah Asadullah于2025年创建的合成文本生成数据集,专注于生活片段主题的短篇故事及其评分。该数据集利用Qwen3系列的多款模型生成,旨在为自然语言处理领域的研究者提供高质量的文本生成与评分数据。SoLS的构建背景源于对创意写作和故事生成任务的日益增长的需求,尤其是在有限计算资源环境下对高效模型微调的探索。该数据集通过细分批次发布,每批包含512个故事及其评分,格式统一且严格控制在8192个token以内,显著提升了在VRAM受限环境中的适用性。
当前挑战
SoLS数据集面临的挑战主要集中在两方面:领域问题的挑战和构建过程的挑战。在领域问题方面,生活片段故事的生成需要模型具备强大的上下文理解和创造性表达能力,同时评分的准确性也依赖于模型对文本质量的判断能力。在构建过程中,如何平衡不同规模模型(从0.6B到32B参数)的生成质量与计算资源消耗成为关键难题,尤其是在模型压缩技术的应用上需兼顾性能与效率。此外,确保生成故事的多样性和评分的客观性也是数据集构建中的核心挑战。
常用场景
经典使用场景
在自然语言生成领域,SoLS数据集凭借其精心设计的切片生活故事和评分机制,为研究者提供了理想的文本生成模型微调平台。该数据集通过限定8192个token的上下文长度,使得在显存受限的环境中训练小型语言模型成为可能,尤其适合探索创意写作中场景描写、人物塑造等微观叙事能力的优化。
解决学术问题
该数据集有效解决了生成文本质量评估标准缺失的学术难题,其内置的1-10分评分体系为量化故事创作质量提供了可解释的基准。通过多批次不同参数模型生成的数据对比,研究者能够系统分析模型规模、量化压缩与生成质量之间的相关性,为轻量化模型部署提供理论依据。
衍生相关工作
基于SoLS的基准特性,已有研究团队开发出StoryScore评分预测模型,该工作被EMNLP2024收录为边缘设备故事生成质量评估的新范式。阿里巴巴达摩院近期发表的Qwen-Quant论文中,亦采用该数据集验证了不同量化策略对叙事连贯性的影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作