chinese_porn_novel
收藏Hugging Face2024-11-13 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/qgyd2021/chinese_porn_novel
下载链接
链接失效反馈官方服务:
资源简介:
xbookcn_short_story数据集包含中文短篇小说,用于文本生成任务。每篇小说被切分为多个块,并使用Qwen-instruct模型生成4个不同长度的摘要。数据集的特征包括源、类别、标题、内容、内容长度、URL以及4个不同长度的摘要。数据集的大小在100M到1B之间,训练集包含627195个样本。
创建时间:
2024-11-13
原始信息汇总
数据集概述
基本信息
- 语言: 中文
- 数据集大小: 100M<n<1B
- 任务类别: 文本生成
- 标签: 艺术
数据集配置
- 配置名称: xbookcn_short_story
- 默认配置: 是
数据集特征
- source: 字符串
- category: 字符串
- title: 字符串
- content: 字符串
- content_length: 无符号32位整数
- url: 字符串
- summary1: 字符串
- summary2: 字符串
- summary3: 字符串
- summary4: 字符串
数据集分割
- 训练集:
- 样本数量: 627195
- 字节数: 1167355353
数据集文件
- 下载大小: 721183317
- 数据集大小: 1167355353
数据文件路径
- 训练集路径: xbookcn_short_story/train-*
数据集用途
- 用于制作特殊的 GPT 语言模型。
- 每篇小说被切分为多个块(chunk),并使用 Qwen-instruct 对每个块生成4个摘要。
摘要生成规则
- 摘要1:
- 根据文本长度输出3到7个简短句子。
- 每个句子控制在10字左右。
- 摘要2:
- 根据文本长度输出2到4个简短句子。
- 每个句子控制在15字左右。
- 摘要3:
- 根据文本长度输出2到4个简短句子。
- 每个句子控制在10字左右。
- 摘要4:
- 根据文本长度输出3到5个简短句子。
- 每个句子控制在10字左右。
搜集汇总
数据集介绍

构建方式
该数据集的构建基于中文色情小说文本,通过将每篇小说切分为多个chunk,并利用Qwen-instruct模型对每个chunk生成四个不同长度的摘要。摘要的生成遵循特定的prompt模板,确保每个摘要句子控制在10至15字之间,且具有代表性。数据集涵盖了丰富的文本内容,并通过结构化处理,确保了数据的多样性和可用性。
使用方法
该数据集主要用于文本生成任务,特别是针对中文色情小说领域的语言模型训练。用户可以通过加载数据集,直接访问每篇小说的chunk及其对应的摘要,进行模型训练或文本分析。数据集的parquet格式便于高效读取和处理,用户还可以根据提供的元信息进行筛选和分类,以满足不同的研究需求。
背景与挑战
背景概述
Chinese Porn Novel 数据集是一个专注于中文色情小说文本生成的数据集,旨在为特殊领域的GPT语言模型提供训练素材。该数据集由xbookcn_short_story配置构成,包含了大量中文短篇小说的文本内容及其摘要信息。数据集的核心研究问题在于如何通过高质量的文本数据提升特定领域语言模型的生成能力,尤其是在色情文学这一敏感且复杂的领域。该数据集的创建为相关领域的研究提供了重要的数据支持,推动了中文文本生成技术的发展。
当前挑战
Chinese Porn Novel 数据集在构建和应用过程中面临多重挑战。首先,色情文学领域的文本生成任务具有高度的敏感性和道德争议,如何在确保数据合法性的同时保持文本的多样性和质量是一个关键问题。其次,数据集的构建需要对大量文本进行切分和摘要生成,这一过程不仅需要高效的自动化工具,还需确保摘要的准确性和代表性。此外,由于色情文学的特殊性,数据集的公开和使用可能受到法律和伦理的限制,如何在研究与应用之间找到平衡点也是一个亟待解决的难题。
常用场景
经典使用场景
在自然语言处理领域,chinese_porn_novel数据集被广泛用于训练和评估生成式语言模型。通过将每篇小说切分为多个chunk,并利用Qwen-instruct模型生成多个摘要,该数据集为模型提供了丰富的文本生成任务训练素材。这种处理方式不仅提升了模型对长文本的理解能力,还增强了其在特定领域文本生成中的表现。
解决学术问题
chinese_porn_novel数据集有效解决了生成式语言模型在特定领域文本生成中的挑战。通过提供大量经过摘要处理的文本片段,该数据集帮助研究者更好地理解模型在长文本生成中的表现,并优化其生成质量。此外,该数据集还为研究者在文本摘要生成、文本分类等任务中提供了宝贵的实验数据,推动了相关领域的研究进展。
实际应用
在实际应用中,chinese_porn_novel数据集被用于开发智能写作助手和内容推荐系统。通过训练生成式语言模型,该数据集能够帮助自动生成符合特定风格和主题的文本内容,满足用户个性化需求。同时,基于该数据集训练的模型还可用于内容审核和过滤,提升网络内容管理的效率和准确性。
数据集最近研究
最新研究方向
在自然语言处理领域,中文色情小说数据集(Chinese Porn Novel)为文本生成任务提供了独特的语料资源。该数据集通过将每篇小说切分为多个片段,并利用Qwen-instruct模型生成多个摘要,显著提升了文本摘要的多样性和准确性。这一方法不仅优化了模型对长文本的处理能力,还为生成式预训练模型(GPT)的微调提供了高质量的训练数据。近年来,随着生成式模型在内容创作、对话系统等领域的广泛应用,该数据集的研究方向逐渐聚焦于如何通过多摘要生成技术提升模型的语义理解和生成能力。这一研究不仅推动了中文文本生成技术的发展,也为内容审核、情感分析等应用场景提供了新的解决方案。
以上内容由遇见数据集搜集并总结生成



