RyokoAI/CNNovel125K|文本生成数据集|小说数据集

hugging_face2023-04-04 更新2024-03-04 收录

文本生成

小说

下载链接：

https://hf-mirror.com/datasets/RyokoAI/CNNovel125K

下载链接

链接失效反馈

资源简介：

CNNovel125K数据集包含约125,000部中文小说，来源于中文小说托管网站<http://ibiquw.com>。该数据集主要用于无监督的文本生成模型训练，但也可能适用于其他目的。每个数据实例包含小说的文本和元数据，如小说ID、质量评分、语言、标题和作者。数据集未进行分割，且仅包含虚构作品，不包含个人或敏感信息。

提供机构：

RyokoAI

原始信息汇总

数据集概述

数据集名称: CNNovel125K
数据集大小: 约125,000部小说
语言: 简体中文
数据来源: 从中文小说托管网站http://ibiquw.com下载
主要用途: 用于无监督文本生成模型的训练
支持的任务:
- 文本分类
- 文本生成

数据集结构

数据实例

每个数据实例包含以下字段：

text: 小说文本，包含所有章节
meta: 元数据
- subset: 数据集标签，固定为cnnovel.ibiquw
- id: 小说ID
- q: 质量分数，固定为0.9
- lang: 语言标识，固定为zh_cn
- title: 小说标题
- author: 小说作者

数据分割

数据未进行分割。

数据集创建

源数据

源语言生产者: 各小说的作者

注释

注释过程: 标题与小说文本和ID一同收集
注释者: 无人类注释者

使用数据集的考虑

社会影响: 旨在帮助训练生成“更娱乐”的中文内容的模型，也可能对其他语言模型有用
偏见讨论: 数据集内容反映各作者的偏见，需注意避免刻板印象

附加信息

数据集创建者: Ronsor Labs
许可信息: Apache 2.0
引用信息:

@misc{ryokoai2023-bigknow2022, title = {BigKnow2022: Bringing Language Models Up to Speed}, author = {Ronsor}, year = {2023}, howpublished = {url{https://github.com/RyokoAI/BigKnow2022}}, }

AI搜集汇总

数据集介绍

构建方式

CNNovel125K数据集由约125,000部从中国小说托管网站<http://ibiquw.com>下载的小说组成。该数据集的构建主要依赖于自动化的数据收集和初步处理，未涉及人工标注。每部小说的文本及其相关元数据（如标题、作者、质量评分等）被整合为一个数据实例。数据集的构建旨在为无监督的文本生成模型训练提供丰富的语料资源。

使用方法

CNNovel125K数据集主要用于文本生成模型的无监督训练。用户可以通过访问数据集的GitHub仓库获取数据，并根据需要进行预处理和模型训练。数据集的结构设计便于直接导入到各种自然语言处理框架中，如HuggingFace的Transformers库。此外，数据集的元数据信息可用于进一步的分析和模型评估。

背景与挑战

背景概述

CNNovel125K数据集由Ronsor Labs创建，包含了约125,000部从中国小说网站ibiquw.com下载的小说。该数据集主要用于无监督的文本生成模型训练，旨在提升中文文本生成模型的性能。数据集的构建旨在为研究人员提供丰富的中文小说文本资源，以支持文本分类和文本生成等任务的研究。尽管数据集的详细构建过程和动机尚未完全公开，但其对中文自然语言处理领域的潜在影响不容忽视。

当前挑战

CNNovel125K数据集在构建过程中面临的主要挑战包括数据收集的合法性和质量控制。由于数据来源于公开网站，确保数据的版权和使用许可是一个重要问题。此外，数据集中的文本质量评分固定为0.9，这可能掩盖了实际文本质量的多样性。数据集的另一个挑战是缺乏详细的数据分割和标注过程，这可能影响其在不同任务中的应用效果。最后，数据集中的内容反映了作者的偏见，使用时需谨慎处理潜在的刻板印象问题。

常用场景

经典使用场景

在自然语言处理领域，CNNovel125K数据集以其丰富的中文小说文本，成为训练文本生成模型的理想选择。该数据集包含了约125,000部从中国小说托管网站下载的小说，涵盖了多种题材和风格，为模型提供了广泛的语料库。通过使用CNNovel125K，研究者可以训练出能够生成连贯、富有创意的中文文本的模型，这在文学创作、对话系统等领域具有重要应用价值。

解决学术问题

CNNovel125K数据集在解决学术研究问题方面具有显著意义。它为研究者提供了一个大规模、高质量的中文文本数据集，有助于推动中文自然语言处理技术的发展。通过分析和利用这些数据，研究者可以深入探讨中文语言的结构、语义和风格特征，从而改进现有的文本生成、分类和理解模型。此外，该数据集还有助于揭示不同作者和作品之间的语言风格差异，为文学研究和语言学研究提供了宝贵的资源。

实际应用

在实际应用中，CNNovel125K数据集展现出广泛的应用潜力。例如，它可以用于开发智能写作助手，帮助作家和内容创作者生成创意文本；也可以用于构建智能对话系统，提升人机交互的自然度和流畅性。此外，该数据集还可应用于教育领域，通过生成多样化的阅读材料，提升学生的语言能力和文学素养。总之，CNNovel125K为中文文本处理技术的实际应用提供了坚实的基础。

数据集最近研究

最新研究方向

在自然语言处理领域，CNNovel125K数据集的最新研究方向主要集中在文本生成模型的训练与优化上。该数据集包含了大量中文小说文本，为研究者提供了丰富的语料资源，以探索如何更有效地生成连贯且富有创意的文本内容。此外，该数据集也被用于研究文本分类任务，尤其是在多标签分类和情感分析方面，以期提升模型对中文文本的理解能力。随着生成对抗网络（GANs）和变分自编码器（VAEs）等技术的不断发展，CNNovel125K数据集的应用前景愈发广阔，为中文自然语言处理技术的进步提供了坚实的基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

Fruits-360

一个高质量的水果图像数据集，包含多种水果的图像，如苹果、香蕉、樱桃等，总计42345张图片，分为训练集和验证集，共有64个水果类别。

github 收录