botp/RyokoAI_CNNovel125K|文本生成数据集|中文小说数据集

hugging_face2023-08-18 更新2024-03-04 收录

文本生成

中文小说

下载链接：

https://hf-mirror.com/datasets/botp/RyokoAI_CNNovel125K

下载链接

链接失效反馈

资源简介：

CNNovel125K是一个包含约125,000本从中国小说托管网站下载的小说数据集。该数据集主要用于无监督的文本生成模型训练，但也可能适用于其他目的。数据集中的小说文本以简体中文编写，每个实例包含小说文本和元数据，如子集标签、小说ID、质量分数、语言、标题和作者。数据集未进行分割，且不包含个人和敏感信息。

提供机构：

botp

原始信息汇总

数据集卡片 for CNNovel125K

数据集描述

数据集名称: CNNovel125K
数据集概述: CNNovel125K 是一个包含约 125,000 本小说的大型数据集，这些小说从中国小说托管网站 http://ibiquw.com 下载。

支持的任务和排行榜

该数据集主要用于无监督的文本生成模型训练，但也可能适用于其他用途。

文本分类
文本生成

语言

简体中文

数据集结构

数据实例

json { "text": "

全部章节

第一章她肯定做梦呢！

HT国际大酒店总统套房。

清晨的第一缕阳光照射进圣地亚哥地板上，洒落在凌乱的床单上，突然地，床上睡的正熟的人睁开眼睛，

猛然惊醒！

...",

"meta": { "subset": "cnnovel.ibiquw", "id": "100067", "q": 0.9, "lang": "zh_cn", "title": "为爱入局：嫁给秦先生", "author": "奥德萨" } } { "text": "

全部章节

第1章：出狱就大婚

凉城第一监狱，大门缓缓打开，秦峰仰起头，贪婪的呼吸了一口空气。

三年了，终于又闻到了自由的味道。

他回过头，看着目

送他出来的那群人道：...", "meta": { "subset": "cnnovel.ibiquw", "id": "100059", "q": 0.9, "lang": "zh_cn", "title": "绝世弃婿", "author": "绷带怪" } }

数据字段

text: 实际的小说文本，包含所有章节
meta: 条目元数据
- subset: 数据集标签: cnnovel.ibiquw
- id: 小说ID
- q: 质量分数，固定为0.9
- lang: 始终为 zh_cn (简体中文)
- title: 小说标题
- author: 小说作者

数据分割

数据未进行分割。

数据集创建

数据来源

初始数据收集和规范化

TODO

源语言生产者是谁？

每本小说的作者。

注释

注释过程

标题与小说文本和ID一起收集。

注释者是谁？

没有人工注释者。

个人和敏感信息

该数据集仅包含虚构作品，我们不认为它包含任何个人身份信息（PII）。

使用数据的注意事项

数据集的社会影响

该数据集旨在对希望训练模型以生成“更有趣”中文内容的人有用。它也可能对其他语言有用，具体取决于您的语言模型。

偏见的讨论

该数据集由不同作者的虚构作品组成。因此，该数据集的内容将反映这些作者的偏见。注意刻板印象。

其他已知限制

N/A

附加信息

数据集策展人

Ronsor Labs

许可信息

Apache 2.0，对于Ronsor Labs或Ryoko AI Production Committee可能被视为作者的所有部分。所有其他材料根据合理使用原则分发。

引用信息

@misc{ryokoai2023-bigknow2022, title = {BigKnow2022: Bringing Language Models Up to Speed}, author = {Ronsor}, year = {2023}, howpublished = {url{https://github.com/RyokoAI/BigKnow2022}}, }

贡献

感谢 @ronsor (GH) 收集此数据集。

AI搜集汇总

数据集介绍

构建方式

CNNovel125K数据集由约125,000部从中国小说托管网站<http://ibiquw.com>下载的小说组成。该数据集的构建主要依赖于自动化的数据收集和初步处理，未涉及人工标注。每部小说的文本及其相关元数据（如标题、作者、质量评分等）被整合为一个数据实例。数据集的构建旨在为无监督的文本生成模型训练提供丰富的语料资源。

使用方法

CNNovel125K数据集适用于多种自然语言处理任务，特别是文本生成和分类。用户可以通过加载数据集中的文本和元数据，进行模型的预训练或微调。数据集的结构设计使得用户能够轻松提取所需信息，如小说文本、标题和作者等，从而进行定制化的模型训练和评估。

背景与挑战

背景概述

CNNovel125K数据集由Ronsor Labs创建，包含了约125,000部从中国小说网站ibiquw.com下载的小说。该数据集的主要目的是为无监督文本生成模型的训练提供丰富的语料，同时也适用于文本分类等任务。数据集的构建旨在推动中文自然语言处理技术的发展，特别是文本生成和分类领域。通过提供大量高质量的中文小说文本，CNNovel125K为研究人员和开发者提供了一个宝贵的资源，以训练和评估各种语言模型。

当前挑战

尽管CNNovel125K数据集为中文文本生成和分类提供了丰富的资源，但其构建过程中仍面临若干挑战。首先，数据集的规模庞大，确保每部小说的质量和一致性是一个复杂的过程。其次，由于数据集主要由小说组成，其内容可能包含作者的个人偏见和刻板印象，这可能影响模型的公平性和准确性。此外，数据集的标注过程缺乏人工干预，可能导致某些文本信息的缺失或不准确。最后，数据集的版权问题和隐私保护也是需要考虑的重要因素，确保数据使用的合法性和道德性。

常用场景

经典使用场景

在自然语言处理领域，CNNovel125K数据集以其丰富的中文小说文本，成为训练文本生成模型的经典资源。该数据集包含约125,000部从中国小说网站下载的小说，涵盖了广泛的主题和风格。研究者们利用这一数据集进行无监督学习，旨在提升模型生成连贯、富有创意的中文文本的能力。此外，该数据集还可用于文本分类任务，帮助模型识别和分类不同类型的小说内容。

解决学术问题

CNNovel125K数据集在解决学术研究问题方面具有重要意义。它为研究者提供了一个大规模、多样化的中文文本资源，有助于解决中文自然语言处理中的数据稀缺问题。通过该数据集，研究者可以训练和评估文本生成模型，探索如何生成高质量、符合语法规则且富有创意的中文文本。此外，该数据集还为研究中文文本分类、情感分析等任务提供了丰富的语料库，推动了相关领域的发展。

实际应用

在实际应用中，CNNovel125K数据集被广泛用于开发和优化中文文本生成系统。例如，它可以用于构建智能写作助手，帮助用户自动生成小说、故事或其他创意文本。此外，该数据集还可应用于内容推荐系统，通过分析用户偏好，推荐符合其兴趣的小说或文章。在教育领域，该数据集也可用于开发语言学习工具，帮助学生提高中文写作和阅读理解能力。

数据集最近研究

最新研究方向

在自然语言处理领域，CNNovel125K数据集因其庞大的中文小说文本资源而备受关注。最新研究方向主要集中在利用该数据集进行无监督文本生成模型的训练，以提升模型在中文文本创作中的表现。此外，研究者们也在探索如何通过该数据集识别和分析小说中的文化偏见和刻板印象，从而为构建更加公平和多样化的语言模型提供参考。这些研究不仅有助于推动中文自然语言处理技术的发展，也为跨文化交流和理解提供了新的视角。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域教育数据库

该数据集包含了中国各区域的教育统计数据，涵盖了学校数量、学生人数、教师资源、教育经费等多个方面的信息。

www.moe.gov.cn 收录

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库，旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合，以增加开放源代码声纳数据集的可见性，并提供一个更容易查找和比较数据集的方式。

github 收录