botp/RyokoAI_CNNovel125K

Name: botp/RyokoAI_CNNovel125K
Creator: botp
Published: 2023-08-18 01:31:26
License: 暂无描述

Hugging Face2023-08-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/botp/RyokoAI_CNNovel125K

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 language: - zh tags: - novel - training task_categories: - text-classification - text-generation pretty_name: CNNovel125K size_categories: - 100K<n<1M duplicated_from: RyokoAI/CNNovel125K --- # Dataset Card for CNNovel125K *The BigKnow2022 dataset and its subsets are not yet complete. Not all information here may be accurate or accessible.* ## Dataset Description - **Homepage:** (TODO) - **Repository:** <https://github.com/RyokoAI/BigKnow2022> - **Paper:** N/A - **Leaderboard:** N/A - **Point of Contact:** Ronsor/undeleted <ronsor@ronsor.com> ### Dataset Summary CNNovel125K is a dataset composed of approximately 125,000 novels downloaded from the Chinese novel hosting site <http://ibiquw.com>. ### Supported Tasks and Leaderboards This dataset is primarily intended for unsupervised training of text generation models; however, it may be useful for other purposes. * text-classification * text-generation ### Languages * Simplified Chinese ## Dataset Structure ### Data Instances ```json { "text": "\n------------\n\n全部章节\n\n\n------------\n\n第一章她肯定做梦呢！\n\n HT国际大酒店总统套房。\n\n 清晨的第一缕阳光照射进圣地亚哥地板上，洒落在凌乱的床单上，突然地，床上睡的正熟的人睁开眼睛，猛然惊醒！\n\n ...", "meta": { "subset": "cnnovel.ibiquw", "id": "100067", "q": 0.9, "lang": "zh_cn", "title": "为爱入局：嫁给秦先生", "author": "奥德萨" } } { "text": "\n------------\n\n全部章节\n\n\n------------\n\n第1章：出狱就大婚\n\n 凉城第一监狱，大门缓缓打开，秦峰仰起头，贪婪的呼吸了一口空气。\n\n 三年了，终于又闻到了自由的味道。\n\n 他回过头，看着目送他出来的那群人道：...", "meta": { "subset": "cnnovel.ibiquw", "id": "100059", "q": 0.9, "lang": "zh_cn", "title": "绝世弃婿", "author": "绷带怪" } } ``` ### Data Fields * `text`: the actual novel text, all chapters * `meta`: entry metadata * `subset`: dataset tag: `cnnovel.ibiquw` * `id`: novel ID * `q`: quality score, fixed at 0.9 * `lang`: always `zh_cn` (Simplified Chinese) * `title`: novel title * `author`: novel author ### Data Splits No splitting of the data was performed. ## Dataset Creation ### Curation Rationale TODO ### Source Data #### Initial Data Collection and Normalization TODO #### Who are the source language producers? The authors of each novel. ### Annotations #### Annotation process Titles were collected alongside the novel text and IDs. #### Who are the annotators? There were no human annotators. ### Personal and Sensitive Information The dataset contains only works of fiction, and we do not believe it contains any PII. ## Considerations for Using the Data ### Social Impact of Dataset This dataset is intended to be useful for anyone who wishes to train a model to generate "more entertaining" content in Chinese. It may also be useful for other languages depending on your language model. ### Discussion of Biases This dataset is composed of fictional works by various authors. Because of this fact, the contents of this dataset will reflect the biases of those authors. Beware of stereotypes. ### Other Known Limitations N/A ## Additional Information ### Dataset Curators Ronsor Labs ### Licensing Information Apache 2.0, for all parts of which Ronsor Labs or the Ryoko AI Production Committee may be considered authors. All other material is distributed under fair use principles. ### Citation Information ``` @misc{ryokoai2023-bigknow2022, title = {BigKnow2022: Bringing Language Models Up to Speed}, author = {Ronsor}, year = {2023}, howpublished = {\url{https://github.com/RyokoAI/BigKnow2022}}, } ``` ### Contributions Thanks to @ronsor (GH) for gathering this dataset.

许可证：Apache-2.0 语言： - 中文标签： - 小说 - 训练任务类别： - 文本分类 - 文本生成美观名称：CNNovel125K 规模类别：10万<n<100万重复来源：RyokoAI/CNNovel125K --- # CNNovel125K数据集卡片 *BigKnow2022数据集及其子集尚未完善，本文档部分信息可能不准确或无法获取。* ## 数据集说明 - **主页：**（待补充） - **代码仓库：** <https://github.com/RyokoAI/BigKnow2022> - **论文：** 无 - **排行榜：** 无 - **联系方式：** Ronsor/undeleted <ronsor@ronsor.com> ### 数据集摘要 CNNovel125K是一个由约12.5万部从中文小说托管网站<http://ibiquw.com>下载的小说组成的数据集。 ### 支持任务与排行榜本数据集主要用于文本生成模型的无监督训练，但也可应用于其他场景。 * 文本分类 * 文本生成 ### 语言 * 简体中文 ## 数据集结构 ### 数据样例 json { "text": " ------------ 全部章节 ------------ 第一章她肯定做梦呢！ HT国际大酒店总统套房。清晨的第一缕阳光照射进圣地亚哥地板上，洒落在凌乱的床单上，突然地，床上睡的正熟的人睁开眼睛，猛然惊醒！ ...", "meta": { "subset": "cnnovel.ibiquw", "id": "100067", "q": 0.9, "lang": "zh_cn", "title": "为爱入局：嫁给秦先生", "author": "奥德萨" } } { "text": " ------------ 全部章节 ------------ 第1章：出狱就大婚凉城第一监狱，大门缓缓打开，秦峰仰起头，贪婪的呼吸了一口空气。三年了，终于又闻到了自由的味道。他回过头，看着目送他出来的那群人道：...", "meta": { "subset": "cnnovel.ibiquw", "id": "100059", "q": 0.9, "lang": "zh_cn", "title": "绝世弃婿", "author": "绷带怪" } } ### 数据字段 * `text`：实际小说正文，包含所有章节 * `meta`：条目元数据 * `subset`：数据集标签：`cnnovel.ibiquw` * `id`：小说ID * `q`：质量评分，固定为0.9 * `lang`：固定为`zh_cn`（简体中文） * `title`：小说标题 * `author`：小说作者 ### 数据划分未对数据集进行划分。 ## 数据集构建 ### 遴选依据待补充 ### 源数据 #### 初始数据收集与归一化待补充 #### 源语言内容创作者是谁？各小说的作者。 ### 标注信息 #### 标注流程标题与小说正文、ID一同被收集。 #### 标注人员是谁？无人工标注人员。 ### 个人与敏感信息本数据集仅包含虚构作品，我们认为其中不包含任何个人可识别信息（PII）。 ## 数据集使用注意事项 ### 数据集的社会影响本数据集旨在为希望训练模型生成中文“更具娱乐性”内容的用户提供支持，根据所用大语言模型的不同，也可应用于其他语言场景。 ### 偏差讨论本数据集由不同作者的虚构作品组成，因此数据集内容会反映这些作者的固有偏见，请注意规避刻板印象。 ### 其他已知局限性无 ## 附加信息 ### 数据集维护者 Ronsor Labs ### 许可证信息对于Ronsor Labs或Ryoko AI制作委员会可被视为作者的所有内容，采用Apache 2.0许可证。其余内容均遵循合理使用原则进行分发。 ### 引用信息 @misc{ryokoai2023-bigknow2022, title = {BigKnow2022: Bringing Language Models Up to Speed}, author = {Ronsor}, year = {2023}, howpublished = {url{https://github.com/RyokoAI/BigKnow2022}}, } ### 致谢感谢@ronsor（GitHub账号）收集本数据集。

提供机构：

botp

原始信息汇总

数据集卡片 for CNNovel125K

数据集描述

数据集名称: CNNovel125K
数据集概述: CNNovel125K 是一个包含约 125,000 本小说的大型数据集，这些小说从中国小说托管网站 http://ibiquw.com 下载。

支持的任务和排行榜

该数据集主要用于无监督的文本生成模型训练，但也可能适用于其他用途。

文本分类
文本生成

语言

简体中文

数据集结构

数据实例

json { "text": "

全部章节

第一章她肯定做梦呢！

HT国际大酒店总统套房。

清晨的第一缕阳光照射进圣地亚哥地板上，洒落在凌乱的床单上，突然地，床上睡的正熟的人睁开眼睛，

猛然惊醒！

...",

"meta": { "subset": "cnnovel.ibiquw", "id": "100067", "q": 0.9, "lang": "zh_cn", "title": "为爱入局：嫁给秦先生", "author": "奥德萨" } } { "text": "

全部章节

第1章：出狱就大婚

凉城第一监狱，大门缓缓打开，秦峰仰起头，贪婪的呼吸了一口空气。

三年了，终于又闻到了自由的味道。

他回过头，看着目

送他出来的那群人道：...", "meta": { "subset": "cnnovel.ibiquw", "id": "100059", "q": 0.9, "lang": "zh_cn", "title": "绝世弃婿", "author": "绷带怪" } }

数据字段

text: 实际的小说文本，包含所有章节
meta: 条目元数据
- subset: 数据集标签: cnnovel.ibiquw
- id: 小说ID
- q: 质量分数，固定为0.9
- lang: 始终为 zh_cn (简体中文)
- title: 小说标题
- author: 小说作者

数据分割

数据未进行分割。

数据集创建

数据来源

初始数据收集和规范化

TODO

源语言生产者是谁？

每本小说的作者。

注释

注释过程

标题与小说文本和ID一起收集。

注释者是谁？

没有人工注释者。

个人和敏感信息

该数据集仅包含虚构作品，我们不认为它包含任何个人身份信息（PII）。

使用数据的注意事项

数据集的社会影响

该数据集旨在对希望训练模型以生成“更有趣”中文内容的人有用。它也可能对其他语言有用，具体取决于您的语言模型。

偏见的讨论

该数据集由不同作者的虚构作品组成。因此，该数据集的内容将反映这些作者的偏见。注意刻板印象。

其他已知限制

N/A

附加信息

数据集策展人

Ronsor Labs

许可信息

Apache 2.0，对于Ronsor Labs或Ryoko AI Production Committee可能被视为作者的所有部分。所有其他材料根据合理使用原则分发。

引用信息

@misc{ryokoai2023-bigknow2022, title = {BigKnow2022: Bringing Language Models Up to Speed}, author = {Ronsor}, year = {2023}, howpublished = {url{https://github.com/RyokoAI/BigKnow2022}}, }

贡献

感谢 @ronsor (GH) 收集此数据集。

搜集汇总

数据集介绍

构建方式

CNNovel125K数据集由约125,000部从中国小说托管网站<http://ibiquw.com>下载的小说组成。该数据集的构建主要依赖于自动化的数据收集和初步处理，未涉及人工标注。每部小说的文本及其相关元数据（如标题、作者、质量评分等）被整合为一个数据实例。数据集的构建旨在为无监督的文本生成模型训练提供丰富的语料资源。

使用方法

CNNovel125K数据集适用于多种自然语言处理任务，特别是文本生成和分类。用户可以通过加载数据集中的文本和元数据，进行模型的预训练或微调。数据集的结构设计使得用户能够轻松提取所需信息，如小说文本、标题和作者等，从而进行定制化的模型训练和评估。

背景与挑战

背景概述

CNNovel125K数据集由Ronsor Labs创建，包含了约125,000部从中国小说网站ibiquw.com下载的小说。该数据集的主要目的是为无监督文本生成模型的训练提供丰富的语料，同时也适用于文本分类等任务。数据集的构建旨在推动中文自然语言处理技术的发展，特别是文本生成和分类领域。通过提供大量高质量的中文小说文本，CNNovel125K为研究人员和开发者提供了一个宝贵的资源，以训练和评估各种语言模型。

当前挑战

尽管CNNovel125K数据集为中文文本生成和分类提供了丰富的资源，但其构建过程中仍面临若干挑战。首先，数据集的规模庞大，确保每部小说的质量和一致性是一个复杂的过程。其次，由于数据集主要由小说组成，其内容可能包含作者的个人偏见和刻板印象，这可能影响模型的公平性和准确性。此外，数据集的标注过程缺乏人工干预，可能导致某些文本信息的缺失或不准确。最后，数据集的版权问题和隐私保护也是需要考虑的重要因素，确保数据使用的合法性和道德性。

常用场景

经典使用场景

在自然语言处理领域，CNNovel125K数据集以其丰富的中文小说文本，成为训练文本生成模型的经典资源。该数据集包含约125,000部从中国小说网站下载的小说，涵盖了广泛的主题和风格。研究者们利用这一数据集进行无监督学习，旨在提升模型生成连贯、富有创意的中文文本的能力。此外，该数据集还可用于文本分类任务，帮助模型识别和分类不同类型的小说内容。

解决学术问题

CNNovel125K数据集在解决学术研究问题方面具有重要意义。它为研究者提供了一个大规模、多样化的中文文本资源，有助于解决中文自然语言处理中的数据稀缺问题。通过该数据集，研究者可以训练和评估文本生成模型，探索如何生成高质量、符合语法规则且富有创意的中文文本。此外，该数据集还为研究中文文本分类、情感分析等任务提供了丰富的语料库，推动了相关领域的发展。

实际应用

在实际应用中，CNNovel125K数据集被广泛用于开发和优化中文文本生成系统。例如，它可以用于构建智能写作助手，帮助用户自动生成小说、故事或其他创意文本。此外，该数据集还可应用于内容推荐系统，通过分析用户偏好，推荐符合其兴趣的小说或文章。在教育领域，该数据集也可用于开发语言学习工具，帮助学生提高中文写作和阅读理解能力。

数据集最近研究