five

botp/RyokoAI_CNNovel125K

收藏
Hugging Face2023-08-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/botp/RyokoAI_CNNovel125K
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 language: - zh tags: - novel - training task_categories: - text-classification - text-generation pretty_name: CNNovel125K size_categories: - 100K<n<1M duplicated_from: RyokoAI/CNNovel125K --- # Dataset Card for CNNovel125K *The BigKnow2022 dataset and its subsets are not yet complete. Not all information here may be accurate or accessible.* ## Dataset Description - **Homepage:** (TODO) - **Repository:** <https://github.com/RyokoAI/BigKnow2022> - **Paper:** N/A - **Leaderboard:** N/A - **Point of Contact:** Ronsor/undeleted <ronsor@ronsor.com> ### Dataset Summary CNNovel125K is a dataset composed of approximately 125,000 novels downloaded from the Chinese novel hosting site <http://ibiquw.com>. ### Supported Tasks and Leaderboards This dataset is primarily intended for unsupervised training of text generation models; however, it may be useful for other purposes. * text-classification * text-generation ### Languages * Simplified Chinese ## Dataset Structure ### Data Instances ```json { "text": "\n------------\n\n全部章节\n\n\n------------\n\n第一章 她肯定做梦呢!\n\n HT国际大酒店总统套房。\n\n 清晨的第一缕阳光照射进圣地亚哥地板上,洒落在凌乱的床单上,突然地,床上睡的正熟的人睁开眼睛, 猛然惊醒!\n\n ...", "meta": { "subset": "cnnovel.ibiquw", "id": "100067", "q": 0.9, "lang": "zh_cn", "title": "为爱入局:嫁给秦先生", "author": "奥德萨" } } { "text": "\n------------\n\n全部章节\n\n\n------------\n\n第1章:出狱就大婚\n\n 凉城第一监狱,大门缓缓打开,秦峰仰起头,贪婪的呼吸了一口空气。\n\n 三年了,终于又闻到了自由的味道。\n\n 他回过头,看着目 送他出来的那群人道:...", "meta": { "subset": "cnnovel.ibiquw", "id": "100059", "q": 0.9, "lang": "zh_cn", "title": "绝世弃婿", "author": "绷带怪" } } ``` ### Data Fields * `text`: the actual novel text, all chapters * `meta`: entry metadata * `subset`: dataset tag: `cnnovel.ibiquw` * `id`: novel ID * `q`: quality score, fixed at 0.9 * `lang`: always `zh_cn` (Simplified Chinese) * `title`: novel title * `author`: novel author ### Data Splits No splitting of the data was performed. ## Dataset Creation ### Curation Rationale TODO ### Source Data #### Initial Data Collection and Normalization TODO #### Who are the source language producers? The authors of each novel. ### Annotations #### Annotation process Titles were collected alongside the novel text and IDs. #### Who are the annotators? There were no human annotators. ### Personal and Sensitive Information The dataset contains only works of fiction, and we do not believe it contains any PII. ## Considerations for Using the Data ### Social Impact of Dataset This dataset is intended to be useful for anyone who wishes to train a model to generate "more entertaining" content in Chinese. It may also be useful for other languages depending on your language model. ### Discussion of Biases This dataset is composed of fictional works by various authors. Because of this fact, the contents of this dataset will reflect the biases of those authors. Beware of stereotypes. ### Other Known Limitations N/A ## Additional Information ### Dataset Curators Ronsor Labs ### Licensing Information Apache 2.0, for all parts of which Ronsor Labs or the Ryoko AI Production Committee may be considered authors. All other material is distributed under fair use principles. ### Citation Information ``` @misc{ryokoai2023-bigknow2022, title = {BigKnow2022: Bringing Language Models Up to Speed}, author = {Ronsor}, year = {2023}, howpublished = {\url{https://github.com/RyokoAI/BigKnow2022}}, } ``` ### Contributions Thanks to @ronsor (GH) for gathering this dataset.

许可证:Apache-2.0 语言: - 中文 标签: - 小说 - 训练 任务类别: - 文本分类 - 文本生成 美观名称:CNNovel125K 规模类别:10万<n<100万 重复来源:RyokoAI/CNNovel125K --- # CNNovel125K数据集卡片 *BigKnow2022数据集及其子集尚未完善,本文档部分信息可能不准确或无法获取。* ## 数据集说明 - **主页:**(待补充) - **代码仓库:** <https://github.com/RyokoAI/BigKnow2022> - **论文:** 无 - **排行榜:** 无 - **联系方式:** Ronsor/undeleted <ronsor@ronsor.com> ### 数据集摘要 CNNovel125K是一个由约12.5万部从中文小说托管网站<http://ibiquw.com>下载的小说组成的数据集。 ### 支持任务与排行榜 本数据集主要用于文本生成模型的无监督训练,但也可应用于其他场景。 * 文本分类 * 文本生成 ### 语言 * 简体中文 ## 数据集结构 ### 数据样例 json { "text": " ------------ 全部章节 ------------ 第一章 她肯定做梦呢! HT国际大酒店总统套房。 清晨的第一缕阳光照射进圣地亚哥地板上,洒落在凌乱的床单上,突然地,床上睡的正熟的人睁开眼睛, 猛然惊醒! ...", "meta": { "subset": "cnnovel.ibiquw", "id": "100067", "q": 0.9, "lang": "zh_cn", "title": "为爱入局:嫁给秦先生", "author": "奥德萨" } } { "text": " ------------ 全部章节 ------------ 第1章:出狱就大婚 凉城第一监狱,大门缓缓打开,秦峰仰起头,贪婪的呼吸了一口空气。 三年了,终于又闻到了自由的味道。 他回过头,看着目送他出来的那群人道:...", "meta": { "subset": "cnnovel.ibiquw", "id": "100059", "q": 0.9, "lang": "zh_cn", "title": "绝世弃婿", "author": "绷带怪" } } ### 数据字段 * `text`:实际小说正文,包含所有章节 * `meta`:条目元数据 * `subset`:数据集标签:`cnnovel.ibiquw` * `id`:小说ID * `q`:质量评分,固定为0.9 * `lang`:固定为`zh_cn`(简体中文) * `title`:小说标题 * `author`:小说作者 ### 数据划分 未对数据集进行划分。 ## 数据集构建 ### 遴选依据 待补充 ### 源数据 #### 初始数据收集与归一化 待补充 #### 源语言内容创作者是谁? 各小说的作者。 ### 标注信息 #### 标注流程 标题与小说正文、ID一同被收集。 #### 标注人员是谁? 无人工标注人员。 ### 个人与敏感信息 本数据集仅包含虚构作品,我们认为其中不包含任何个人可识别信息(PII)。 ## 数据集使用注意事项 ### 数据集的社会影响 本数据集旨在为希望训练模型生成中文“更具娱乐性”内容的用户提供支持,根据所用大语言模型的不同,也可应用于其他语言场景。 ### 偏差讨论 本数据集由不同作者的虚构作品组成,因此数据集内容会反映这些作者的固有偏见,请注意规避刻板印象。 ### 其他已知局限性 无 ## 附加信息 ### 数据集维护者 Ronsor Labs ### 许可证信息 对于Ronsor Labs或Ryoko AI制作委员会可被视为作者的所有内容,采用Apache 2.0许可证。其余内容均遵循合理使用原则进行分发。 ### 引用信息 @misc{ryokoai2023-bigknow2022, title = {BigKnow2022: Bringing Language Models Up to Speed}, author = {Ronsor}, year = {2023}, howpublished = {url{https://github.com/RyokoAI/BigKnow2022}}, } ### 致谢 感谢@ronsor(GitHub账号)收集本数据集。
提供机构:
botp
原始信息汇总

数据集卡片 for CNNovel125K

数据集描述

  • 数据集名称: CNNovel125K
  • 数据集概述: CNNovel125K 是一个包含约 125,000 本小说的大型数据集,这些小说从中国小说托管网站 http://ibiquw.com 下载。

支持的任务和排行榜

该数据集主要用于无监督的文本生成模型训练,但也可能适用于其他用途。

  • 文本分类
  • 文本生成

语言

  • 简体中文

数据集结构

数据实例

json { "text": "

全部章节


第一章 她肯定做梦呢!

HT国际大酒店总统套房。

清晨的第一缕阳光照射进圣地亚哥地板上,洒落在凌乱的床单上,突然地,床上睡的正熟的人睁开眼睛,

猛然惊醒!

...",

"meta": { "subset": "cnnovel.ibiquw", "id": "100067", "q": 0.9, "lang": "zh_cn", "title": "为爱入局:嫁给秦先生", "author": "奥德萨" } } { "text": "

全部章节


第1章:出狱就大婚

凉城第一监狱,大门缓缓打开,秦峰仰起头,贪婪的呼吸了一口空气。

三年了,终于又闻到了自由的味道。

他回过头,看着目

送他出来的那群人道:...", "meta": { "subset": "cnnovel.ibiquw", "id": "100059", "q": 0.9, "lang": "zh_cn", "title": "绝世弃婿", "author": "绷带怪" } }

数据字段

  • text: 实际的小说文本,包含所有章节
  • meta: 条目元数据
    • subset: 数据集标签: cnnovel.ibiquw
    • id: 小说ID
    • q: 质量分数,固定为0.9
    • lang: 始终为 zh_cn (简体中文)
    • title: 小说标题
    • author: 小说作者

数据分割

数据未进行分割。

数据集创建

数据来源

初始数据收集和规范化

TODO

源语言生产者是谁?

每本小说的作者。

注释

注释过程

标题与小说文本和ID一起收集。

注释者是谁?

没有人工注释者。

个人和敏感信息

该数据集仅包含虚构作品,我们不认为它包含任何个人身份信息(PII)。

使用数据的注意事项

数据集的社会影响

该数据集旨在对希望训练模型以生成“更有趣”中文内容的人有用。它也可能对其他语言有用,具体取决于您的语言模型。

偏见的讨论

该数据集由不同作者的虚构作品组成。因此,该数据集的内容将反映这些作者的偏见。注意刻板印象。

其他已知限制

N/A

附加信息

数据集策展人

Ronsor Labs

许可信息

Apache 2.0,对于Ronsor Labs或Ryoko AI Production Committee可能被视为作者的所有部分。所有其他材料根据合理使用原则分发。

引用信息

@misc{ryokoai2023-bigknow2022, title = {BigKnow2022: Bringing Language Models Up to Speed}, author = {Ronsor}, year = {2023}, howpublished = {url{https://github.com/RyokoAI/BigKnow2022}}, }

贡献

感谢 @ronsor (GH) 收集此数据集。

搜集汇总
数据集介绍
main_image_url
构建方式
CNNovel125K数据集由约125,000部从中国小说托管网站<http://ibiquw.com>下载的小说组成。该数据集的构建主要依赖于自动化的数据收集和初步处理,未涉及人工标注。每部小说的文本及其相关元数据(如标题、作者、质量评分等)被整合为一个数据实例。数据集的构建旨在为无监督的文本生成模型训练提供丰富的语料资源。
使用方法
CNNovel125K数据集适用于多种自然语言处理任务,特别是文本生成和分类。用户可以通过加载数据集中的文本和元数据,进行模型的预训练或微调。数据集的结构设计使得用户能够轻松提取所需信息,如小说文本、标题和作者等,从而进行定制化的模型训练和评估。
背景与挑战
背景概述
CNNovel125K数据集由Ronsor Labs创建,包含了约125,000部从中国小说网站ibiquw.com下载的小说。该数据集的主要目的是为无监督文本生成模型的训练提供丰富的语料,同时也适用于文本分类等任务。数据集的构建旨在推动中文自然语言处理技术的发展,特别是文本生成和分类领域。通过提供大量高质量的中文小说文本,CNNovel125K为研究人员和开发者提供了一个宝贵的资源,以训练和评估各种语言模型。
当前挑战
尽管CNNovel125K数据集为中文文本生成和分类提供了丰富的资源,但其构建过程中仍面临若干挑战。首先,数据集的规模庞大,确保每部小说的质量和一致性是一个复杂的过程。其次,由于数据集主要由小说组成,其内容可能包含作者的个人偏见和刻板印象,这可能影响模型的公平性和准确性。此外,数据集的标注过程缺乏人工干预,可能导致某些文本信息的缺失或不准确。最后,数据集的版权问题和隐私保护也是需要考虑的重要因素,确保数据使用的合法性和道德性。
常用场景
经典使用场景
在自然语言处理领域,CNNovel125K数据集以其丰富的中文小说文本,成为训练文本生成模型的经典资源。该数据集包含约125,000部从中国小说网站下载的小说,涵盖了广泛的主题和风格。研究者们利用这一数据集进行无监督学习,旨在提升模型生成连贯、富有创意的中文文本的能力。此外,该数据集还可用于文本分类任务,帮助模型识别和分类不同类型的小说内容。
解决学术问题
CNNovel125K数据集在解决学术研究问题方面具有重要意义。它为研究者提供了一个大规模、多样化的中文文本资源,有助于解决中文自然语言处理中的数据稀缺问题。通过该数据集,研究者可以训练和评估文本生成模型,探索如何生成高质量、符合语法规则且富有创意的中文文本。此外,该数据集还为研究中文文本分类、情感分析等任务提供了丰富的语料库,推动了相关领域的发展。
实际应用
在实际应用中,CNNovel125K数据集被广泛用于开发和优化中文文本生成系统。例如,它可以用于构建智能写作助手,帮助用户自动生成小说、故事或其他创意文本。此外,该数据集还可应用于内容推荐系统,通过分析用户偏好,推荐符合其兴趣的小说或文章。在教育领域,该数据集也可用于开发语言学习工具,帮助学生提高中文写作和阅读理解能力。
数据集最近研究
最新研究方向
在自然语言处理领域,CNNovel125K数据集因其庞大的中文小说文本资源而备受关注。最新研究方向主要集中在利用该数据集进行无监督文本生成模型的训练,以提升模型在中文文本创作中的表现。此外,研究者们也在探索如何通过该数据集识别和分析小说中的文化偏见和刻板印象,从而为构建更加公平和多样化的语言模型提供参考。这些研究不仅有助于推动中文自然语言处理技术的发展,也为跨文化交流和理解提供了新的视角。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作