Miaowuawa/ChineseNovels|中文小说数据集|文本生成数据集

hugging_face2024-06-21 更新2024-06-29 收录

中文小说

文本生成

下载链接：

https://hf-mirror.com/datasets/Miaowuawa/ChineseNovels

下载链接

链接失效反馈

资源简介：

中文小说数据集包含多种类型的小说，如网游/系统/重生、言情小说、同人/耽美小说、科幻小说和军事小说，总计约4万本。此外，还包括约1000本来自海棠文学城的小说，但这些数据未经过清洗。

The Chinese novel dataset includes various types of novels such as online gaming/system/reincarnation, romance novels, fanfiction/BL novels, science fiction novels, and military novels, totaling approximately 40,000 books. Additionally, it includes about 1,000 novels from Haitang Literature City, but these data have not been cleaned.

提供机构：

Miaowuawa

原始信息汇总

中文小说数据集

概述

任务类别: 文本生成
语言: 中文
标签: 艺术

内容

网游/系统/重生
言情小说
同人/耽美小说
科幻小说
军事小说
海棠文学城小说（约1000本，未清洗）

数量

总计约4万本小说

AI搜集汇总

数据集介绍

构建方式

Miaowuawa/ChineseNovels数据集的构建，是从多个文学领域中汇集而成，包括网游/系统/重生、言情小说、同人/耽美小说、科幻小说以及军事小说等。总计包含约4万本小说，其中海棠文学城小说约1000本尚未经过清洗处理，保留了原始文本的多样性。

特点

该数据集的一大特点是内容丰富，涵盖了多种中文小说类型，不仅反映了当代中文网络文学的多样性，而且为研究不同文学风格、题材和叙事结构提供了宝贵的资源。此外，数据集遵循cc-by-sa-3.0协议，允许用户在遵守相应条款的前提下自由使用和分享。

使用方法

用户在使用Miaowuawa/ChineseNovels数据集时，可以根据具体任务需求选择相应的文本进行文本生成等研究。鉴于数据集包含未清洗的文本，建议在使用前对数据进行预处理，以提高数据质量和研究的准确性。用户在利用该数据集时，应遵守相应的版权和使用协议，确保合法合规地使用数据。

背景与挑战

背景概述

在文本生成与自然语言处理研究领域，高质量的数据集是推动技术进步的关键。Miaowuawa/ChineseNovels数据集，诞生于当前互联网文学创作热潮之际，由Miaowuawa组织维护，汇集了包括网游、言情、同人、科幻以及军事等多个类别的中文小说，总计约4万本。该数据集不仅丰富了中文文本资源的多样性，也为文本生成、文学研究、情感分析等领域的研究提供了宝贵的素材，自发布以来，对中文自然语言处理相关研究产生了显著影响。

当前挑战

尽管Miaowuawa/ChineseNovels数据集为研究提供了丰富的文本资源，但在实际应用中仍面临诸多挑战。首先，数据集包含的未清洗海棠文学城小说，可能存在版权、内容质量以及数据一致性等问题。其次，多类别小说的混合增加了数据标注和处理的复杂性，对研究者的预处理技术提出了更高的要求。此外，由于文学作品在语言表达上的多样性和复杂性，如何有效地提取特征、建模语言规律，是文本生成任务中的一大挑战。

常用场景

经典使用场景

在自然语言处理领域，Miaowuawa/ChineseNovels数据集因其丰富的文本资源，被广泛用于文本生成任务。该数据集集合了多种类型的中文小说，为研究人员提供了充足的文本素材，以训练和测试文本生成模型，旨在生成连贯、有逻辑的文本内容。

解决学术问题

Miaowuawa/ChineseNovels数据集解决了中文小说文本生成中的多样性和连贯性问题。通过提供不同类型和风格的小说文本，该数据集有助于学术研究者探索文本生成中的模式识别和风格适应性，从而推动相关算法的发展，提高文本生成的质量。

衍生相关工作

基于Miaowuawa/ChineseNovels数据集，研究者们衍生出了一系列相关工作，包括文本风格转换、情感分析、以及作者识别等。这些工作不仅拓宽了文本生成领域的研究视野，也促进了跨学科之间的交流与合作，对自然语言处理技术的发展产生了深远的影响。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集，包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境，包括行人、车辆、自行车等多种目标，以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集，手动标注了超过260万个目标边界框，并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

RadDet

RadDet是一个包含11种雷达类别的数据集，包括6种新的低概率干扰（LPI）多相码（P1, P2, P3, P4, Px, Zadoff-Chu）和一种新的宽带调频连续波（FMCW）。数据集覆盖500 MHz频段，包含40,000个雷达帧，分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供：稀疏数据集（RadDet-1T）和密集数据集（RadDet-9T）。

github 收录

TCIA

TCIA（The Cancer Imaging Archive）是一个公开的癌症影像数据集，包含多种癌症类型的医学影像数据，如CT、MRI、PET等。这些数据通常与临床和病理信息相结合，用于癌症研究和临床试验。