Chinese-web-novel

Hugging Face2024-10-16 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/qwertyuiopasdfg/Chinese-web-novel

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集从https://m.bqgui.cc爬取了每本书至多25章的内容，共12740项数据。数据经过三轮清洗，包含书名、简介和小说文本三部分信息。书名质量较好，简介可用性较低，小说文本已过滤部分广告和符号，但仍有改进空间。

This dataset was crawled from https://m.bqgui.cc, containing up to 25 chapters per book and totaling 12,740 entries. It underwent three rounds of data cleaning and includes three types of information: book title, book introduction, and novel text. The quality of the book titles is relatively good, while the usability of the book introductions is relatively low. The novel text has been filtered to remove some advertisements and symbols, but there is still room for improvement.

创建时间：

2024-10-16

原始信息汇总

数据集概述

基本信息

许可证: Apache 2.0
语言: 中文
标签:
- 艺术
- 不适合所有受众
数据量: 10K < n < 100K

数据集来源

来源网站: https://m.bqgui.cc
数据量: 12740项
数据范围: 每本书至多25章的内容

数据集质量

书名: 文本质量最好，无广告
简介: 可用性较低
小说文本: 已过滤部分符号和广告，但仍可能包含低质量内容

数据处理

爬取: 使用多线程爬取，详见爬取.ipynb
清洗: 主要使用正则表达式和字符串操作，详见清洗.ipynb
未来计划: 希望使用LLM或其它工具进一步清洗

搜集汇总

数据集介绍

构建方式

Chinese-web-novel数据集通过从特定网站爬取每本书至多25章的内容构建而成，共计12740项数据。为确保数据质量，该数据集经过了三轮严格的数据清洗，主要采用正则表达式和字符串操作技术，以去除低质量信息和与作品无关的内容。尽管清洗过程显著提升了数据质量，但仍存在少量广告和无关文本。

使用方法

Chinese-web-novel数据集适用于中文自然语言处理任务，如文本分类、情感分析和语言模型训练。用户可通过加载数据集，提取书名、简介和小说文本进行相关研究。由于数据集中仍存在少量低质量信息，建议在使用前进行进一步清洗或结合其他工具进行处理，以确保研究结果的准确性和可靠性。

背景与挑战

背景概述

Chinese-web-novel数据集聚焦于中文网络小说的文本收集与分析，由研究人员通过爬虫技术从特定网站获取数据，并经过多轮清洗处理。该数据集创建于近期，旨在为自然语言处理领域提供丰富的中文网络小说文本资源，以支持文本生成、情感分析、主题建模等研究任务。尽管数据集在清洗过程中已尽力去除低质量信息，但仍保留了部分与作品无关的内容，反映了中文网络小说文本的多样性与复杂性。该数据集的发布为中文文本处理领域的研究者提供了新的实验素材，推动了中文自然语言处理技术的发展。

当前挑战

Chinese-web-novel数据集在构建与应用中面临多重挑战。首先，中文网络小说文本的多样性与复杂性使得数据清洗工作尤为困难，尽管采用了正则表达式和字符串操作进行多轮清洗，但仍难以完全去除广告、求订阅等无关内容。其次，中文语言的丰富性导致直接删除特定语句的效率低下，且容易误删正常文本，这对数据质量提出了更高要求。此外，爬取过程中由于请求数量庞大，即使采用多线程技术，速度依然较慢，影响了数据集的构建效率。未来，如何利用先进的自然语言处理工具（如大语言模型）进一步提升数据清洗的精度与效率，将是该数据集面临的核心挑战。

常用场景

经典使用场景

Chinese-web-novel数据集在自然语言处理领域中被广泛用于中文文本分析任务，如文本生成、情感分析和语言模型训练。其丰富的小说文本内容为研究者提供了多样化的语言样本，有助于深入理解中文网络文学的语言特征和叙事结构。

解决学术问题

该数据集有效解决了中文网络文学研究中数据稀缺的问题，为学术界提供了大量真实且多样化的文本资源。通过分析这些数据，研究者能够探索中文网络文学的语言演变、读者偏好以及文化影响，推动了中文文学研究的深入发展。

实际应用

在实际应用中，Chinese-web-novel数据集被用于开发智能写作助手、个性化推荐系统以及内容审核工具。其高质量的小说文本为这些应用提供了丰富的训练数据，提升了系统的准确性和用户体验，尤其在中文网络文学平台中发挥了重要作用。

数据集最近研究