literotica-corpus

github2024-05-06 更新2024-05-31 收录

下载链接：

https://github.com/tnhaider/literotica-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个从literotica.com爬取的色情同人小说数据集，包含超过110000份文档，涵盖完整故事或章节。数据集根据用户评分分为不同类别，如最高评分故事、最近12个月和30天的最佳故事，以及其他按类型分类的内容。所有文本的评分均不低于4分（满分5分）。

This dataset comprises over 110,000 documents of erotic fan fiction, scraped from literotica.com, encompassing complete stories or chapters. The dataset is categorized based on user ratings into various segments such as top-rated stories, best stories from the last 12 months and 30 days, and other content classified by genre. All texts have a rating of at least 4 out of 5.

创建时间：

2020-06-28

原始信息汇总

Literotica Corpus 数据集概述

数据集内容

总量：包含超过110,000份文档，涵盖完整故事或章节。
质量筛选：所有文本均经过筛选，排除评分低于4（满分5分）的文档。
子集划分：
- best_literotica：用户评分最高的作品。
- last_12_literotica：过去12个月内评分最高的作品。
- last_30_literotica：过去30天内评分最高的作品。
- 其他：剩余文档按类型分类。

文件命名规则

文件名遵循以下格式：id_title_rating.txt

搜集汇总

数据集介绍

构建方式

该数据集源自于literotica.com，通过网络爬虫技术从该网站上抓取了超过110000篇色情同人小说，包括完整的故事或章节。数据集构建过程中，仅保留了评分高于4（满分5分）的文本，确保了内容的质量。此外，数据集根据时间范围和用户评分进行了细分，如best_literotica包含最高评分的作品，last_12_literotica和last_30_literotica分别收录了过去12个月和30天内的高评分作品。文件命名遵循id_title_rating.txt的格式，便于识别和管理。

使用方法

使用该数据集时，研究者可以根据文件名中的评分信息快速筛选出高质量的文本进行分析。数据集的分类结构允许用户按需选择特定时间段或评分范围的作品，便于进行时间序列分析或用户行为研究。此外，数据集附带的爬虫脚本为有兴趣重新抓取数据的用户提供了技术支持，确保数据获取的透明性和可重复性。

背景与挑战

背景概述

literotica-corpus数据集是由tnhaider团队从literotica.com网站上爬取的，包含了超过110000篇色情同人小说，这些文档包括完整的故事或章节。该数据集的创建旨在为研究者提供一个大规模的、多样化的文本数据集，以探索和分析色情文学的特征和趋势。数据集根据用户评分筛选出高质量的故事，并按时间（如过去12个月和30天）和体裁进行分类，为相关领域的研究提供了丰富的资源。

当前挑战

literotica-corpus数据集在构建过程中面临了多个挑战。首先，由于数据集涉及敏感内容，如何在确保数据隐私和遵守法律的前提下进行爬取和存储是一个重要问题。其次，数据集的多样性和规模使得数据清洗和标注变得复杂，特别是如何有效区分和处理不同体裁和质量的文本。此外，数据集的使用可能受到伦理和法律的限制，研究者在利用该数据集进行研究时需谨慎考虑其潜在影响。

常用场景

经典使用场景

在文学研究领域，literotica-corpus数据集被广泛用于分析和理解网络色情文学的结构与内容。研究者通过该数据集可以深入探讨用户评价与文本质量之间的关系，特别是通过分析best_literotica、last_12_literotica和last_30_literotica等子集，研究者能够识别出高评价作品的共同特征，从而为文学创作提供参考。

解决学术问题

literotica-corpus数据集解决了文学研究中关于网络色情文学的量化分析问题。通过该数据集，学者们能够系统地研究用户评价与文本内容之间的关联，揭示出高评价作品的普遍特征。这不仅有助于理解网络文学的受众偏好，还为文学批评提供了新的视角和方法。

实际应用

在实际应用中，literotica-corpus数据集被用于开发和优化文学创作工具。例如，通过分析高评价作品的结构和语言特征，创作者可以获得创作灵感和技巧，从而提高作品的质量和受众接受度。此外，该数据集还可用于开发文学推荐系统，帮助读者快速找到符合其偏好的作品。

数据集最近研究