five

literotica-corpus|色情文学数据集|文本分析数据集

收藏
github2024-05-06 更新2024-05-31 收录
色情文学
文本分析
下载链接:
https://github.com/tnhaider/literotica-corpus
下载链接
链接失效反馈
资源简介:
这是一个从literotica.com爬取的色情同人小说数据集,包含超过110000份文档,涵盖完整故事或章节。数据集根据用户评分分为不同类别,如最高评分故事、最近12个月和30天的最佳故事,以及其他按类型分类的内容。所有文本的评分均不低于4分(满分5分)。

This dataset comprises over 110,000 documents of erotic fan fiction, scraped from literotica.com, encompassing complete stories or chapters. The dataset is categorized based on user ratings into various segments such as top-rated stories, best stories from the last 12 months and 30 days, and other content classified by genre. All texts have a rating of at least 4 out of 5.
创建时间:
2020-06-28
原始信息汇总

Literotica Corpus 数据集概述

数据集内容

  • 总量:包含超过110,000份文档,涵盖完整故事或章节。
  • 质量筛选:所有文本均经过筛选,排除评分低于4(满分5分)的文档。
  • 子集划分
    • best_literotica:用户评分最高的作品。
    • last_12_literotica:过去12个月内评分最高的作品。
    • last_30_literotica:过去30天内评分最高的作品。
    • 其他:剩余文档按类型分类。

文件命名规则

  • 文件名遵循以下格式:id_title_rating.txt
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自于literotica.com,通过网络爬虫技术从该网站上抓取了超过110000篇色情同人小说,包括完整的故事或章节。数据集构建过程中,仅保留了评分高于4(满分5分)的文本,确保了内容的质量。此外,数据集根据时间范围和用户评分进行了细分,如best_literotica包含最高评分的作品,last_12_literotica和last_30_literotica分别收录了过去12个月和30天内的高评分作品。文件命名遵循id_title_rating.txt的格式,便于识别和管理。
使用方法
使用该数据集时,研究者可以根据文件名中的评分信息快速筛选出高质量的文本进行分析。数据集的分类结构允许用户按需选择特定时间段或评分范围的作品,便于进行时间序列分析或用户行为研究。此外,数据集附带的爬虫脚本为有兴趣重新抓取数据的用户提供了技术支持,确保数据获取的透明性和可重复性。
背景与挑战
背景概述
literotica-corpus数据集是由tnhaider团队从literotica.com网站上爬取的,包含了超过110000篇色情同人小说,这些文档包括完整的故事或章节。该数据集的创建旨在为研究者提供一个大规模的、多样化的文本数据集,以探索和分析色情文学的特征和趋势。数据集根据用户评分筛选出高质量的故事,并按时间(如过去12个月和30天)和体裁进行分类,为相关领域的研究提供了丰富的资源。
当前挑战
literotica-corpus数据集在构建过程中面临了多个挑战。首先,由于数据集涉及敏感内容,如何在确保数据隐私和遵守法律的前提下进行爬取和存储是一个重要问题。其次,数据集的多样性和规模使得数据清洗和标注变得复杂,特别是如何有效区分和处理不同体裁和质量的文本。此外,数据集的使用可能受到伦理和法律的限制,研究者在利用该数据集进行研究时需谨慎考虑其潜在影响。
常用场景
经典使用场景
在文学研究领域,literotica-corpus数据集被广泛用于分析和理解网络色情文学的结构与内容。研究者通过该数据集可以深入探讨用户评价与文本质量之间的关系,特别是通过分析best_literotica、last_12_literotica和last_30_literotica等子集,研究者能够识别出高评价作品的共同特征,从而为文学创作提供参考。
解决学术问题
literotica-corpus数据集解决了文学研究中关于网络色情文学的量化分析问题。通过该数据集,学者们能够系统地研究用户评价与文本内容之间的关联,揭示出高评价作品的普遍特征。这不仅有助于理解网络文学的受众偏好,还为文学批评提供了新的视角和方法。
实际应用
在实际应用中,literotica-corpus数据集被用于开发和优化文学创作工具。例如,通过分析高评价作品的结构和语言特征,创作者可以获得创作灵感和技巧,从而提高作品的质量和受众接受度。此外,该数据集还可用于开发文学推荐系统,帮助读者快速找到符合其偏好的作品。
数据集最近研究
最新研究方向
在文学与情感分析领域,literotica-corpus数据集因其丰富的情色小说内容而备受关注。最新研究方向主要集中在情感分析、文本生成与用户偏好预测上。通过分析高评分故事的文本特征,研究者们试图揭示用户对情色内容的偏好模式,从而为个性化推荐系统提供依据。此外,该数据集还被用于探索情感表达的多样性及其在不同文化背景下的差异,为跨文化情感研究提供了宝贵的资源。这些研究不仅深化了对情色文学的理解,也为相关领域的算法优化和应用拓展提供了新的视角。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

UAVDT

UAVDT是一个用于目标检测任务的数据集。

github 收录