ehdataset
收藏github2023-06-22 更新2024-05-31 收录
下载链接:
https://github.com/ZRStea/ehdataset
下载链接
链接失效反馈官方服务:
资源简介:
一个包含e-hentai数据的集合,数据以Python列表形式存储,每个条目包含详细的信息如gid、标题、类别、上传者等。
A collection containing e-hentai data, stored in the form of Python lists, with each entry including detailed information such as gid, title, category, uploader, etc.
创建时间:
2017-08-26
原始信息汇总
数据集概述
数据集名称
- ehdataset
数据来源
- 原始数据来自E-HentaiCrawler
数据集内容
- 数据集由Python的
list类型存储,使用pickle模块保存
数据集结构
- 数据集为一系列字典的列表
- 每个字典包含以下字段:
gid: 作品IDtoken: 令牌title: 作品标题(英文)title_jpn: 作品标题(日文)category: 类别thumb: 缩略图URLuploader: 上传者posted: 上传时间(Unix时间戳)filecount: 文件数量filesize: 文件大小expunged: 是否被删除rating: 评分torrentcount: 种子数量Favorited: 收藏数tags: 标签列表
数据集使用方法
python import pickle with open("ehdataset",rb) as file: dataset = pickle.load(file)
推荐算法
- 使用每个标签作为向量维度,计算两个向量之间的余弦相似度作为相似度度量
- 输入一个gid,算法将返回相似度最高的20个作品
推荐算法使用方法
bash $python3 recommendation.py Loading... Please enter gid:
搜集汇总
数据集介绍

构建方式
ehdataset的构建源于E-HentaiCrawler项目,该项目从E-Hentai网站抓取了大量数据。数据集以Python的`list`形式存储,并通过`pickle`模块进行序列化保存。每个数据条目为一个字典,包含了作品的唯一标识符(gid)、标题、类别、缩略图链接、上传者信息、上传时间、文件数量、文件大小、评分、收藏数以及标签等详细信息。数据的最大gid截至2017年1月21日为1020617。
特点
ehdataset的特点在于其丰富的元数据信息,涵盖了作品的多个维度,如标题、类别、上传者、上传时间、文件大小、评分和标签等。这些标签不仅包括作品的主题、作者、风格等,还涉及作品中的角色性别等细节。此外,数据集还提供了缩略图链接,便于用户快速浏览作品内容。这些多维度的信息为推荐算法的开发提供了坚实的基础。
使用方法
使用ehdataset时,用户可以通过Python的`pickle`模块加载数据集。加载后的数据为一个包含多个字典的列表,每个字典代表一个作品。用户可以根据需要提取特定字段,如gid、标题、标签等,进行进一步分析或开发推荐算法。推荐算法通过计算标签向量的余弦相似度,输入一个gid即可返回与之最相似的20个作品。该算法为个性化推荐提供了有效的技术支持。
背景与挑战
背景概述
ehdataset是一个专注于E-Hentai平台内容的特定领域数据集,主要涵盖了该平台上的漫画作品及其相关元数据。该数据集由E-HentaiCrawler项目提供原始数据,并于2017年1月21日完成数据采集,最大gid达到1020617。数据集的核心研究问题在于如何通过标签和元数据实现内容推荐,旨在为二次元文化爱好者提供个性化的内容推荐服务。该数据集不仅为二次元文化研究提供了丰富的数据支持,还为推荐算法的发展提供了实验平台,推动了相关领域的研究进展。
当前挑战
ehdataset在解决内容推荐问题时面临多重挑战。首先,E-Hentai平台的内容标签体系复杂且多样化,如何准确提取和利用这些标签进行有效的相似度计算是一个关键问题。其次,数据集中包含大量非结构化数据,如标题、描述和标签,如何高效处理和分析这些数据以提升推荐算法的性能,是构建过程中的主要技术难点。此外,由于E-Hentai平台的内容更新频繁,数据集需要定期更新以保持时效性,这对数据采集和存储提出了更高的要求。最后,如何在保护用户隐私的前提下,合理利用用户行为数据(如收藏数和评分)进行推荐优化,也是一个亟待解决的伦理和技术挑战。
常用场景
经典使用场景
ehdataset数据集在数字媒体和内容推荐领域展现了其独特的价值。该数据集通过收集和整理来自E-Hentai平台的丰富内容,为研究人员提供了一个全面的资源库,用于分析和理解用户对特定类型内容的偏好。数据集中的每个条目都包含了详细的元数据,如标题、分类、上传者信息、评分和标签等,这些信息为内容推荐算法的开发提供了坚实的基础。
解决学术问题
ehdataset解决了在内容推荐系统中如何有效利用用户生成数据和元数据的关键问题。通过提供详细的标签和用户互动数据,该数据集使得研究人员能够开发出更加精准的推荐算法,从而提升用户体验。此外,数据集的结构化格式也为研究社区提供了一个标准化的测试平台,促进了推荐系统领域的算法比较和性能评估。
衍生相关工作
基于ehdataset,研究社区已经衍生出多项经典工作,特别是在推荐算法和用户行为分析领域。这些工作不仅推动了推荐系统技术的发展,还促进了跨学科的研究合作,如数据挖掘、机器学习和人机交互等。通过这些研究,ehdataset的影响力得以进一步扩大,为相关领域的学术进步和实际应用提供了宝贵的资源。
以上内容由遇见数据集搜集并总结生成



