five

goodreads|用户行为分析数据集|书籍数据数据集

收藏
huggingface2025-02-11 更新2025-02-12 收录
用户行为分析
书籍数据
下载链接:
https://huggingface.co/datasets/liyucheng/goodreads
下载链接
链接失效反馈
资源简介:
该数据集包含了用户阅读行为记录、书籍元数据以及实验数据。用户阅读行为记录包括用户ID、书籍ID、是否阅读、评分、阅读日期等。书籍元数据包括书籍标题、ISBN、作者、平均评分、出版信息等。实验数据包括索引、用户ID、书籍ID和点击情况。数据集分为训练集、验证集和测试集。
创建时间:
2025-02-11
原始信息汇总

数据集概述

数据集名称

liyucheng/goodreads

数据集配置

  • behavior
  • books
  • experiment

数据集特征

behavior 配置

  • user_id: 字符串类型
  • book_id: 字符串类型
  • is_read: 布尔类型
  • rating: 整数类型
  • date_added: 字符串类型
  • date_updated: 字符串类型
  • read_at: 字符串类型
  • started_at: 字符串类型
  • reading_duration_days: 浮点数类型
  • review_text: 字符串类型
  • n_votes: 整数类型
  • n_comments: 整数类型

books 配置

  • book_id: 字符串类型
  • title: 字符串类型
  • isbn13: 字符串类型
  • isbn: 字符串类型
  • author_ids: 字符串序列
  • author_names: 字符串序列
  • average_rating: 字符串类型
  • ratings_count: 字符串类型
  • text_reviews_count: 字符串类型
  • publication_year: 字符串类型
  • publication_month: 字符串类型
  • publication_day: 字符串类型
  • publisher: 字符串类型
  • language_code: 字符串类型
  • description: 字符串类型
  • genres: 字符串序列
  • num_pages: 字符串类型
  • format: 字符串类型
  • work_id: 字符串类型
  • original_title: 字符串类型
  • original_publication_year: 字符串类型
  • original_language_id: 字符串类型

experiment 配置

  • index: 整数类型
  • uid: 字符串类型
  • bid: 字符串类型
  • click: 整数类型

数据集划分

behavior 配置

  • 训练集: 33005444975 字节, 228648342 条数据

books 配置

  • 训练集: 3178524774 字节, 2360655 条数据

experiment 配置

  • 训练集: 38758817 字节, 620078 条数据
  • 验证集: 4257572 字节, 68022 条数据
  • 测试集: 4448193 字节, 71021 条数据

数据集大小

  • behavior: 33005444975 字节
  • books: 3178524774 字节
  • experiment: 47464582 字节

下载大小

  • behavior: 7677575403 字节
  • books: 1738145867 字节
  • experiment: 13580410 字节

数据文件路径

behavior 配置

  • 训练集: behavior/train-*

books 配置

  • 训练集: books/train-*

experiment 配置

  • 训练集: experiment/train-*
  • 验证集: experiment/dev-*
  • 测试集: experiment/test-*
AI搜集汇总
数据集介绍
main_image_url
构建方式
goodreads数据集通过采集用户在Goodreads平台上的图书阅读行为记录,以及图书相关信息,构建了一个包含用户ID、书籍ID、阅读状态、评分、评论等维度的综合数据集。该数据集的构建采取了行为数据与图书元数据相结合的方式,确保了数据的丰富性和完整性。
特点
该数据集具备以下显著特点:一是数据量大,包含了数百万用户的阅读行为记录,以及数十万图书的详细信息;二是信息维度全面,涵盖了用户的阅读行为、图书的元数据信息以及实验相关的点击数据;三是数据来源真实可靠,来源于知名社交阅读平台Goodreads,具有较高的研究价值。
使用方法
使用goodreads数据集时,用户可以根据不同的研究需求,选择相应的配置文件。例如,若研究用户阅读行为,可选择behavior配置;若需分析图书信息,可选择books配置。数据集支持通过HuggingFace提供的工具直接加载,同时,用户可以根据数据集提供的路径,自行加载特定split的数据。
背景与挑战
背景概述
Goodreads数据集是图书与社会评价领域的宝贵资源,其创建旨在为研究人员提供关于读者行为、书籍元数据和实验分析的综合视角。该数据集由Goodreads网站提供,汇集了数百万用户的书籍评价、阅读行为和书籍信息,是研究阅读习惯、书籍流行度以及读者偏好的重要资料。自公开以来,该数据集对于理解社交推荐系统、用户行为分析以及图书市场动态等领域产生了深远的影响。
当前挑战
尽管Goodreads数据集提供了丰富的信息,但研究者在利用该数据集时面临诸多挑战。首先,数据集的多样性和规模带来了数据清洗和处理的挑战。其次,如何准确分析用户阅读行为与书籍特性之间的关系,以及如何利用这些信息来优化推荐系统,是当前研究的热点问题。此外,由于数据集包含了大量的个人隐私信息,如何在保护用户隐私的同时充分利用数据,也是一个亟待解决的问题。
常用场景
经典使用场景
在数字图书馆与推荐系统的构建中,goodreads数据集以其丰富的用户阅读行为与书籍元数据,成为支撑个性化推荐算法的经典资源。该数据集记录了用户的阅读行为,如阅读起始时间、阅读时长、评分与评论,以及书籍的基本信息,如标题、作者、出版年份等。其经典的使用场景在于通过分析用户行为数据,构建用户画像,进而实现精准的书籍推荐。
解决学术问题
goodreads数据集解决了学术研究中用户行为分析及书籍推荐系统构建的关键问题。它为研究人员提供了海量的用户阅读行为数据,有助于深入理解用户的阅读偏好,为推荐算法的训练与验证提供了坚实基础。此外,该数据集的运用推动了用户行为模式识别与预测的研究,为信息检索与推荐系统领域贡献了重要数据资源。
衍生相关工作
基于goodreads数据集,学术界衍生出众多相关工作,包括但不限于用户阅读行为模式分析、推荐算法的改进、以及跨领域知识图谱的构建等。这些研究不仅丰富了信息检索与推荐系统理论,也推动了相关技术的实际应用,为数字图书馆的智能化发展提供了支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

陸委會新聞稿

本會發布之新聞稿

台湾省政府资料开放平台 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国陆域及周边逐日1km全天候地表温度数据集(TRIMS LST;2000-2023)

地表温度(Land surface temperature, LST)是地球表面与大气之间界面的重要参量之一。它既是地表与大气能量交互作用的直接体现,又对于地气过程具有复杂的反馈作用。因此,地表温度不仅是气候变化的敏感指示因子和掌握气候变化规律的重要前提,还是众多模型的直接输入参数,在许多领域有广泛的应用,如气象气候、环境生态、水文等。伴随地学及相关领域研究的深入和精细化,学术界对卫星遥感的全天候地表温度(All-weather LST)具有迫切的需求。 本数据集的制备方法是增强型的卫星热红外遥感-再分析数据集成方法。方法的主要输入数据为Terra/Aqua MODIS LST产品和GLDAS等数据,辅助数据包括卫星遥感提供的植被指数、地表反照率等。方法充分利用了卫星热红外遥感和再分析数据提供的地表温度高频分量、低频分量以及地表温度的空间相关性,最终重建得到较高质量的全天候地表温度数据集。 评价结果表明,本数据集具有良好的图像质量和精度,不仅在空间上无缝,还与当前学术界广泛采用的逐日1 km Terra/Aqua MODIS LST产品在幅值和空间分布上具有较高的一致性。当以MODIS LST为参考时,该数据集在白天和夜间的平均偏差(MBE)为0.09K和-0.03K,偏差标准差(STD)为1.45K和1.17K。基于19个站点实测数据的检验结果表明,其MBE为-2.26K至1.73K,RMSE为0.80K至3.68K,且在晴空与非晴空条件下无显著区别。 本数据集的时间分辨率为逐日4次,空间分辨率为1km,时间跨度为2000年-2023年;空间范围包括我国陆域的主要区域(包含港澳台地区,暂不包含我国南海诸岛)及周边区域(72°E-135°E,19°N-55°N)。本数据集的缩写名为TRIMS LST(Thermal and Reanalysis Integrating Moderate-resolution Spatial-seamless LST),以便用户使用。需要说明的是,TRIMS LST的空间子集TRIMS LST-TP(中国西部逐日1 km全天候地表温度数据集(TRIMS LST-TP;2000-2023)V2)同步在国家青藏高原科学数据中心发布,以减少相关用户数据下载和处理的工作量。

国家青藏高原科学数据中心 收录

OECD - Education at a Glance

该数据集提供了关于教育系统在不同国家和地区的详细统计数据,包括教育支出、教育参与率、教育成果、教师资源等多个方面。数据涵盖了OECD成员国以及部分非成员国。

www.oecd.org 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录