goodreads

Hugging Face2025-02-11 更新2025-02-12 收录

下载链接：

https://huggingface.co/datasets/liyucheng/goodreads

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了用户阅读行为记录、书籍元数据以及实验数据。用户阅读行为记录包括用户ID、书籍ID、是否阅读、评分、阅读日期等。书籍元数据包括书籍标题、ISBN、作者、平均评分、出版信息等。实验数据包括索引、用户ID、书籍ID和点击情况。数据集分为训练集、验证集和测试集。

This dataset encompasses user reading behavior records, book metadata, and experimental data. User reading behavior records include user ID, book ID, read status, rating, reading date, and other relevant information. Book metadata includes book title, ISBN, author, average rating, publication information, and other relevant information. Experimental data includes index, user ID, book ID, and click status. The dataset is split into training set, validation set, and test set.

创建时间：

2025-02-11

原始信息汇总

数据集概述

数据集名称

liyucheng/goodreads

数据集配置

behavior
books
experiment

数据集特征

behavior 配置

user_id: 字符串类型
book_id: 字符串类型
is_read: 布尔类型
rating: 整数类型
date_added: 字符串类型
date_updated: 字符串类型
read_at: 字符串类型
started_at: 字符串类型
reading_duration_days: 浮点数类型
review_text: 字符串类型
n_votes: 整数类型
n_comments: 整数类型

books 配置

book_id: 字符串类型
title: 字符串类型
isbn13: 字符串类型
isbn: 字符串类型
author_ids: 字符串序列
author_names: 字符串序列
average_rating: 字符串类型
ratings_count: 字符串类型
text_reviews_count: 字符串类型
publication_year: 字符串类型
publication_month: 字符串类型
publication_day: 字符串类型
publisher: 字符串类型
language_code: 字符串类型
description: 字符串类型
genres: 字符串序列
num_pages: 字符串类型
format: 字符串类型
work_id: 字符串类型
original_title: 字符串类型
original_publication_year: 字符串类型
original_language_id: 字符串类型

experiment 配置

index: 整数类型
uid: 字符串类型
bid: 字符串类型
click: 整数类型

数据集划分

behavior 配置

训练集: 33005444975 字节, 228648342 条数据

books 配置

训练集: 3178524774 字节, 2360655 条数据

experiment 配置

训练集: 38758817 字节, 620078 条数据
验证集: 4257572 字节, 68022 条数据
测试集: 4448193 字节, 71021 条数据

数据集大小

behavior: 33005444975 字节
books: 3178524774 字节
experiment: 47464582 字节

下载大小

behavior: 7677575403 字节
books: 1738145867 字节
experiment: 13580410 字节

数据文件路径

behavior 配置

训练集: behavior/train-*

books 配置

训练集: books/train-*

experiment 配置

训练集: experiment/train-*
验证集: experiment/dev-*
测试集: experiment/test-*

搜集汇总

数据集介绍

构建方式

goodreads数据集通过采集用户在Goodreads平台上的图书阅读行为记录，以及图书相关信息，构建了一个包含用户ID、书籍ID、阅读状态、评分、评论等维度的综合数据集。该数据集的构建采取了行为数据与图书元数据相结合的方式，确保了数据的丰富性和完整性。

特点

该数据集具备以下显著特点：一是数据量大，包含了数百万用户的阅读行为记录，以及数十万图书的详细信息；二是信息维度全面，涵盖了用户的阅读行为、图书的元数据信息以及实验相关的点击数据；三是数据来源真实可靠，来源于知名社交阅读平台Goodreads，具有较高的研究价值。

使用方法

使用goodreads数据集时，用户可以根据不同的研究需求，选择相应的配置文件。例如，若研究用户阅读行为，可选择behavior配置；若需分析图书信息，可选择books配置。数据集支持通过HuggingFace提供的工具直接加载，同时，用户可以根据数据集提供的路径，自行加载特定split的数据。

背景与挑战

背景概述

Goodreads数据集是图书与社会评价领域的宝贵资源，其创建旨在为研究人员提供关于读者行为、书籍元数据和实验分析的综合视角。该数据集由Goodreads网站提供，汇集了数百万用户的书籍评价、阅读行为和书籍信息，是研究阅读习惯、书籍流行度以及读者偏好的重要资料。自公开以来，该数据集对于理解社交推荐系统、用户行为分析以及图书市场动态等领域产生了深远的影响。

当前挑战

尽管Goodreads数据集提供了丰富的信息，但研究者在利用该数据集时面临诸多挑战。首先，数据集的多样性和规模带来了数据清洗和处理的挑战。其次，如何准确分析用户阅读行为与书籍特性之间的关系，以及如何利用这些信息来优化推荐系统，是当前研究的热点问题。此外，由于数据集包含了大量的个人隐私信息，如何在保护用户隐私的同时充分利用数据，也是一个亟待解决的问题。

常用场景

经典使用场景

在数字图书馆与推荐系统的构建中，goodreads数据集以其丰富的用户阅读行为与书籍元数据，成为支撑个性化推荐算法的经典资源。该数据集记录了用户的阅读行为，如阅读起始时间、阅读时长、评分与评论，以及书籍的基本信息，如标题、作者、出版年份等。其经典的使用场景在于通过分析用户行为数据，构建用户画像，进而实现精准的书籍推荐。

解决学术问题

goodreads数据集解决了学术研究中用户行为分析及书籍推荐系统构建的关键问题。它为研究人员提供了海量的用户阅读行为数据，有助于深入理解用户的阅读偏好，为推荐算法的训练与验证提供了坚实基础。此外，该数据集的运用推动了用户行为模式识别与预测的研究，为信息检索与推荐系统领域贡献了重要数据资源。

衍生相关工作

基于goodreads数据集，学术界衍生出众多相关工作，包括但不限于用户阅读行为模式分析、推荐算法的改进、以及跨领域知识图谱的构建等。这些研究不仅丰富了信息检索与推荐系统理论，也推动了相关技术的实际应用，为数字图书馆的智能化发展提供了支持。

以上内容由遇见数据集搜集并总结生成