HW1-tabular-dataset

Hugging Face2025-09-15 更新2025-09-16 收录

下载链接：

https://huggingface.co/datasets/jennifee/HW1-tabular-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集包含创建者书架上的书籍信息。数据集中选录了15本小说和15本非小说类书籍。每本书的多个属性被记录，包括页数、厚度、阅读状态（是否开始阅读、是否未读）和推荐状态（是否推荐给所有人）。原始数据集分为30个示例，并扩充到了300个额外示例。数据集的特性和分割方式都有详细描述，数据集名为“我的家书架上的书籍 - 表格数据”。

创建时间：

2025-09-15

原始信息汇总

数据集概述

基本信息

数据集名称：Book Tabular Data
创建者：Jennifer Evans
语言：英语
许可证：MIT

数据集详情

该数据集收集了书架上书籍的测量数据，包括15本小说和15本非小说类书籍。记录了每本书的页数、厚度、阅读状态（已读/已开始/未读）以及是否推荐给所有人。原始数据包含30个样本，并通过增强生成300个额外样本。

用途

直接用途

评估书籍长度和厚度与阅读和推荐之间的相关性。
判断书籍是小说还是非小说类。

超出范围的用途

用于其他评估，如人们购买的书籍指标或对小说与非小说的偏好。

数据结构

特征

FictionorNonfiction（字符串）：书籍类型（小说或非小说）。
NumPages（整数）：页数。
ThicknessInches（浮点数）：厚度（英寸）。
ReadUnfinishedorUnread（字符串）：阅读状态（已读/已开始/未读）。
RecommendtoEveryone（字符串）：是否推荐给所有人。

数据划分

original：30个样本，1345字节。
augmented：300个样本，13747字节。

技术信息

下载大小：9114字节
数据集大小：15092字节

数据创建

创建动机

评估书架上书籍的模式，特别是与书籍类型（小说或非小说）相关的模式。

数据来源

数据直接来自书架上的选定书籍，通过测量收集。

数据处理

数据收集后通过抖动（jittering）进行增强。

数据生产者

Jennifer Evans。

搜集汇总

数据集介绍

构建方式

在图书数据研究领域，HW1-tabular-dataset的构建体现了严谨的实证采集方法。数据集创建者从个人藏书中选择15本小说与15本非小说作品，系统记录了每本书的页数、厚度、阅读状态及推荐意愿等变量。原始30个样本通过数据抖动技术进行增强，生成了300个合成样本，既保持了原始分布特征又扩展了数据规模。

特点

该数据集呈现出多维度的图书属性特征，包含书籍类型（小说/非小说）、页数（整型）、厚度（浮点型）、阅读进度和推荐标识等结构化变量。其独特价值在于同时包含精确的物理测量数据和主观阅读行为记录，且通过原始与增强双分割提供不同数据密度版本，为研究图书物理属性与阅读行为关联提供了丰富特征维度。

使用方法

研究者可运用该数据集进行图书分类模型训练，通过页数与厚度等物理特征预测书籍类型；亦可开展相关性分析，探究阅读完成度与推荐意愿之间的潜在联系。使用时应区分原始数据与增强数据，原始30样本适用于小规模验证，增强300样本更适合模型训练。数据文件通过original与augmented分割路径加载，支持主流表格数据处理框架直接解析。

背景与挑战

背景概述

在图书信息学研究领域，HW1-tabular-dataset由Jennifer Evans于当代创建，专注于探索图书物理属性与阅读行为之间的潜在关联。该数据集通过系统采集个人藏书样本的量化特征，包括书籍类型、页数、厚度及阅读状态等变量，为图书推荐系统和阅读行为分析提供了实证基础。其创新之处在于将主观阅读偏好与客观物理测量相结合，推动了跨学科研究的发展。

当前挑战

该数据集核心挑战在于解决图书分类与阅读预测的多维度问题，包括如何从有限样本中提取有效的特征模式，以及如何处理类别不平衡带来的分类偏差。构建过程中面临原始数据规模有限需通过数据增强扩展样本，且人工测量书籍厚度可能引入系统误差，同时虚构与非虚构图书的界定标准需要保持一致性以确保标签可靠性。

常用场景

经典使用场景

在图书分类与阅读行为分析领域，该数据集为研究者提供了探索书籍物理属性与阅读偏好之间关联的宝贵资源。通过包含书籍页数、厚度及阅读状态等结构化特征，它支持构建分类模型以区分虚构与非虚构类作品，同时揭示读者阅读习惯与推荐行为的内在规律。

衍生相关工作

该数据集衍生了基于物理特征的图书自动分类研究，激发了多篇关于小样本表格数据增强的论文。其结构设计为后续类似家居物品数据集（如CD厚度与音乐类型关联研究）提供了范式参考，推动了跨领域表格数据分析方法的发展。

数据集最近研究