Book Cover Dataset|图像分类数据集|数据挖掘数据集

github2019-10-25 更新2024-05-31 收录

图像分类

数据挖掘

下载链接：

https://github.com/nonamephysics/book-dataset

下载链接

链接失效反馈

资源简介：

该数据集包含来自亚马逊市场的207,572本书籍，用于书籍封面图像分类和数据挖掘任务。数据集包括书封面图像、标题、作者和类别等信息。

This dataset comprises 207,572 books sourced from the Amazon marketplace, intended for tasks such as book cover image classification and data mining. It includes information such as book cover images, titles, authors, and categories.

创建时间：

2019-10-25

原始信息汇总

数据集概述

数据集名称

Book Cover Dataset

数据集内容

包含207,572本书籍，来自Amazon.com, Inc.市场。

数据集任务

任务1: 分类

子任务A: Book Cover Image to Genre (BookCover30)
- 描述: 通过封面图像对书籍进行分类。
- 数据: 包含57,000本封面图像，分为30个类别。
- 划分: 训练集和测试集按90% - 10%比例划分。

任务2: 数据挖掘

子任务: Data Mining (Book32)
- 描述: 探索整个书籍数据库。
- 数据: 包含207,572本书籍，分为32个类别。每本书包含封面图像、标题、作者和类别。

数据集使用

图像资源

全尺寸图像: 由于大小限制，本仓库不提供全尺寸图像。但提供带有图像URL的标签文件。
(224 x 224 x 3)图像: 为BookCover30数据集提供的调整尺寸图像，可下载。
- 下载链接: Google Drive (657 MB)

引用信息

论文: "Judging a Book by its Cover," arXiv preprint arXiv:1610.09204 (2016).
作者: B. K. Iwana, S. T. Raza Rizvi, S. Ahmed, A. Dengel, and S. Uchida.

AI搜集汇总

数据集介绍

构建方式

Book Cover Dataset数据集的构建是基于Amazon.com, Inc.市场中的207,572本书的信息。该数据集的构建主要包含两个任务：一是根据书籍封面图像进行分类，形成了BookCover30子数据集；二是进行数据挖掘，涉及全部207,572本书，构建了Book32子数据集。BookCover30子数据集包含57,000个书籍封面图像，分为30个类别，训练集和测试集的比例为90%-10%。Book32子数据集则提供了每本书的封面图像、标题、作者和分类信息。

使用方法

背景与挑战

背景概述

Book Cover Dataset，亚马逊图书封面数据集，是由Brian Kenji Iwana等研究人员于2016年构建的。该数据集汇集了来自Amazon.com, Inc.市场207,572本书的封面信息，旨在通过图书封面图像进行图书分类研究，对于图书封面图像与图书类别之间的关联性研究具有重要的参考价值。其研究成果已发表在arXiv预印本上，对图书分类领域产生了显著影响。

当前挑战

该数据集面临的挑战主要在于：一是分类任务的挑战，即如何准确地将图书封面图像分类到相应的类别中；二是数据挖掘任务的挑战，即如何从整个图书数据库中提取有用信息。此外，数据集构建过程中也遇到了一些挑战，如图像的获取和版权问题，以及数据集的规模和多样性带来的处理难度。

常用场景

经典使用场景

在计算机视觉与机器学习领域，Book Cover Dataset数据集的经典使用场景在于书籍封面图像的分类研究。通过该数据集中的BookCover30子集，研究人员能够训练模型以识别57,000本书籍封面图像，并将其准确分类到30个不同的类别中。这一任务对于图像识别技术的发展和图像分类算法的优化具有重要意义。

解决学术问题

Book Cover Dataset解决了传统书籍分类中人工标注成本高、效率低的问题。通过自动化分类算法，该数据集助力学术界探索了图像特征与书籍类别之间的关联，提高了分类任务的准确性和效率，对于大规模书籍数据库的自动化管理具有显著影响。

实际应用

在实用层面，Book Cover Dataset的应用场景广泛，可应用于在线书店的书籍推荐系统、图书馆的自动化分类系统等领域。通过智能分类书籍封面，可以提升用户检索书籍的便捷性，增强用户体验，同时降低人工分类的成本。

数据集最近研究

最新研究方向

在图书封面图像研究领域，Book Cover Dataset数据集的最新研究方向主要集中在图像分类与数据挖掘两大任务。图像分类任务BookCover30通过对57,000本书的封面图像进行分类，探索机器学习在图书类别识别中的应用。而数据挖掘任务Book32则是对207,572本书的全面分析，旨在挖掘书籍信息中的深层次关联。该数据集的研究有助于提升图书分类自动化水平，对图书馆管理、图书推荐系统等领域有着重要影响。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展，让高质量机器人数据触手可及，作为上海模塑申城语料普惠计划中的一份子，智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思，重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目，旨在构建国际领先的开源技术底座，标志着具身智能领域「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集，AgiBot World 的长程数据规模高出 10 倍，场景范围覆盖面扩大 100 倍，数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能，从抓取、放置、推、拉等基础操作，到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互，几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

Hang Seng Index

恒生指数（Hang Seng Index）是香港股市的主要股票市场指数，由恒生银行旗下的恒生指数有限公司编制。该指数涵盖了香港股票市场中最具代表性的50家上市公司，反映了香港股市的整体表现。

www.hsi.com.hk 收录

IVLLab/MultiDialog

该数据集包含手动注释的元数据，将音频文件与转录、情感和其他属性链接起来。数据集支持多种任务，包括多模态对话生成、自动语音识别和文本到语音转换。数据集的语言为英语，并提供了一个黄金情感对话子集，用于研究对话中的情感动态。数据集的结构包括音频文件、对话ID、话语ID、来源、音频特征、转录文本、情感标签和原始路径等信息。

hugging_face 收录