Book Cover Dataset|图像分类数据集|数据挖掘数据集
收藏数据集概述
数据集名称
Book Cover Dataset
数据集内容
包含207,572本书籍,来自Amazon.com, Inc.市场。
数据集任务
任务1: 分类
- 子任务A: Book Cover Image to Genre (BookCover30)
- 描述: 通过封面图像对书籍进行分类。
- 数据: 包含57,000本封面图像,分为30个类别。
- 划分: 训练集和测试集按90% - 10%比例划分。
任务2: 数据挖掘
- 子任务: Data Mining (Book32)
- 描述: 探索整个书籍数据库。
- 数据: 包含207,572本书籍,分为32个类别。每本书包含封面图像、标题、作者和类别。
数据集使用
图像资源
- 全尺寸图像: 由于大小限制,本仓库不提供全尺寸图像。但提供带有图像URL的标签文件。
- (224 x 224 x 3)图像: 为BookCover30数据集提供的调整尺寸图像,可下载。
- 下载链接: Google Drive (657 MB)
引用信息
- 论文: "Judging a Book by its Cover," arXiv preprint arXiv:1610.09204 (2016).
- 作者: B. K. Iwana, S. T. Raza Rizvi, S. Ahmed, A. Dengel, and S. Uchida.

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
Hang Seng Index
恒生指数(Hang Seng Index)是香港股市的主要股票市场指数,由恒生银行旗下的恒生指数有限公司编制。该指数涵盖了香港股票市场中最具代表性的50家上市公司,反映了香港股市的整体表现。
www.hsi.com.hk 收录
IVLLab/MultiDialog
该数据集包含手动注释的元数据,将音频文件与转录、情感和其他属性链接起来。数据集支持多种任务,包括多模态对话生成、自动语音识别和文本到语音转换。数据集的语言为英语,并提供了一个黄金情感对话子集,用于研究对话中的情感动态。数据集的结构包括音频文件、对话ID、话语ID、来源、音频特征、转录文本、情感标签和原始路径等信息。
hugging_face 收录