OBI Component 20|甲骨文数据集|图像识别数据集
收藏数据集概述
数据集名称
Component-Level OBI Retrieval
数据集描述
OBI Component 20 数据集包含20个常见的甲骨文组件。由于每个组件可以有不同的形式,我们选择了代表性的形式进行展示。
基于这些组件,我们从 小學堂 收集了11,335个甲骨文图像。经过 Prof. Pui-ling Tang 和 Ms. Peiying Zhang 的筛选,去除了不包含这20个选定组件的图像,最终保留了9,245个甲骨文图像。在这些图像中,Ms. Zhang 进一步标注了1,012个甲骨文图像中组件的具体位置,力求覆盖同一组件的不同形式。最终,OBI Component 20 数据集包含总共10,257个甲骨文图像,其中9,245个是甲骨文字符,1,012个是甲骨文组件。它们的分布如下表所示。
组件 | 字符数量 | 组件数量 | 组件 | 字符数量 | 组件数量 |
---|---|---|---|---|---|
日 | 371 | 18 | 女 | 641 | 29 |
月 | 106 | 41 | 子 | 179 | 33 |
雨 | 152 | 17 | 目 | 422 | 31 |
阜 | 115 | 16 | 攴 | 414 | 91 |
水 | 622 | 41 | 止 | 1132 | 72 |
屮 | 267 | 14 | 衣 | 69 | 51 |
木 | 465 | 24 | 口 | 1592 | 42 |
犬 | 204 | 117 | 王 | 55 | 8 |
大 | 385 | 32 | 矢 | 383 | 32 |
人 | 1403 | 226 | 刀 | 268 | 77 |
数据集使用
如需使用此数据集,请通过电子邮件 cszkhu@comp.hkbu.edu.hk 提供以下信息,我们将在收到邮件后的5个工作日内提供数据集下载链接:
- 您的姓名,
- 您的机构,
- 数据集的预期用途,
- 声明确保不会将其用于商业盈利。
引用
@inproceedings{hu2024component, title={Component-Level Oracle Bone Inscription Retrieval}, author={Hu, Zhikai and Cheung, Yiu-ming and Zhang, Yonggang and Zhang, Peiying and Tang, Pui-ling}, booktitle={Proceedings of the 2024 International Conference on Multimedia Retrieval}, pages={647--656}, year={2024} }

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
suno
该数据集包含由人工智能生成的659,788首歌曲的元数据,这些歌曲由suno.com平台生成。数据集是多语言的,主要语言为英语,但也包含日语和其他语言的歌词和标题。每个歌曲的元数据包括唯一标识符、视频和音频URL、封面图像URL、AI模型版本、生成状态、创作者信息等。数据集根据CC0许可证公开,允许任何用途的使用、修改和分发。
huggingface 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录
WEAR
WEAR数据集是由德国西根大学创建的户外运动数据集,专注于穿戴式和自我中心活动识别。该数据集包含18名参与者在10个不同户外地点进行的总共18种不同锻炼活动的数据。数据集通过穿戴在手腕和脚踝的传感器以及头戴式摄像头收集,记录了未修剪的惯性(加速度)和摄像头(自我中心视频)数据。WEAR数据集提供了一个具有挑战性的预测场景,通过故意引入的活动变化以及跨模式的整体小信息重叠来标记。该数据集适用于评估如何结合惯性和视觉特征的方法,旨在解决户外运动中活动识别的问题。
arXiv 收录
SPIQA
SPIQA数据集由谷歌研究院和约翰斯·霍普金斯大学共同创建,是首个针对科学研究论文中复杂图表和表格进行多模态问答的大规模数据集。该数据集包含270,194个问题,涉及计算机科学多个领域的研究论文。数据集的创建过程结合了自动和手动筛选,确保了数据的质量和多样性。SPIQA数据集主要用于评估多模态大型语言模型在理解科学论文中的图表和表格方面的能力,旨在提高信息检索和问答系统的性能。
arXiv 收录