CoMix|漫画理解数据集|数据集框架数据集
收藏CoMix: Comics Dataset Framework for Comics Understanding
简介
该项目旨在重现(在验证集上)以下基准测试:
- [x] (检测)Comics Datasets Framework: Mix of Comics datasets for detection benchmarking
- [ ] (多任务)CoMix: A Comprehensive Benchmark for Multi-Task Comic Understanding
- [x] (字幕生成)ComiCap: A VLMs pipeline for dense captioning of Comic Panels
主要限制是无法共享图像。为解决此问题,我们创建了此框架,允许使用我们的(验证)注释,并从原始来源下载图像,而不会违反许可证。
comix
使用以下数据集:
- [x] DCM
- [x] comics
- [x] eBDtheque
- [x] PopManga
- [ ] Manga109
安装
项目使用 Python 3.8 编写。创建 conda 环境: bash conda create --name myenv python=3.8 conda activate myenv
安装依赖项: bash pip install -e .
流程
项目分为以下步骤:
- [x] 手动获取并定位图像和注释到正确的文件夹(例如
data/
) - [x] 处理图像到统一的命名和文件夹结构 -
comix/process
- [x] 模型性能(在数据上使用预训练或自定义模型) -
benchmarks
- [x] 评估模型性能与提供的 Ground Truth -
comix/evaluators
模型性能和评估
在 benchmarks
文件夹中,有多个脚本用于在各种任务上对数据集进行基准测试。
检测脚本生成 COCO 格式的 json 文件,可由 comix/evaluators/detection.py
脚本用于评估模型性能。
字幕生成脚本生成多个 .txt
文件,可通过后处理获得 captions.csv
和 objects.csv
文件,由 comix/evaluators/captioning.py
脚本用于评估模型性能。
文档
文档位于 /docs
文件夹中。
主要文档:

Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
糖尿病预测数据集
糖尿病相关的医学研究或者健康数据
AI_Studio 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
用于陆面模拟的中国土壤数据集(第二版)
本研究对中国范围内0-2米六个标准深度层(0-5、5-15、15-30、30-60、60-100和100-200厘米)的23种土壤物理和化学属性进行了90米空间分辨率的制图。该数据集源自第二次土壤普查的8979个土壤剖面,世界土壤信息服务的1540个土壤剖面,第一次全国土壤普查的76个土壤剖面,以及区域数据库的614个土壤剖面。该数据集包括pH值、砂粒、粉粒、粘粒、容重、有机碳含量、砾石、碱解氮、总氮、阳离子交换量、孔隙度、总钾、总磷、有效钾、有效磷和土壤颜色(包括蒙赛尔颜色和RGB两种形式)。数据集的缺失值为“fillvalue = -32768”。数据集以栅格格式提供,有Tiff和netCDF两种格式。为了满足陆面建模中不同应用对空间分辨率的不同要求,CSDLv2 提供了 90 米、1 公里和 10公里空间分辨率的版本。各个土壤属性的单位参见说明文档。该数据集相对于第一版具有更好的数据质量,可广泛应用于陆面过程模拟等地学相关研究。
国家青藏高原科学数据中心 收录
CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录