Timbrt/MuLMS-Img
收藏Multi Layer Materials Science Image Corpus
概述
Multi-Layer Materials Science (MuLMS) corpus 是一个包含50篇材料科学领域科学出版物的数据集,用于多种自然语言处理任务的标注。MuLMS-Img 扩展了该数据集,提供了超过14500个高质量的手动标注,用于各种图像-文本任务,例如图表类型分类、光学字符识别(OCR)和文本角色标注以及图表检索。
数据格式
数据集的标注以JSON格式提供,分为训练集、测试集和开发集。图像以PNG文件格式提供。
标注模式
标注结构如下:
json
{
"$schema": "http://json-schema.org/draft-07/schema#",
"type": "object",
"properties": {
"task1": {
"name": "Chart Classification",
"output": {
"chart_type": {
"type": "string"
}
}
},
"task2": {
"name": "Text Detection and Recognition",
"output": {
"text_blocks": {
"type": "array"
}
}
},
"task3": {
"name": "Image Retrieval",
"output": {
"caption": {
"type": "string"
},
"queries": {
"type": "array"
}
}
}
}
}
建议任务
在论文中,我们介绍了以下子任务并提供了人工标注以开发计算模型:
- 图表类型分类:一个多类分类任务,用于识别图表类型,例如条形图、照片或插图。
- 光学字符识别(OCR)和角色标注:需要边界框检测和边界框内文本的转录,以及识别内容在图表中的角色,例如刻度、图例或轴标签。
- 图表检索:基于简短的搜索风格文本查询。我们的目标是创建可能在检索系统中使用的真实世界搜索查询,这些查询的风格通常与描述性和冗长的标题不同。
引用
如果您在工作中使用我们的数据集,请引用我们的论文: plaintext @InProceedings{Tarsi_2024_WACV, author = {Tarsi, Tim and Adel, Heike and Metzen, Jan Hendrik and Zhang, Dan and Finco, Matteo and Friedrich, Annemarie}, title = {SciOL and MuLMS-Img: Introducing a Large-Scale Multimodal Scientific Dataset and Models for Image-Text Tasks in the Scientific Domain}, booktitle = {Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)}, month = {January}, year = {2024}, pages = {4560-4571} }
许可证
MuLMS-Img 数据集在 CC BY-SA 4.0 许可证下发布。



