Timbrt/MuLMS-Img

Name: Timbrt/MuLMS-Img
Creator: Timbrt
Published: 2024-01-01 11:29:50
License: 暂无描述

Hugging Face2024-01-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Timbrt/MuLMS-Img

下载链接

链接失效反馈

官方服务：

资源简介：

Multi Layer Materials Science Image Corpus（多层材料科学图像语料库）是一个包含50篇材料科学领域科学出版物的数据集，这些出版物被注释用于各种自然语言处理任务。MuLMS-Img扩展了这一数据集，提供了超过14500个高质量的手动注释，用于各种图像文本任务，例如图表类型分类、光学字符识别（OCR）和文本角色标注以及图像检索。数据以JSON格式提供，分为训练集、测试集和开发集，图像以PNG格式提供。

提供机构：

Timbrt

原始信息汇总

Multi Layer Materials Science Image Corpus

概述

Multi-Layer Materials Science (MuLMS) corpus 是一个包含50篇材料科学领域科学出版物的数据集，用于多种自然语言处理任务的标注。MuLMS-Img 扩展了该数据集，提供了超过14500个高质量的手动标注，用于各种图像-文本任务，例如图表类型分类、光学字符识别（OCR）和文本角色标注以及图表检索。

数据格式

数据集的标注以JSON格式提供，分为训练集、测试集和开发集。图像以PNG文件格式提供。

标注模式

标注结构如下： json { "$schema": "http://json-schema.org/draft-07/schema#", "type": "object", "properties": { "task1": { "name": "Chart Classification", "output": { "chart_type": { "type": "string" } } }, "task2": { "name": "Text Detection and Recognition", "output": { "text_blocks": { "type": "array"
} } }, "task3": { "name": "Image Retrieval", "output": { "caption": { "type": "string" }, "queries": { "type": "array" } } } } }

建议任务

在论文中，我们介绍了以下子任务并提供了人工标注以开发计算模型：

图表类型分类：一个多类分类任务，用于识别图表类型，例如条形图、照片或插图。
光学字符识别（OCR）和角色标注：需要边界框检测和边界框内文本的转录，以及识别内容在图表中的角色，例如刻度、图例或轴标签。
图表检索：基于简短的搜索风格文本查询。我们的目标是创建可能在检索系统中使用的真实世界搜索查询，这些查询的风格通常与描述性和冗长的标题不同。

引用

如果您在工作中使用我们的数据集，请引用我们的论文： plaintext @InProceedings{Tarsi_2024_WACV, author = {Tarsi, Tim and Adel, Heike and Metzen, Jan Hendrik and Zhang, Dan and Finco, Matteo and Friedrich, Annemarie}, title = {SciOL and MuLMS-Img: Introducing a Large-Scale Multimodal Scientific Dataset and Models for Image-Text Tasks in the Scientific Domain}, booktitle = {Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)}, month = {January}, year = {2024}, pages = {4560-4571} }

许可证

MuLMS-Img 数据集在 CC BY-SA 4.0 许可证下发布。

5,000+

优质数据集

54 个

任务类型

进入经典数据集