five

Timbrt/MuLMS-Img

收藏
Hugging Face2024-01-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Timbrt/MuLMS-Img
下载链接
链接失效反馈
官方服务:
资源简介:
Multi Layer Materials Science Image Corpus(多层材料科学图像语料库)是一个包含50篇材料科学领域科学出版物的数据集,这些出版物被注释用于各种自然语言处理任务。MuLMS-Img扩展了这一数据集,提供了超过14500个高质量的手动注释,用于各种图像文本任务,例如图表类型分类、光学字符识别(OCR)和文本角色标注以及图像检索。数据以JSON格式提供,分为训练集、测试集和开发集,图像以PNG格式提供。

Multi Layer Materials Science Image Corpus(多层材料科学图像语料库)是一个包含50篇材料科学领域科学出版物的数据集,这些出版物被注释用于各种自然语言处理任务。MuLMS-Img扩展了这一数据集,提供了超过14500个高质量的手动注释,用于各种图像文本任务,例如图表类型分类、光学字符识别(OCR)和文本角色标注以及图像检索。数据以JSON格式提供,分为训练集、测试集和开发集,图像以PNG格式提供。
提供机构:
Timbrt
原始信息汇总

Multi Layer Materials Science Image Corpus

概述

Multi-Layer Materials Science (MuLMS) corpus 是一个包含50篇材料科学领域科学出版物的数据集,用于多种自然语言处理任务的标注。MuLMS-Img 扩展了该数据集,提供了超过14500个高质量的手动标注,用于各种图像-文本任务,例如图表类型分类、光学字符识别(OCR)和文本角色标注以及图表检索。

数据格式

数据集的标注以JSON格式提供,分为训练集、测试集和开发集。图像以PNG文件格式提供。

标注模式

标注结构如下: json { "$schema": "http://json-schema.org/draft-07/schema#", "type": "object", "properties": { "task1": { "name": "Chart Classification", "output": { "chart_type": { "type": "string" } } }, "task2": { "name": "Text Detection and Recognition", "output": { "text_blocks": { "type": "array"
} } }, "task3": { "name": "Image Retrieval", "output": { "caption": { "type": "string" }, "queries": { "type": "array" } } } } }

建议任务

在论文中,我们介绍了以下子任务并提供了人工标注以开发计算模型:

  • 图表类型分类:一个多类分类任务,用于识别图表类型,例如条形图、照片或插图。
  • 光学字符识别(OCR)和角色标注:需要边界框检测和边界框内文本的转录,以及识别内容在图表中的角色,例如刻度、图例或轴标签。
  • 图表检索:基于简短的搜索风格文本查询。我们的目标是创建可能在检索系统中使用的真实世界搜索查询,这些查询的风格通常与描述性和冗长的标题不同。

引用

如果您在工作中使用我们的数据集,请引用我们的论文: plaintext @InProceedings{Tarsi_2024_WACV, author = {Tarsi, Tim and Adel, Heike and Metzen, Jan Hendrik and Zhang, Dan and Finco, Matteo and Friedrich, Annemarie}, title = {SciOL and MuLMS-Img: Introducing a Large-Scale Multimodal Scientific Dataset and Models for Image-Text Tasks in the Scientific Domain}, booktitle = {Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV)}, month = {January}, year = {2024}, pages = {4560-4571} }

许可证

MuLMS-Img 数据集在 CC BY-SA 4.0 许可证下发布。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作