five

工业技术文档比赛数据集

收藏
阿里云天池2026-06-05 更新2025-05-24 收录
下载链接:
https://tianchi.aliyun.com/dataset/204669
下载链接
链接失效反馈
官方服务:
资源简介:
本次工业技术文档多模态推理问答评测任务,具有三大挑战:(1)图片型原始文档识别:不可编辑的PDF文档难以准确识别数据,分辨率低,格式多样,内容复杂。(2)多模态信息融合需求:问题解答常需同时解析文本描述和技术图纸的多模态数据;(3)复杂化领域知识推理:答案常需通过图纸结构解析、模块功能理解或机械原理推导获得。

This multimodal reasoning QA evaluation task for industrial technical documents presents three core challenges: 1. Image-based original document recognition: Non-editable PDF documents encounter difficulties in accurate data identification, featuring low resolution, diverse formats and complex content. 2. Multimodal information fusion requirement: Answering questions often requires simultaneous parsing of both textual descriptions and multimodal data from technical drawings. 3. Complex domain knowledge reasoning: Answers are usually derived through structural parsing of drawings, comprehension of module functions or deduction of mechanical principles.
提供机构:
阿里云天池
创建时间:
2025-05-21
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个用于工业技术文档多模态推理问答评测的数据集,主要挑战包括图片型文档识别、多模态信息融合和复杂领域知识推理。数据集文件为IndustryDoc_VQA.zip,大小311.06MB。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务