mqud
收藏Hugging Face2026-05-03 更新2026-05-04 收录
下载链接:
https://huggingface.co/datasets/lingchensanwen/mqud
下载链接
链接失效反馈官方服务:
资源简介:
MQUD(Multimodal Questions Under Discussion)是一个包含1,250个基于科学论文中图形的好奇问题的多模态数据集。每个示例包含一个科学图形、论文上下文、一个问题、一个提取性答案、问题类型以及面向作者的元数据。数据集适用于视觉问答任务,支持多模态(文本和图像)处理。数据规模为1K<n<10K,包含56篇论文的245个图形条目。问题类型分为六类:原因(cause)、比较(comparison)、概念(concept)、结果(consequence)、程度(extent)和程序性(procedural),难度分为“困难”(hard)和“中等”(medium)。数据集提供了JSONL和Parquet格式的文件,以及Hugging Face ImageFolder兼容的行。文本字段经过轻度规范化以提高可读性。数据集当前使用`license: other`作为保守的许可证占位符,建议在公开前确认具体的发布许可证。
MQUD (Multimodal Questions Under Discussion) is a multimodal dataset containing 1,250 curiosity-driven questions based on figures from scientific papers. Each example includes a scientific figure, paper context, a question, an extractive answer, question type, and author-facing metadata. The dataset is suitable for visual question answering tasks and supports multimodal (text and image) processing. The dataset size is 1K<n<10K, comprising 245 figures from 56 papers. Question types are categorized into six classes: cause, comparison, concept, consequence, extent, and procedural, with difficulty levels of hard and medium. The dataset provides files in JSONL and Parquet formats, as well as Hugging Face ImageFolder-compatible rows. Text fields are lightly normalized for readability. The dataset currently uses `license: other` as a conservative license placeholder, and it is recommended to confirm the specific release license before public use.
创建时间:
2026-05-03
原始信息汇总
MQUD: Multimodal Questions Under Discussion 数据集概述
基本信息
- 数据集名称:MQUD(Multimodal Questions Under Discussion)
- 数据集大小:1,250 条数据(1K < n < 10K)
- 语言:英文
- 任务类别:视觉问答(Visual Question Answering)
- 许可证:other(需在公开前确认正式许可)
数据集内容
该数据集包含来自科学论文的 1,250 个基于图表的探究性问题。每个样本包含:
- 科学图像
- 论文上下文
- 问题与抽取式答案
- 问题类型
- 面向作者的元数据
数据字段(公共 JSONL/Parquet 格式)
| 字段 | 说明 |
|---|---|
id、paper_id |
稳定的样本和论文标识符 |
image |
图像路径(位于 imagefolder/images/ 下) |
question、answer |
探究性问题及抽取式答案 |
question_type |
问题类型(共6类) |
difficulty |
标注难度标签 |
paper_title、paper_abstract、figure_caption |
来源论文/图表上下文 |
source_text |
支撑性论文上下文(单文本字段) |
source_paragraphs |
支撑性上下文(段落列表形式) |
数据分布
问题类型分布
| 问题类型 | 数量 |
|---|---|
| cause(原因) | 295 |
| comparison(比较) | 233 |
| concept(概念) | 160 |
| consequence(结果) | 192 |
| extent(程度) | 227 |
| procedural(程序性) | 143 |
难度分布
- hard:361 条
- medium:889 条
统计数量
- 样本总数:1,250
- 来源论文数:56
- 图表条目数:245
- 原始图像路径数:244(归一化后为243)
数据文件
数据集包含以下文件:
data/mqud.jsonl:每行一个 MQUD 问题data/mqud.parquet:Parquet 格式的相同数据imagefolder/metadata.jsonl:兼容 Hugging Face ImageFolder 的行数据metadata/papers.jsonl:每篇源论文的聚合计数metadata/dataset_summary.json:数据集级别的统计metadata/imagefolder_manifest.csv:每个样本的图像副本状态imagefolder/images/:存放所有图像文件
加载方式
python from datasets import load_dataset
ds = load_dataset("imagefolder", data_dir="imagefolder", split="train")
相关论文
搜集汇总
数据集介绍

构建方式
MQUD数据集构建于自然语言处理与科学可视化的交叉领域,旨在捕捉科研论文图表所引发的探究性问题。其构建过程以1,250条图文对为核心,每条数据均源自56篇科学论文中的245个图表,由标注者基于图表上下文提出并提取答案。数据集采用紧凑的JSONL与Parquet格式存储,并辅以ImageFolder兼容的元数据文件,确保图像与文本的稳定关联。通过轻量化的LaTeX与源标记清洗,文本字段保持了可读性,同时保留段落级上下文信息以支持细粒度检索。
特点
该数据集的核心特色在于其多模态探究性问答设计,每一条目均精心标注了六类问题类型(如因果、比较、概念等),覆盖从基础概念到复杂推演的多层次认知需求。数据集的难度分布均衡,包含361个“困难”与889个“中等”样本,确保了对模型鲁棒性的充分考验。此外,源文本以段落列表形式存在,便于进行证据级检索与篇章理解实验,而ImageFolder组织方式则简化了视觉语言模型的直接加载与可视化探索。
使用方法
研究者可通过Hugging Face Datasets库便捷调用该数据集,使用`load_dataset`函数以ImageFolder方式加载图像与元数据,支持直接作为视觉问答任务的训练或评估基准。数据集中的`question_type`与`difficulty`字段可用于细粒度性能分析,而`source_paragraphs`字段则为段落级检索增强生成(RAG)提供了天然支持。建议将图像与文本字段分离处理,利用`evidence`和`figure_context`组构建多模态上下文嵌入,以开展对比学习或跨模态对齐实验。
背景与挑战
背景概述
MQUD(Multimodal Questions Under Discussion)数据集诞生于2024年,由多位自然语言处理与科学文献挖掘领域的研究人员共同构建,核心研究问题聚焦于如何从科学图表中自动生成富有探究性的跨模态问题。传统视觉问答数据集多聚焦于日常场景或合成图像,对蕴含深层科学逻辑的图表情景关注不足,而科学论文中的图形往往承载着复杂的实验设计、比较与因果推断信息,亟需一种能体现学者之间隐性讨论关系的问答范式。MQUD正是基于“Questions Under Discussion”这一语用学框架,将富有科学探究性的问题与论文图表及上下文对齐,开创性地将科学可视化内容与多模态问答任务紧密结合。该数据集虽仅有1250个样本,却覆盖了56篇论文、244张科学图表,包含六类精细问题类型,为多模态科学理解领域提供了独特的训练与测评基准,尤其在推理型问答与图科学语篇分析方面展现出重要影响。
当前挑战
MQUD所面临的核心领域挑战在于,科学图表中的问题往往既涉及视觉线索(如图表趋势、颜色编码),又依赖论文文本的隐式常识,模型需同时理解图像与上下文并完成跨模态推理,这比传统的视觉问答更强调深层因果推断与比较分析。在构建过程中,挑战尤为突出:首先,从海量科学论文中筛选出既具探究性又需借助图表才能回答的问题极具难度,人工标注需在理解论文全貌后精确定位答案片段;其次,图表与问题的语义对齐存在歧义,同一张图可能被不同研究者解读出截然不同的疑问;此外,数据量的有限性(仅1250条)与类别不均衡(如“concept”类仅160条)也增加了模型泛化与细粒度评估的困难,而科学图表图像的重分发许可问题更对数据集公开产生了潜在制约。
常用场景
经典使用场景
在科学图表理解与多模态问答研究领域,MQUD数据集为探究性问题的生成与回答提供了独特的基准。该数据集包含1,250个基于科学论文图表生成的探究性问题,每个样本均配图、论文上下文、可抽取答案及问题类型标注,广泛应用于评估多模态模型对复杂科学视觉内容的理解能力。研究者利用MQUD验证模型能否从图表中捕捉因果关系、比较关系、概念定义等深层语义,其典型使用场景包括基于图表的问题生成、可解释性答案抽取以及多模态推理任务。
实际应用
在实际应用中,MQUD可赋能科学文献自动化分析平台,帮助科研人员快速理解图表中的研究结论与实验流程。例如,论文审稿系统可利用该数据集训练模型自动生成图表探究性问题,辅助同行评议者发现研究空白或潜在因果矛盾。教育领域,它能支撑智能辅导系统,通过图表问答激发学生的批判性思维。此外,在学术搜索引擎与知识图谱构建中,MQUD驱动的多模态问答组件可提升科学论文的检索与结构化索引效率。
衍生相关工作
MQUD的发布催生了一系列相关研究工作,包括基于其问题类型分类体系开发的科学图表因果推理模型、融合上下文与图表的端到端多模态预训练方法。后续工作借鉴其标注范式构建了跨领域科学图表问答集,以及利用其探究性问题设计理念改进研究论文的自动摘要与综述生成系统。此外,受MQUD启发,学界开始探索将问题驱动机制引入科学图表的理解与生成任务,推动了多模态对话系统在学术场景中的专业化演进。
以上内容由遇见数据集搜集并总结生成



