five

M3SCIQA|科学问答数据集|多模态数据数据集

收藏
arXiv2024-11-07 更新2024-11-08 收录
科学问答
多模态数据
下载链接:
https://github.com/yale-nlp/M3SciQA
下载链接
链接失效反馈
资源简介:
M3SCIQA是由耶鲁大学和Allen Institute for AI共同创建的多模态、多文档科学问答基准数据集,旨在全面评估基础模型在科学文献理解中的表现。该数据集包含1452个专家注释的问题,涵盖70个自然语言处理论文集群,每个集群包含一个主论文及其所有引用的文档。数据集的创建过程模拟了科学研究中的比较分析工作流程,要求模型在多个文档和多种数据格式(如图表)之间进行跨引用和推理。M3SCIQA主要应用于评估和提升基础模型在多模态科学文献分析中的能力,旨在解决当前模型在多文档和多模态信息处理中的不足。
提供机构:
耶鲁大学
创建时间:
2024-11-07
原始信息汇总

M3SciQA 数据集概述

简介

M3SciQA 是一个多模态、多文档的科学问答基准数据集,旨在更全面地评估基础模型。该数据集包含 1,452 个专家注释的问题,涵盖 70 个自然语言处理(NLP)论文集群。每个集群代表一篇主要论文及其所有引用的文档,模拟了通过多模态和多文档数据理解单篇论文的工作流程。

数据集结构

  • 数据文件夹 (data/):

    • locality.jsonl: 包含特定位置的问题。
    • combined_test.jsonl: 包含组合的测试问题。
    • combined_val.jsonl: 包含组合的验证问题。
    • locality/: 包含用于构成特定位置问题的所有图像。
  • 结果文件夹 (results/):

    • 包含不同设置下的评估结果。
  • 源代码文件夹 (src/):

    • data_utils.py: 数据处理工具。
    • evaluate_detail.py: 用于评估细节特定问题的响应。
    • evaluate_locality.py: 用于评估位置特定问题的响应。
    • generate_detail.py: 用于生成细节特定问题的响应。
    • generate_locality.py: 用于生成位置特定问题的响应。
    • models_w_vision.py: 包含视觉模型的代码。
    • models_wo_vision.py: 不包含视觉模型的代码。

位置特定问题评估

输出格式

json { "question_anchor": "...", "reference_arxiv_id": "...", "reference_s2_id": "...", "response": "..." }

  • response 字段包含模型的输出排名。

响应生成

例如,评估 GPT-4o 的命令: bash cd src python generate_locality.py --model gpt_4_o

响应评估

例如,计算 GPT-4o 的 MRR、NDCG@3 和 Recall@3 的命令: bash python evaluate_locality.py
--result_path ../results/locality_response/gpt_4_o.jsonl --k 3

细节特定问题评估

输出格式

json { "question": "...", "answer": "...", "response": "...", "reference_reasoning_type": "..." }

响应生成

例如,使用 GPT-4 生成响应的命令: bash cd src python generate_detail.py --model gpt_4 --k 3 --chunk_length 15000

响应评估

例如,评估 GPT-4 生成响应的命令: bash python evaluate_detail.py --result_path ../results/retrieval@3/gpt_4.jsonl

AI搜集汇总
数据集介绍
main_image_url
构建方式
M3SCIQA数据集通过模拟科学研究中的比较分析工作流程构建,涵盖了70个自然语言处理论文集群,每个集群包含一篇主要论文及其所有引用的文档。专家标注者从这些集群中选择锚定论文,并从中提取图表信息,生成视觉上下文问题。随后,GPT-4被用于从识别的参考文献中生成基于参考的问题,并通过组合视觉上下文问题和基于参考的问题形成综合问题,最终由专家标注者验证这些问题的质量。
使用方法
M3SCIQA数据集可用于评估基础模型在多模态科学文献理解和推理中的能力。研究者可以通过该数据集测试模型在处理多文档和多模态信息时的表现,包括图像和文本的结合理解。数据集的评估分为视觉上下文评估和基于参考的评估两个阶段,分别测试模型在图像理解和多文档信息检索中的表现。通过这些评估,研究者可以深入了解当前模型在复杂科学文档处理中的局限性和挑战。
背景与挑战
背景概述
M3SCIQA数据集由耶鲁大学和Allen Institute for AI的研究人员于2024年引入,旨在评估基础模型在多模态和多文档科学问答任务中的表现。该数据集包含1,452个专家注释的问题,涵盖70个自然语言处理论文集群,每个集群代表一篇主要论文及其所有引用的文档。M3SCIQA的创建旨在填补现有基准主要关注单文档、纯文本任务的空白,通过模拟研究人员在理解单篇论文时需要的多模态和多文档数据处理流程,提供了一个更全面的评估平台。
当前挑战
M3SCIQA数据集面临的挑战主要包括两个方面:一是解决多模态信息检索和跨多篇科学文档推理的复杂性,当前基础模型在这方面仍显著落后于人类专家;二是数据集构建过程中遇到的挑战,如确保数据集的多模态和多文档特性的同时,保持数据的高质量和一致性。此外,模型在处理科学图像和表格时的准确性和有效性,以及在长文档检索任务中的表现,也是当前模型需要克服的重要难题。
常用场景
经典使用场景
M3SCIQA数据集的经典使用场景在于评估基础模型在多模态和多文档科学问答任务中的表现。通过模拟科学研究中的常见工作流程,该数据集要求模型在理解科学图像和表格的同时,整合来自多个文档的信息,以回答复杂的问题。这种场景不仅测试了模型在多模态信息检索和多文档推理方面的能力,还反映了实际科研工作中对信息综合和解释的需求。
解决学术问题
M3SCIQA数据集解决了当前基准测试中对多模态和多文档科学问答任务的忽视问题。传统的基准测试主要集中在单一文档或纯文本任务上,而M3SCIQA通过引入多模态和多文档的复杂性,填补了这一空白。这不仅推动了基础模型在科学文献理解方面的研究进展,还为未来在多模态科学文献分析中的应用提供了重要的评估工具。
实际应用
M3SCIQA数据集在实际应用中具有广泛的前景,特别是在科学研究和文献分析领域。科研人员可以利用该数据集来评估和改进AI系统在处理复杂科学文献中的表现,从而提高信息检索和数据解释的准确性。此外,该数据集还可用于开发和验证新的多模态信息处理算法,以应对科学研究中日益增长的数据多样性和复杂性。
数据集最近研究
最新研究方向
在自然语言处理领域,M3SCIQA数据集的最新研究方向主要集中在多模态和多文档科学问答(Multi-Modal Multi-Document Scientific Question Answering, M3SCIQA)的评估与改进。该数据集通过整合文本、图表和多篇科学文献,模拟了科研工作流程中的复杂信息处理需求,从而挑战现有基础模型在多模态信息检索和跨文档推理方面的能力。研究者们正在探索如何提升模型在处理科学图像、表格以及跨文档信息整合方面的性能,以期为未来基础模型在科学文献分析中的应用提供更强大的支持。
相关研究论文
  • 1
    M3SciQA: A Multi-Modal Multi-Document Scientific QA Benchmark for Evaluating Foundation Models耶鲁大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域地面气象要素驱动数据集 v2.0(1951-2024)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 74 年(1951~2024 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。

国家青藏高原科学数据中心 收录

中国近海地形数据集(渤海,黄海,东海,南海)

本数据集包含历年来通过收集和实测方法取得的中国近海水深点数据、地形图数据(ArcGIS格式),以及黄河口、莱州湾东部、辽东湾、山东南部沿海、南海部分海域的单波束、多波束水深测量数据,包括大尺度的低密度水深数据与局部高密度水深数据。

地球大数据科学工程 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

DUO (Detecting Underwater Objects)

检测水下物体 (DUO) 包含一组具有更合理注释的不同水下图像。相应的基准测试为学术研究和工业应用提供了 SOTA(在 MMDtection 框架下)的效率和准确性指标,其中 JETSON AGX XAVIER 用于评估检测器速度以模拟机器人嵌入式环境。

OpenDataLab 收录

CMU-MOSI

CMU-MOSI数据集包括了从93个YouTube的视频中获取的2199个独白类型的短视频片段。每个片段都是一个独立的多模态示例,其中图像、文本和音频占比是均匀的,情感分数取值为[-3,+3],表示从强负向到强正向情感。

DataCite Commons 收录