five

MMSci|科学研究数据集|多模态模型数据集

收藏
arXiv2024-07-06 更新2024-07-12 收录
科学研究
多模态模型
下载链接:
https://github.com/Leezekun/MMSci
下载链接
链接失效反馈
资源简介:
MMSci数据集由加利福尼亚大学圣巴巴拉分校创建,是一个多模态、多学科的高质量学术文章和图表集合,涵盖72个科学领域。数据集包含131,393篇文章和742,273个图表,主要来源于Nature Communications期刊。创建过程中,数据集通过爬取开放获取的文章和图表,确保了数据的真实性和高质量。该数据集主要用于评估和提升大型多模态模型在科学领域的理解和应用能力,特别是在理解和生成科学图表方面。
提供机构:
加利福尼亚大学圣巴巴拉分校
创建时间:
2024-07-06
原始信息汇总

MMSci 数据集概述

数据集

  • 目录: mmsci-data
  • 内容:
    • rawdata: 包含所有文章和相关图表的源数据集。
    • benchmark: 包含用于基准评估的测试/开发集和用于视觉指令调优的训练数据。
    • pretraindata: 包含用于预训练模型的交错数据。
  • 详细信息: 数据集的详细信息可在 mmsci-data/DATACARD.md 中找到。
  • 许可证: 数据集的许可证条款可在 mmsci-data/LICENSE 中查看。

基准评估与视觉指令调优

  • 目录: mmsci-exps
  • 内容: 包含进行视觉指令调优和基准评估的指令和脚本。
  • 详细指南: 详细指南可在 mmsci-exps/README.md 中找到。

预训练交错数据

  • 目录: mmsci-data/pretraindata
  • 内容: 使用交错数据继续预训练 LLaMA2-7B 模型。
  • 步骤:
    1. 设置 VILA: 使用 VILA 代码库进行预训练。
    2. 注册 MMSci 数据: 确保数据已准备好并注册到 VILA 中。
    3. 预训练: 分为两个阶段:
      • 阶段 1: 对齐文本和视觉模态。
      • 阶段 2: 使用准备好的数据进行预训练。

材料生成

  • 内容: 使用预训练模型进行材料生成任务的微调。
  • 步骤:
    1. 安装: 使用 crystal-text-llm 代码库。
    2. 微调: 对预训练模型进行微调。
    3. 采样: 使用微调后的模型生成样本。
    4. 评估: 评估生成的材料。

资源

AI搜集汇总
数据集介绍
main_image_url
构建方式
MMSci数据集通过从Nature Communications期刊中收集开放获取的科学文章构建而成。该数据集涵盖了72个科学学科,确保了多样性和高质量。构建过程中,从每篇文章的网页中直接获取标题、摘要、正文内容和参考文献,并从专门的图表页面获取图表及其标题。使用pylatexenc将文章文本和图表标题中的LaTeX表达式转换为纯文本,确保了数据的真实性和高质量。
特点
MMSci数据集的显著特点是其多模态和多学科的性质,涵盖了从材料科学到生态学的广泛领域。数据集中的文章和图表经过同行评审,确保了数据的高质量。此外,数据集还包括了多种类型的图表,如数据可视化图、示意图和显微照片,为评估模型的科学理解能力提供了丰富的资源。
使用方法
MMSci数据集可用于评估和提升大型多模态模型(LMMs)对科学文章和图表的理解能力。通过提供的基准测试任务,研究人员可以评估模型在不同设置下的表现,包括图表字幕生成和视觉问答任务。此外,数据集还可用于构建视觉指令跟随数据和交错文本与图像数据,以进行模型预训练,从而提高其在科学内容理解上的表现。
背景与挑战
背景概述
MMSci数据集由加州大学圣巴巴拉分校、POSCO HOLDINGS等机构的研究人员创建,旨在填补大型语言模型(LLMs)和大型多模态模型(LMMs)在理解和处理博士级别科学内容方面的空白。该数据集从Nature Communications期刊中收集了72个科学学科的高质量开放获取文章,涵盖了从材料科学到生态学的广泛领域。MMSci的创建旨在评估和提升模型对专业科学文献及其复杂图表的理解能力,特别是在当前数据集主要集中在相对简单科学任务和图表的情况下。
当前挑战
MMSci数据集面临的挑战主要有两方面:一是解决领域问题的复杂性,如图像分类和数据可视化中的挑战;二是构建过程中遇到的难题,如从高质量的开放获取文章中提取和处理多模态数据。此外,当前的评估方法主要集中在大学水平以下的知识,缺乏对博士级别科学内容的全面评估。MMSci通过创建多学科、多模态的数据集和相应的基准测试,旨在解决这些挑战,提升模型在理解和处理高级科学知识方面的能力。
常用场景
经典使用场景
MMSci数据集的经典使用场景在于评估和提升大型多模态模型(LMMs)对博士级别科学内容的理解能力。通过提供多学科、多模态的数据,MMSci能够用于测试模型在理解复杂科学图表和文章内容方面的能力,特别是在生物医学、化学、物理学等领域的应用。
解决学术问题
MMSci数据集解决了当前大型多模态模型在理解专业科学文献方面的不足。传统数据集主要集中在相对简单的科学任务和图表上,缺乏对多学科高级科学内容的全面评估。MMSci通过提供跨72个科学学科的高质量数据,填补了这一空白,有助于推动AI在科学研究中的应用和发展。
衍生相关工作
MMSci数据集的发布催生了一系列相关研究工作,特别是在多模态学习和科学文献理解领域。例如,基于MMSci的视觉指令跟随数据和交错文本图像数据,研究人员开发了新的预训练方法和模型,显著提升了模型在科学图表理解和内容生成任务上的表现。此外,MMSci还激发了对多模态数据在材料科学等特定领域应用的深入研究。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

DermNet

DermNet是一个包含皮肤病图像的数据集,涵盖了多种皮肤病类型,如痤疮、湿疹、牛皮癣等。该数据集主要用于皮肤病诊断和研究。

www.dermnetnz.org 收录