five

princeton-nlp/CharXiv|图表理解数据集|多模态处理数据集

收藏
hugging_face2024-07-15 更新2024-06-15 收录
图表理解
多模态处理
下载链接:
https://hf-mirror.com/datasets/princeton-nlp/CharXiv
下载链接
链接失效反馈
资源简介:
CharXiv数据集是一个用于评估多模态大语言模型在图表理解方面能力的基准数据集。该数据集包含2,323张来自arXiv预印本的高分辨率图表,每张图表配有4个描述性问题(3个可回答和1个不可回答)和1个推理问题,所有问题都需要开放词汇的简短答案。数据集的使用仅限于模型评估,不允许用于模型训练。
提供机构:
princeton-nlp
原始信息汇总

CharXiv 数据集概述

基本信息

  • 许可证: CC BY-SA 4.0
  • 任务类别:
    • 视觉问答
    • 文档问答
    • 问答
  • 语言: 英语
  • 标签:
    • 图表理解
    • 图表推理
    • 科学图表
    • 多模态大型语言模型
    • 图表
    • 图表问答
    • 视觉语言
  • 数据规模: 1K<n<10K

数据集描述

  • 名称: CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs
  • 来源: 由人类专家完全策划,包含2,323张从arXiv预印本中手动收集的高分辨率图表。
  • 内容: 每张图表配对4个描述性问题(3个可回答和1个不可回答)和1个推理问题,所有问题都需要开放词汇的简短答案,易于验证。

使用限制

  • 用途: 仅用于评估模型,不允许用于训练模型。

许可证

  • 问题许可证: CC BY-SA 4.0
  • 图表版权: 归原始作者所有,每个图表的来源在original_id列中提供,即包含这些图表的arXiv预印本编号。

联系方式

AI搜集汇总
数据集介绍
main_image_url
构建方式
CharXiv数据集是由人类专家精心策划的图表理解基准,涵盖了从arXiv预印本中手动选取的2,323张高分辨率图表。每张图表均配以四个描述性问题(其中三个可回答,一个不可回答)和一个推理问题,这些问题需要使用开放词汇简短回答,且易于验证。
特点
该数据集具有多样性和挑战性,专为评估多模态大型语言模型中的图表理解能力而设计。数据集中的图表均来源于科学文献,包含的问题涵盖了描述和推理两大类,且所有问题均需人类专家进行标注和验证,确保了数据集的高质量和可靠性。
使用方法
使用CharXiv数据集时,用户应遵循数据集的使用协议,仅将数据集用于模型评估而非训练。数据集遵循标准的数据集架构,用户在测试模型时,通常只需使用包含图像的压缩文件。此外,CharXiv评估结果可通过专门的评估工具获取,未来还将集成到lmms-eval和VLMEvalKit中。
背景与挑战
背景概述
CharXiv数据集,作为一项旨在揭示多模态大型语言模型在现实图表理解方面的差距的研究成果,由普林斯顿大学的研究团队于2024年在NeurIPS会议上提出。该数据集由人类专家精心策划,包含从arXiv预印本中手动选取的2,323张高分辨率图表,每张图表配有四个描述性问题(其中三个可以回答,一个无法回答)和一个推理问题,这些问题需要开放词汇的简短回答,并且易于验证。CharXiv数据集的创建填补了图表理解领域的研究空白,为多模态语言模型的研究与评估提供了新的基准。
当前挑战
CharXiv数据集面临的挑战主要体现在两个方面:一是领域问题的挑战,即如何通过图表理解提升多模态大型语言模型的性能;二是构建过程中的挑战,包括如何确保数据集的多样性和准确性,以及如何处理图表来源的版权问题。此外,数据集在构建过程中需要保证问题的可验证性和答案的开放性,这对于模型的评估提出了更高的要求。
常用场景
经典使用场景
在当前科学文献研究领域,CharXiv数据集以其独特的图表理解挑战,成为评估多模态大型语言模型能力的经典场景。该数据集由人工专家精心筛选并注释,包含来自arXiv预印本的2,323张高分辨率图表,每张图表均配以描述性和推理性问题,旨在检验模型对于图表信息的理解与推理能力。
实际应用
在实际应用中,CharXiv数据集可用于评估和改进多模态大型语言模型在科学图表理解方面的表现,进而推动科研领域的信息提取和知识发现,例如在生物信息学、物理学和经济学等领域的文献分析中发挥重要作用。
衍生相关工作
CharXiv数据集的发布促进了相关领域的研究,衍生出了一系列经典工作,如针对图表理解的模型改进、评估方法的发展以及跨模态信息处理的深入研究,为多模态人工智能领域的发展贡献了新的视角和方法论。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

music-genres-dataset

包含1494个音乐流派的数据集,每个流派有200首歌曲。每首歌曲提供以下属性:艺术家、歌曲名称、在列表中的位置、主流派、子流派(含流行度计数)、标签(非现有流派的标签,如情感等,也含流行度计数)。

github 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

BDD100K

数据集推动了视觉的进步,但现有的驾驶数据集在视觉内容和支持任务方面缺乏研究,以研究自动驾驶的多任务学习。研究人员通常只能在一个数据集上研究一小组问题,而现实世界的计算机视觉应用程序需要执行各种复杂的任务。我们构建了最大的驾驶视频数据集 BDD100K,包含 10 万个视频和 10 个任务,以评估图像识别算法在自动驾驶方面的令人兴奋的进展。该数据集具有地理、环境和天气的多样性,这对于训练不太可能对新条件感到惊讶的模型很有用。基于这个多样化的数据集,我们为异构多任务学习建立了一个基准,并研究了如何一起解决这些任务。我们的实验表明,现有模型需要特殊的训练策略来执行此类异构任务。 BDD100K 为未来在这个重要场所的学习打开了大门。更多详细信息请参见数据集主页。

OpenDataLab 收录