five

ChartX|多模态数据数据集|图表理解数据集

收藏
arXiv2024-02-19 更新2024-06-21 收录
多模态数据
图表理解
下载链接:
https://github.com/UniModal4Reasoning/ChartVLM
下载链接
链接失效反馈
资源简介:
ChartX是由上海人工智能实验室构建的多模态评估集,涵盖18种图表类型、7种图表任务、22个学科主题,以及高质量的图表数据。该数据集旨在全面严格地评估现有MLLMs在图表领域的性能。ChartX数据集包含48,000个多模态图表数据,每个图表数据包括图像、逗号分隔值(CSV)、Python代码和文本描述四种模态。数据集的应用领域包括图表理解和生成,旨在解决图表数据的多模态理解和推理问题。
提供机构:
上海人工智能实验室
创建时间:
2024-02-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
ChartX数据集的构建方式体现了多模态评估的全面性和复杂性。该数据集涵盖了18种图表类型、7种图表任务、22个学科主题以及高质量的图表数据。构建过程中,研究团队收集了48K的多模态图表数据,每份数据包含图像、逗号分隔值(CSV)、Python代码和文本描述四种模态。根据任务复杂度,图表任务被分为感知任务(如结构提取、图表类型分类和标题提取)和认知任务(如问答、图表描述、图表总结和图表重绘)。这种分类确保了数据集在评估多模态大语言模型(MLLMs)在图表领域的理解能力时,能够提供全面的测试场景。
使用方法
使用ChartX数据集时,研究者和开发者可以通过提供的多模态数据进行模型训练和评估。数据集中的每份图表数据都包含了图像、CSV数据、Python代码和文本描述,这为模型的多模态理解和生成能力提供了丰富的训练材料。通过针对感知任务和认知任务的训练,模型可以提升其在图表理解、信息提取和复杂推理方面的性能。此外,数据集还提供了详细的评估指标,如SCRM、GPT-acc和GPT-score,帮助用户全面评估模型在不同任务上的表现。
背景与挑战
背景概述
近年来,多模态大语言模型(MLLMs)在通用视觉语言应用中取得了显著进展,如多模态问答、具身AI和数学推理等。尽管MLLMs在广泛的多模态任务中展示了强大的泛化能力,但在基于图表数据的复杂推理任务中,其表现仍未达到人类水平。为了全面严格地评估现有MLLMs在图表领域的理解能力,上海人工智能实验室和上海交通大学的研究团队构建了ChartX数据集。该数据集涵盖18种图表类型、7种图表任务、22个学科主题和高质量的图表数据,旨在为图表理解提供一个全面的基准。ChartX的构建不仅推动了图表理解技术的发展,还为开发更具解释性的多模态模型铺平了道路。
当前挑战
ChartX数据集在构建过程中面临多重挑战。首先,图表数据的多样性和复杂性使得数据收集和标注工作异常繁重。其次,图表类型的多样性要求模型具备强大的泛化能力,以应对不同类型的图表数据。此外,图表任务的多样性,包括感知任务和认知任务,增加了模型训练和评估的难度。最后,图表数据的解释性要求模型在处理复杂推理任务时,能够提供清晰且可解释的推理结果。这些挑战不仅考验了模型的性能,也推动了多模态大语言模型在图表理解领域的技术进步。
常用场景
经典使用场景
ChartX数据集的经典使用场景在于评估多模态大语言模型(MLLMs)在复杂图表推理任务中的能力。通过涵盖18种图表类型、7种图表任务和22个学科主题,ChartX为现有的MLLMs提供了一个全面且严格的基准测试平台。研究者可以利用ChartX数据集来测试和提升模型在图表理解、信息提取和复杂逻辑推理方面的性能。
解决学术问题
ChartX数据集解决了多模态大语言模型在图表领域中的推理能力不足的问题。传统的MLLMs虽然在通用视觉-语言任务中表现出色,但在处理图表数据时,其复杂逻辑推理能力尚未得到充分探索。ChartX通过提供多样化的图表数据和任务,推动了这一领域的研究进展,有助于开发更具解释性的多模态模型,从而提升模型在科学图表数据处理中的准确性和可靠性。
实际应用
ChartX数据集在实际应用中具有广泛的前景,特别是在需要处理和分析大量图表数据的领域,如金融分析、市场研究、科学研究和教育等。通过使用ChartX训练的模型,可以自动化地从图表中提取关键信息,进行数据分析和预测,从而提高工作效率和决策的准确性。此外,ChartX还可以用于开发智能辅助工具,帮助用户更好地理解和利用图表数据。
数据集最近研究
最新研究方向
在多模态大语言模型(MLLMs)领域,ChartX数据集的最新研究方向聚焦于复杂图表理解和推理能力的全面评估。该研究构建了ChartX基准,涵盖18种图表类型、7种图表任务、22个学科主题和高质量的图表数据,旨在系统性地评估现有MLLMs在图表领域的理解能力。此外,研究还开发了ChartVLM模型,通过引入可解释的视觉语言模型框架,提升模型在科学图表数据处理中的可解释性和交互性。这些研究不仅推动了图表理解任务的标准化评估,也为开发更具解释性的多模态模型提供了新的视角。
相关研究论文
  • 1
    ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning上海人工智能实验室 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录

人民日报语料库 (1998.1)

本库主要提供用于NER任务的处理好的语料,包括基于词级和字级任务的NER数据。数据集包含19484个以行为粒度切分的句子,句子长度最大为659,平均长度为57.55666187641141。实体标注采用BIO格式,区分人名、地名和机构团体。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录