MMC

Hugging Face2024-07-10 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/xywang1/MMC

下载链接

链接失效反馈

官方服务：

资源简介：

MMC数据集是一个专注于多模态图表理解的大规模数据集，通过指令调优技术推进图表理解的研究。该数据集包含MMC-Instruction、MMC-Benchmark和MMC-Alignment三个部分，分别用于支持多样化的任务、评估图表推理能力以及图表与文本的对齐。数据集的语言为英语，规模在10万到100万条记录之间。

The MMC dataset is a large-scale dataset dedicated to multimodal chart understanding, advancing research in chart understanding via instruction tuning techniques. It consists of three components: MMC-Instruction, MMC-Benchmark, and MMC-Alignment, which are respectively used to support diverse tasks, evaluate chart reasoning capabilities, and achieve alignment between charts and text. The dataset uses English as its language, with a scale ranging from 100,000 to 1,000,000 records.

创建时间：

2024-07-10

原始信息汇总

数据集概述

基本信息

许可证: cc-by-sa-4.0
任务类别: 文本生成
语言: 英语
标签: 图表, 文本, 多模态, 理解, 指令, 合成
数据集大小: 100K<n<1M

配置详情

MMC-Instruction
- 数据文件:
  - 训练集:
    - "MMC-Instruction/mmc_instruction_arxiv_text.jsonl"
    - "MMC-Instruction/mmc_instruction_non-arxiv_text.jsonl"
MMC-Benchmark
- 数据文件:
  - 测试集: "MMC-Benchmark/mmc_benchmark_text.jsonl"
MMC-Alignment
- 数据文件:
  - 训练集: "MMC-Alignment/mmc_chart_text_alignment_arxiv_text.jsonl"

搜集汇总

数据集介绍

构建方式

MMC数据集的构建基于大规模的多模态图表指令调优，涵盖了多种任务和图表类型。数据集通过结合arXiv和非arXiv的文本数据，生成了MMC-Instruction子集，用于支持多样化的任务。此外，MMC-Benchmark子集则通过人工标注的方式，构建了一个包含九种不同任务的基准测试集，旨在评估模型在图表理解上的推理能力。MMC-Alignment子集则专注于图表与文本的对齐任务，进一步丰富了数据集的多模态特性。

使用方法

MMC数据集的使用方法主要分为训练和测试两个阶段。在训练阶段，研究人员可以利用MMC-Instruction子集进行多模态模型的指令调优，提升模型在图表理解任务上的表现。在测试阶段，MMC-Benchmark子集可用于评估模型在多种图表任务上的推理能力，帮助研究人员发现现有模型的局限性。此外，MMC-Alignment子集可用于训练和评估图表与文本对齐任务，进一步扩展模型的多模态能力。

背景与挑战

背景概述

MMC数据集是由马里兰大学的研究团队于2023年提出，旨在通过大规模指令调优推进多模态图表理解的研究。该数据集的核心研究问题在于如何通过结合文本与图表的多模态信息，提升模型对复杂图表的理解能力。MMC数据集包含MMC-Instruction和MMC-Benchmark两个主要部分，分别用于指令调优和基准测试。其研究成果在NAACL 2024会议上发表，对多模态学习领域产生了重要影响，特别是在图表理解和推理任务中展现了显著的性能提升。

当前挑战

MMC数据集在解决多模态图表理解问题时面临多重挑战。首先，图表数据的多样性和复杂性使得模型难以准确捕捉图表中的关键信息，尤其是在处理多任务和多类型图表时。其次，构建过程中，研究人员需要克服数据标注的高成本问题，尤其是在生成大规模、高质量的指令数据集时。此外，现有的多模态模型在处理图表推理任务时表现有限，即使是先进的GPT-4V模型也难以完全满足需求。这些挑战凸显了开发更强大、更具适应性的多模态模型的必要性。

常用场景

经典使用场景

MMC数据集在文本生成和多模态理解领域具有广泛的应用场景，尤其是在图表理解和指令调优方面。通过大规模的多模态图表指令数据集（MMC-Instruction），研究人员可以训练模型以理解和生成与图表相关的文本内容。该数据集支持多种任务类型，包括图表问答、图表描述生成等，为多模态模型的训练和评估提供了丰富的资源。

解决学术问题

MMC数据集解决了多模态图表理解中的关键学术问题，特别是在如何通过大规模指令调优提升模型对图表的理解能力方面。现有的多模态模型在处理复杂图表时往往表现不佳，MMC通过提供多样化的图表类型和任务，帮助模型更好地理解图表中的视觉和文本信息。此外，MMC-Benchmark的引入为评估模型的推理能力提供了标准化的测试平台，揭示了现有模型的局限性。

实际应用

在实际应用中，MMC数据集可以用于开发智能助手，帮助用户理解和分析复杂的图表数据。例如，在金融、医疗和教育领域，智能助手可以通过对图表的自动解析，生成简洁的文本摘要或回答用户提出的问题。这种能力不仅提高了数据处理的效率，还降低了非专业人士理解复杂数据的门槛。

数据集最近研究