five

MiMoTable

收藏
arXiv2024-12-16 更新2024-12-18 收录
下载链接:
https://github.com/jasonNLP/MiMoTable
下载链接
链接失效反馈
官方服务:
资源简介:
MiMoTable是一个多尺度的电子表格基准数据集,专门用于表格推理任务。该数据集包含428个来自真实场景的电子表格,涵盖建筑、金融、教育等七个领域,具有简单和复杂的表头、单页和多页、单文件和多文件等多种类型。数据集通过构建1719个问题-答案对,结合六种元操作(如查找、编辑、计算等)来评估表格推理的难度。MiMoTable旨在填补现有基准数据集与实际应用之间的差距,特别是在处理复杂表格和多任务推理方面,为大型语言模型在表格数据处理中的应用提供了新的评估标准。

MiMoTable is a multi-scale spreadsheet benchmark dataset specifically designed for table reasoning tasks. This dataset contains 428 real-world spreadsheets spanning seven domains including construction, finance, education and others, and features diverse types such as simple and complex headers, single-page and multi-page spreadsheets, as well as single-file and multi-file spreadsheets. It constructs 1719 question-answer pairs paired with six meta-operations (e.g., lookup, editing, calculation, etc.) to evaluate the difficulty of table reasoning. MiMoTable aims to bridge the gap between existing benchmark datasets and real-world applications, particularly in handling complex spreadsheets and multi-task reasoning, and provides a new evaluation benchmark for the application of Large Language Models (LLMs) in tabular data processing.
提供机构:
腾讯混元
创建时间:
2024-12-16
原始信息汇总

MiMoTable 数据集

数据集概述

MiMoTable 数据集是论文《MiMoTable: A Multi-scale Spreadsheet Benchmark with Meta Operations for Table Reasoning》中使用的数据集。

数据结构

电子表格文件

  • 目录: data/{language}/spreadsheet
  • 内容: 包含用于回答问题的电子表格文件。

问题与答案

  • 文件: data/{language}/problems.json
  • 内容: 包含问题、答案及其他相关信息。每行包含一个样本,字段描述如下:
    • spreadsheet_list: 用于回答问题的电子表格路径列表。
    • table_type: 表格类型,描述在论文中。
    • table_difficulty: 表格难度,分为简单、中等、困难三个级别。
    • question: 问题内容。
    • meta_operation_list: 问题的元操作列表。
    • question_difficulty: 问题难度,描述在论文中。
    • answer: 答案内容。
    • output_files: 编辑和可视化的输出文件,格式为xlsx或png。

相关代码

  • 目录: src
  • 内容: 包含用于构建相关提示的代码。
    • meta_operation_classification.py: 元操作分类代码。
    • model_inference.py: 模型推理代码。
    • performance_evaluation.py: 性能评估代码。
搜集汇总
数据集介绍
main_image_url
构建方式
MiMoTable数据集的构建基于真实世界中的多尺度电子表格,涵盖了七个领域,包括建筑、金融、办公、教育、会计、电子商务和制造业。数据集包含了428个电子表格文件,这些文件具有简单和复杂的表头、单个或多个工作表,甚至单个工作表中包含多个表格。研究团队通过这些电子表格构建了1,719个问题-答案对,形成了(电子表格, 问题, 答案)的三元组。此外,为了更精确地衡量问题的难度,研究团队引入了六种元操作(Lookup、Edit、Calculate、Compare、Visualize、Reasoning),并为每种操作赋予了难度评分,从而为每个问题分配了相应的难度分数。
使用方法
MiMoTable数据集适用于评估大型语言模型(LLMs)在表格推理任务中的表现。研究者可以通过该数据集测试模型在不同难度级别的问题上的准确性,尤其是对复杂表头、多工作表和多表格的处理能力。使用时,研究者可以将电子表格内容输入模型,并根据生成的答案与数据集中的标准答案进行对比,评估模型的表现。此外,数据集还提供了元操作的分类和难度评分,研究者可以根据这些信息进一步分析模型在不同类型任务上的表现,并优化模型的训练策略。
背景与挑战
背景概述
在表格推理领域,随着大型语言模型(LLMs)的广泛应用,研究者们致力于提升模型在现有基准测试中的表现。然而,现实世界中的表格和用户问题往往更加复杂多样,现有的基准测试难以全面覆盖这些场景。为此,腾讯Hunyuan团队的研究人员提出了MiMoTable数据集,旨在填补这一空白。MiMoTable是一个多尺度的电子表格基准,涵盖了七个不同领域,包括建筑、金融、办公、教育、会计、电子商务和制造业。该数据集不仅包含了简单和复杂的表头,还涉及单个或多个工作表,甚至单个工作表中包含多个表格的情况。通过引入元操作的概念,MiMoTable为评估表格推理任务的难度提供了新的视角,并展示了现有LLMs在该基准上的显著改进空间。
当前挑战
MiMoTable数据集的构建面临多重挑战。首先,现实世界中的表格数据复杂多样,现有的基准测试往往只包含简单的表头和单一的表格结构,无法全面反映实际应用中的复杂性。其次,现有的基准测试在任务划分上未能充分体现不同任务之间的难度差异,导致模型性能评估存在偏差。MiMoTable通过引入元操作的概念,定义了六种不同的操作类型(如查找、编辑、计算、比较、可视化和推理),并根据这些操作的复杂性为每个问题分配难度分数,从而更准确地评估模型的表格推理能力。此外,数据集的构建过程中,研究人员还需要处理多语言、多表头、多工作表等复杂情况,确保数据集的多样性和代表性。
常用场景
经典使用场景
MiMoTable数据集的经典使用场景主要集中在表格推理任务中,特别是在处理多尺度、多表头和多工作表的复杂表格时。该数据集通过引入元操作(如查找、编辑、计算、比较、可视化和推理)来评估模型在处理复杂表格数据时的能力。例如,模型可能需要从多个工作表中提取信息并进行跨表分析,或者在复杂的表头结构中进行数据定位和推理。
解决学术问题
MiMoTable数据集解决了现有表格推理基准在处理真实世界复杂表格数据时的不足。现有基准通常使用简单表头和单一表格结构,无法全面评估模型在处理多尺度、多表头和多工作表的复杂表格时的表现。MiMoTable通过引入元操作和多尺度表格结构,填补了这一空白,为研究者提供了一个更贴近实际应用的评估平台,推动了表格推理领域的研究进展。
实际应用
MiMoTable数据集在实际应用中具有广泛的应用场景,特别是在需要处理复杂表格数据的领域,如金融、教育、电子商务和制造业等。例如,在金融领域,模型可能需要从多个财务报表中提取数据并进行复杂的计算和分析;在教育领域,模型可能需要处理包含多个工作表的学生成绩单,并进行跨表的统计和推理。这些应用场景展示了MiMoTable在实际问题中的重要性和实用性。
数据集最近研究
最新研究方向
MiMoTable数据集的最新研究方向主要集中在提升大语言模型(LLMs)在复杂表格推理任务中的表现。该数据集通过引入多尺度电子表格和元操作,填补了现有基准测试与实际应用之间的差距。研究者们致力于通过定义新的元操作分类标准,评估模型在不同难度级别的问题上的表现,并探索如何通过改进模型架构和训练策略来提升其在复杂表格数据上的推理能力。此外,MiMoTable还推动了对现有基准测试的重新评估,揭示了LLMs在处理复杂表格数据时的局限性,为未来的研究提供了新的方向和挑战。
相关研究论文
  • 1
    MiMoTable: A Multi-scale Spreadsheet Benchmark with Meta Operations for Table Reasoning腾讯混元 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作