MMTU|多模态表格理解数据集|基准测试数据集
收藏MMTU: 大规模多模态表格理解基准
数据集概述
- 名称: MMTU (Massive Multimodal Tabular Understanding Benchmark)
- 论文: 已被ICML 2025接收
- 开发者: Jun-Peng Jiang, Tao Zhou, De-Chuan Zhan, Han-Jia Ye
- 目标: 解决现有表格理解基准在领域覆盖、表格图像不确定性和系统评估能力方面的局限性
数据集特点
- 多领域覆盖: 收集来自WTQ、TabFact和NAT-QA的表格,涵盖超过十个领域
- 多模态支持: 提供表格图像和结构化数据
- 系统化分类: 将问题分为四类:
- 理解单个元素(IE)
- 解释行和列(RC)
- 理解组合条件(CC)
- 执行计算或推理(CR)
数据规模
- 完整版: 8921个问答对
- 精简版(MMTU-tiny): 每类60个问答对(共240个)
数据来源
- 原始数据: 来自WikiTableQuestions、TabFact和NAT-QA
- 问题生成: 使用GPT-4生成
- 答案验证: 通过LLMs和人类专家验证
数据格式
- 问题数据: JSON格式
- 表格图像: PNG格式
- 原始表格格式: 支持HTML、CSV、Markdown和LaTeX转换
数据位置
- 完整版数据:
- JSON文件: https://github.com/LAMDA-Tabular/MMTU/tree/main/data
- 表格图像: https://huggingface.co/datasets/LAMDA-Tabular/MMTU/tree/main
- 精简版数据:
- JSON文件: https://huggingface.co/datasets/LAMDA-Tabular/MMTU-tiny/tree/main
- 原始表格: https://github.com/ppasupat/WikiTableQuestions
工具支持
- 表格转换工具: StructuredTables2Images模块(https://github.com/LAMDA-Tabular/MMTU/tree/main/StructuredTables2Images)
- 功能: 将HTML、CSV、Markdown和LaTeX表格统一转换为PNG图像
联系方式
- Jun-Peng Jiang: jiangjp@lamda.nju.edu.cn
- Tao Zhou: zhout@lamda.nju.edu.cn

网易云音乐数据集
该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。
github 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
CHARLS
中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。
charls.pku.edu.cn 收录
全国 1∶200 000 数字地质图(公开版)空间数据库
As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.
DataCite Commons 收录
FROM-GLC全球30米地表覆盖数据集(2017)
该数据集中的数据获取自清华大学宫鹏团队。全球土地覆盖数据是了解人类活动与全球变化之间复杂互动关系的关键信息来源。FROM-GLC(更精细的全球土地覆盖观测和监测)是利用大地卫星专题成像仪(TM)和增强型专题成像仪(ETM+)数据制作的第一个30米分辨率的全球土地覆盖图。
国家对地观测科学数据中心 收录