MathVerse|多模态学习数据集|人工智能数据集
收藏数据集概述
名称: MathVerse
目的: 评估多模态大型语言模型(MLLMs)在视觉数学问题解决中的能力,特别是对输入图表的理解和推理。
特点:
- 问题数量: 2,612个高质量、多学科的数学问题,每个问题有六个不同版本。
- 样本总数: 总计15,000个测试样本。
- 评估策略: 引入链式思维(CoT)评估策略,通过GPT-4(V)提取关键推理步骤并进行详细错误分析。
数据集组成:
- testmini.json: 包含788个视觉数学问题的五个主要版本,用于计算整体得分。
- testmini_text_only.json: 包含788个仅文本的测试样本,用于评估视觉图表理解能力。
评估方法:
- w/o 分数: 使用
query_wo
作为输入,直接输出答案进行评估。 - CoT 评估: 使用
query_cot
作为输入,鼓励模型提供逐步推理过程进行评估。
数据集访问:
- 可通过Hugging Face平台下载,使用命令
from datasets import load_dataset
进行加载。
数据集使用示例
python from datasets import load_dataset
dataset = load_dataset("AI4Math/MathVerse", "testmini") dataset_text_only = load_dataset("AI4Math/MathVerse", "testmini_text_only")
访问数据集示例
print(dataset["testmini"][0]) print(dataset_text_only["testmini_text_only"][0])
评估流程
- 答案提取: 使用ChatGPT/GPT-4 API提取答案。
- 答案评分: 使用提取的答案与标准答案进行匹配评分。
引用信息
latex @article{zhang2024mathverse, title={MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?}, author={Zhang, Renrui and Jiang, Dongzhi and Zhang, Yichi and Lin, Haokun and Guo, Ziyu and Qiu, Pengshuo and Zhou, Aojun and Lu, Pan and Chang, Kai-Wei and Gao, Peng and others}, journal={arXiv preprint arXiv:2403.14624}, year={2024} }

中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
LEGO数据集
该数据集包含了关于LEGO公司的历史、产品提供以及特定LEGO套装的信息,用于分析LEGO套装的规模、发布年份、主题分布以及套装复杂性的变化。
github 收录
典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录
music-genres-dataset
包含1494个音乐流派的数据集,每个流派有200首歌曲。每首歌曲提供以下属性:艺术家、歌曲名称、在列表中的位置、主流派、子流派(含流行度计数)、标签(非现有流派的标签,如情感等,也含流行度计数)。
github 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录