InfiMM-WebMath-40B 多模态数学推理数据集
收藏超神经2024-09-28 更新2024-12-14 收录
下载链接:
https://hyper.ai/cn/datasets/34676
下载链接
链接失效反馈官方服务:
资源简介:
InfiMM-WebMath-40B 数据集是由字节跳动和中国科学院的研究团队于 2024 年发布的,相关论文成果为「InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning」。
InfiMM-WebMath-40B 数据集由字节跳动与中国科学院的研究团队于2024年发布,相关学术论文题为《InfiMM-WebMath-40B:面向增强型数学推理的多模态预训练进展》。
创建时间:
2024-09-24
搜集汇总
数据集介绍

背景与挑战
背景概述
InfiMM-WebMath-40B是由字节跳动和中国科学院于2024年发布的大型开源多模态数学推理数据集,包含2.4k万网页、8.5k万图像URL和400亿tokens,数据源自CommonCrawl数据库(2019-2023年)。该数据集经过文本提取、过滤和去重等处理,旨在增强多模态大型语言模型在数学推理方面的预训练和微调能力。
以上内容由遇见数据集搜集并总结生成



