Coalescence
收藏Hugging Face2025-10-29 更新2025-10-30 收录
下载链接:
https://huggingface.co/datasets/VINAYU7/Coalescence
下载链接
链接失效反馈官方服务:
资源简介:
Coalescence是一个大规模的统一多模态数据集,结合了来自不同公共来源的图像、音频和文本,设计用于训练和微调集成视觉、音频和语言理解的多模态模型。
创建时间:
2025-10-24
原始信息汇总
Coalescence数据集概述
数据集基本信息
- 数据集名称: Coalescence: Unified Multimodal Vision-Audio & Language Dataset
- 存储库ID: VINAYU7/Coalescence
- 创建者: Mr. Vinay Umrethe
- 最后更新: 2025年10月28日
数据集特性
任务类别
- 特征提取
- 图像分类
- 图像到文本
- 图像文本到文本
- 自动语音识别
- 音频分类
- 任意到任意
- 图像特征提取
- 零样本分类
- 问答
语言支持
- 英语(en)
- 中文(zh)
- 俄语(ru)
- 印地语(hi)
- 马拉地语(mr)
- 伊博语(ig)
标签
- 数学(math)
- 光学字符识别(ocr)
- 自动语音识别(asr)
- 音乐(music)
- 语音(speech)
- 不适宜工作内容(nsfw)
规模类别
100K<n<1M
数据规模统计
| 模态 | 数量 |
|---|---|
| 图像 | 261,659 |
| 音频文件 | 115,311 |
| 总条目 | 373,972 |
| 源数据集 | 24 |
文件格式与分布
文件格式
- 行分隔JSON (JSONL)
文件类型分布
- .jpeg: 62,614
- .png: 199,045
- .wav: 115,311
- .mp3: 4
- 总文件数: 376,974
数据集结构
目录布局
Coalescence/ ├── manifests/ │ ├── train.jsonl │ ├── train_filtered.jsonl │ └── categorized/ ├── files/ │ ├── audio_000000.wav │ ├── img_000000.jpg │ └── ... └── README.md
支持模态
- 图像 + 文本
- 音频 + 文本
- 图像 + 音频 + 文本
源数据集
数据集整合了17个高质量源数据集,包括:
- theneuralmaze/celebrity_faces (名人面部图像)
- irodkin/celeba_with_llava_captions (CelebA带LLaVA生成字幕)
- DRDELATV/SHORT_NSFW (短NSFW图像文本对)
- DRDELATV/NSFW_LP (NSFW标记提示/图像)
- RIW/small-coco-wm_50 (过滤的COCO子集)
- linxy/LaTeX_OCR (合成LaTeX方程+图像)
- unsloth/LaTeX_OCR (高质量LaTeX OCR数据)
- MathLLMs/MathVision (数学视觉问题)
- We-Math/We-Math (通用数学问题数据集)
- SPRINGLab/IndicTTS_Hindi (ASR)
- SPRINGLab/IndicTTS_Marathi (ASR)
- MrDragonFox/Elise (ASR)
- Vikhrmodels/ToneBooks (ASR/描述)
- vucinatim/spectrogram-captions (音频频谱分析)
- Hanhpt23/Silvar-Med (视觉医学分析)
主题与任务覆盖
| 主题 | 任务类型 | 清单文件 |
|---|---|---|
| 名人识别 | 面部分类 | 6.CelebrityFaces.jsonl |
| 图像字幕(名人) | 视觉到文本 | 7.CelebaCaptions.jsonl |
| NSFW检测 | 分类、理解 | 8.NSFW1.jsonl, 9.NSFW2.jsonl |
| 通用图像理解 | 字幕、目标检测 | 5.CocoSmall.jsonl |
| LaTeX OCR | 公式识别、OCR | 10.LinxyLatexOCR.jsonl, 11.UnslothLatexOCR.jsonl |
| 数学推理 | 视觉数学问题 | 12.MathVision.jsonl |
| 数学SFT数据 | 逐步数学解决方案 | 13.WeMath.jsonl |
| 宝可梦 | 字幕、识别、分类 | 15.PokemonBlipCaptioned.jsonl, 16.PokemonInfo.jsonl, 17.PokemonCards.jsonl |
| 食物 | 图像字幕与识别 | 14.FoodCaptioned.jsonl |
JSONL模式示例
json { "id": "000123", "image": "files/img_000000.jpg", "audio": "files/audio_000000.wav", "text": "A natural sentence describing both the image and audio." }
存储需求
| 资源 | 需求 |
|---|---|
| 清单文件大小 | 234+ MB |
| 图像+音频 | ~35 GB |
| 推荐存储 | ≥60 GB |
| 训练输出 | ≥120 GB |
伦理考虑与警告
- 包含潜在敏感内容(NSFW材料)
- 未经过滤不适用于儿童安全应用
- 推荐使用train_filtered.jsonl排除NSFW内容
推荐用途
- 微调视觉和音频投影器
- 将编码器与基础LLM集成
- 数学推理和OCR & ASR任务的预训练
- 食物/字幕模型训练
- 名人识别系统开发
- NSFW感知安全过滤器构建
- 跨领域多模态泛化基准测试
许可证
- 原始公共数据集: 各不相同(MIT, Apache 2.0, CC-BY-SA等)
- 聚合和清单: 仅限非商业使用
- 不允许商业重新分发
引用
bibtex @dataset{Coalescence, author = {VINAYU7 (Vinay Umrethe)}, title = {Coalescence: Unified Multimodal Vision-Audio & Language Dataset}, year = {2025}, url = {https://huggingface.co/datasets/VINAYU7/Coalescence} }
搜集汇总
数据集介绍

构建方式
在构建多模态人工智能系统的背景下,Coalescence数据集通过系统化整合17个高质量公开数据集而形成。该数据集采用统一的结构化处理流程,将来自数学推理、光学字符识别、名人识别、NSFW检测、食品描述等不同领域的原始数据转换为标准化的JSONL格式。构建过程中特别注重数据来源的多样性与质量平衡,最终汇聚了约26万张图像和11.5万条音频文件,构建成包含37万余条多模态样本的综合性数据集。
特点
作为多模态研究领域的重要资源,Coalescence数据集展现出显著的多维特征。其核心优势在于同时涵盖视觉、听觉与语言三种模态的丰富数据,支持图像分类、音频识别、文本生成等多样化任务。数据集覆盖英语、中文、俄语等六种语言,特别在数学公式识别、语音转录等专业领域具有深度标注。数据组织形式采用主题分区设计,每个JSONL条目清晰标注图像路径、音频文件和对应文本描述,为跨模态学习提供了结构化基础。
使用方法
在多模态模型训练实践中,该数据集支持灵活的应用方式。研究人员可通过加载主题分区的JSONL清单文件,配合对应的图像与音频存储目录构建训练管道。数据集特别适用于视觉与音频编码器与大型语言模型的投影层微调,支持从单模态到多模态的渐进式训练策略。针对不同应用场景,用户可选择完整训练集或经过过滤的安全版本,其中过滤版本已排除NSFW内容,确保模型训练过程符合伦理规范。训练时建议搭配推荐的视觉与音频编码器组合,以实现最佳的多模态对齐效果。
背景与挑战
背景概述
在人工智能多模态融合研究蓬勃发展的背景下,Coalescence数据集于2025年由研究者Vinay Umrethe主导构建,旨在整合视觉、听觉与语言模态的异构数据。该数据集汇聚了24个高质量开源数据集,涵盖数学推理、光学字符识别、名人识别、音频分类等17个专业领域,通过结构化处理形成包含37万条样本的统一范式。其核心价值在于为多模态大语言模型提供跨模态对齐的训练基础,显著推动了视觉编码器与音频编码器在投影架构中的协同优化,成为连接符号推理与感知理解的重要桥梁。
当前挑战
多模态人工智能面临的核心挑战在于异构数据的语义对齐与跨模态推理,Coalescence需同时解决图像描述生成、数学公式识别、语音转文本等复杂任务的数据异构性问题。在构建过程中,技术团队需克服多源数据格式标准化、跨语言音频文本同步、敏感内容过滤等工程难题,尤其需要平衡不同领域数据的分布偏差,确保模型在数学符号解析与真实场景感知间的泛化能力。此外,数据合规性要求对24个子集授权协议进行逐项审查,进一步增加了数据集构建的复杂度。
常用场景
经典使用场景
在跨模态人工智能研究领域,Coalescence数据集为多模态模型训练提供了统一框架。该数据集通过整合图像、音频与文本数据,支持视觉-语言建模、光学字符识别、数学推理及语音识别等任务。其经典应用体现在训练能够同时处理视觉与听觉信息的投影器架构,使模型具备跨模态语义对齐能力,尤其适用于需要融合多种感官输入的高级人工智能系统。
解决学术问题
该数据集有效解决了多模态学习中的模态对齐难题,为视觉-音频-语言的联合表征学习提供基准。通过聚合17个高质量源数据集,它克服了单一模态数据的局限性,支持研究者探索跨模态注意力机制与特征融合技术。在数学公式识别、名人面部分类、内容安全过滤等具体任务中,该数据集为评估模型在复杂场景下的泛化能力提供了标准化测试平台。
衍生相关工作
基于该数据集衍生的经典工作包括改进型多模态投影器架构的开发,如融合SigLIP视觉编码器与Gemma语言模型的混合系统。在LaTeX公式识别方向,研究者构建了高精度光学字符识别流水线。此外,该数据集还催生了跨模态检索系统的创新,通过联合嵌入空间实现图像、音频与文本的语义关联,为后续多模态大语言模型的演进提供了重要数据支撑。
以上内容由遇见数据集搜集并总结生成



