five

Coalescence

收藏
Hugging Face2026-03-02 更新2026-03-03 收录
下载链接:
https://huggingface.co/datasets/VINAY-UMRETHE/Coalescence
下载链接
链接失效反馈
官方服务:
资源简介:
Coalescence 是一个大规模、统一的多模态数据集,整合了来自多种公共来源的图像、音频和文本数据。该数据集旨在支持视觉和音频投影器的微调、模态特定编码器与基础大型语言模型的融合,以及训练图像+音频→文本能力的模型。数据集包含约261K图像和115K音频文件,总计383,816条条目。数据以Parquet格式存储,涵盖多个领域,包括数学、OCR、名人识别、食物标注、宝可梦分析和一般图像理解。数据集通过配置(子集)管理,包括一个推荐使用的“filtered”子集,该子集自动聚合了所有29个安全子集,排除了NSFW内容。每个子集遵循标准化的PyArrow模式,包含id、image、audio和text字段。数据集适用于OCR、ASR、VQA、数学推理、安全过滤和NSFW理解等任务。
创建时间:
2026-03-02
原始信息汇总

Coalescence 数据集概述

数据集基本信息

  • 数据集名称: Coalescence: Unified Multimodal Vision-Audio & Language Dataset
  • 发布者: Vinay Umrethe
  • 发布日期: 2026年
  • 存储库ID: VINAYU7/Coalescence
  • 数据集地址: https://huggingface.co/datasets/VINAY-UMRETHE/Coalescence
  • 数据格式: Parquet
  • 总大小: 186GB
  • 总条目数: 383,816
  • 许可证: 混合许可证(需遵守各原始数据集的许可证)

数据集内容与结构

模态构成

  • 图像: 约261K (268,026)
  • 音频文件: 约115K (118,788)

支持语言

  • 印地语 (hi)
  • 马拉地语 (mr)
  • 克什米尔语 (ks)
  • 英语 (en)
  • 伊博语 (ig)
  • 阿拉伯语 (ar)

数据标签

  • coalescence
  • text
  • image
  • audio
  • classification
  • ocr
  • asr
  • math

配置与子集

数据集通过配置(子集)管理其多样化的数据源。主要配置如下:

推荐配置

  • filtered: (元配置)自动聚合所有29个安全子集,排除NSFW内容,包含约384k样本(图像+音频+文本)。

特定领域子集(部分列举)

  • OmniBench: 通用多模态基准数据
  • LinxyLatexOCR: LaTeX OCR图像
  • UnslothLatexOCR: 高质量LaTeX OCR数据
  • MathVision: 视觉数学问题
  • WeMath: 通用数学问题数据集
  • FoodCaptioned: 带描述的食物图像
  • PokemonBlipCaptioned: 宝可梦图像与描述
  • PokemonInfo: 宝可梦信息
  • PokemonCards: 宝可梦卡牌扫描图与数据
  • Tiny_Stories: 小故事文本
  • Tiny_Stories_Igbo: 伊博语小故事文本
  • ToneBooks: 带音调分析的有声读物
  • EnglishDialects: 英语方言数据
  • Elise: 自动语音识别(ASR)数据
  • Indian_Hindi: 印地语语音识别(ASR)
  • Indian_Marathi: 马拉地语语音识别(ASR)
  • SpectoGram_Captioned: 音频频谱图与描述
  • Silvar_Med: 视觉医学分析
  • MilitaryImages: 军事人员图像
  • BhojpuriASR: 博杰普尔语ASR
  • IndoAryanSinhalaASR: 印度-雅利安僧伽罗语ASR
  • KashmiriArabicASR: 克什米尔阿拉伯语ASR
  • AngikaDevanagariASR: 安吉卡天城文ASR
  • ArabicAudio: 阿拉伯语音频
  • MilitaryAircraftCaptioned: 带描述的军用飞机图像
  • NonverbalTTS: 非语言文本转语音数据
  • CocoSmall: 过滤后的COCO子集
  • CelebrityFaces: 名人面孔图像
  • CelebaCaptions: 带LLaVA生成描述的CelebA数据
  • NSFW1: NSFW图像-文本对(被filtered排除)
  • NSFW2: NSFW标记提示/图像(被filtered排除)

数据模式

每个子集遵循标准化的PyArrow模式:

  • id (string): 唯一标识符。
  • image (image): PIL可解码的图像对象(或None)。
  • audio (audio): 包含{array: ..., sampling_rate: ...}的字典(或None)。
  • text (string): 文本描述、转录或OCR输出。

主要用途

  • 微调视觉和音频投影器
  • 模态特定编码器与基础大语言模型(LLM)合并
  • 训练具备图像+音频→文本能力的模型
  • 任务涵盖:OCR、ASR、视觉问答(VQA)、数学推理、安全过滤、NSFW理解。

涵盖主题与任务

主题 任务类型 对应配置文件
名人识别 人脸分类 CelebrityFaces
图像描述生成(名人) 视觉到文本 CelebaCaptions, MilitaryAircraftCaptioned
NSFW检测 分类、理解 NSFW1, NSFW2
通用图像理解 描述生成、目标检测 CocoSmall, MilitaryImages
LaTeX OCR 公式识别、OCR LinxyLatexOCR, UnslothLatexOCR
数学推理 视觉数学问题 MathVision
数学监督微调数据 分步数学解答 WeMath
宝可梦 描述生成、识别、分类 PokemonBlipCaptioned, PokemonInfo, PokemonCards
食物 图像描述生成与识别 FoodCaptioned
语音识别与生成 音频描述生成 BhojpuriASR, IndoAryanSinhalaASR, KashmiriArabicASR, AngikaDevanagariASR

数据来源与出处

数据集聚合并重构了来自可信公共存储库的数据,共包含31个来源数据集。所有原始许可证均适用。

部分来源数据集列举:

  1. theneuralmaze/celebrity_faces - 名人面孔图像
  2. irodkin/celeba_with_llava_captions - 带LLaVA生成描述的CelebA数据
  3. DRDELATV/SHORT_NSFW - 短NSFW图像-文本对
  4. DRDELATV/NSFW_LP - NSFW标记提示/图像
  5. RIW/small-coco-wm_50 - 过滤后的COCO子集
  6. linxy/LaTeX_OCR - 合成LaTeX公式与图像
  7. unsloth/LaTeX_OCR - 高质量LaTeX OCR数据
  8. MathLLMs/MathVision - 数学视觉问题
  9. We-Math/We-Math - 通用数学问题数据集
  10. SPRINGLab/IndicTTS_Hidi - 印地语ASR
  11. SPRINGLab/IndicTTS_Marathi - 马拉地语ASR
  12. MrDragonFox/Elise - ASR数据
  13. Vikhrmodels/ToneBooks - ASR/描述数据
  14. vucinatim/spectrogram-captions - 音频频谱图与描述
  15. Hanhpt23/Silvar-Med - 视觉医学分析
  16. facebook/omnilingual-asr-corpus - ASR数据
  17. mehul7/captioned_military_aircraft - 军用飞机描述生成
  18. SinclairSchneider/military_images - 军事人员图像

伦理考量与警告

  • 包含潜在敏感内容:包含NSFW材料(NSFW1, NSFW2)。
  • 使用建议
    • 为安全敏感的应用使用filtered配置以排除NSFW内容。
    • 在生产中应用严格的内容审核流程。
    • 遵守关于成人内容和面部识别的当地法规。
  • 未经过滤不适合儿童安全应用。

模型训练建议

该数据集针对微调多模态投影器(如LLaVA、Gemma-3n、LFM2)进行了优化。

推荐编码器配对

模型 视觉编码器 音频编码器
Llama3.1/3.2 timm/mobilenetv5_300m.gemma3n n0mad-0/gemma3n-usm-rip USM
InternVL InternViT-300M
Gemma-3n timm/mobilenetv5_300m.gemma3n n0mad-0/gemma3n-usm-rip USM(非官方)
LFM2 SigLIP2 NaFlex shape-optimized SigLIP2 NaFlex large (400M) SigLIP2 NaFlex base (86M)

建议用途

  • 对齐视觉/音频特征与语言嵌入
  • 训练跨模态注意力机制
  • 提高在数学、符号和现实世界领域的泛化能力
  • 在多模态任务上微调视觉语言模型

快速开始示例

python from datasets import load_dataset

加载推荐的"filtered"子集(排除NSFW内容)

dataset = load_dataset("VINAYU7/Coalescence", "filtered", split="train")

加载特定子集(例如印地语ASR数据)

hindi_data = load_dataset("VINAYU7/Coalescence", "Indian_Hindi", split="train")

引用

如果在本研究中使用此数据集,请引用: bibtex @misc{vinayumrethecoalescence2026, author = {Vinay Umrethe}, title = {Coalescence: Unified Multimodal Vision-Audio & Language Dataset}, year = {2026}, publisher={Hugging Face}, howpublished={url{https://huggingface.co/VINAYU7/Vespera3D}} }

搜集汇总
数据集介绍
构建方式
在人工智能多模态学习领域,数据集的构建质量直接影响模型的泛化能力。Coalescence数据集通过精心整合31个公开可用的异构数据源,构建了一个统一的多模态语料库。其构建过程遵循严格的标准化流程,将来自数学视觉、光学字符识别、语音识别、图像描述等不同领域的原始数据,统一转换为包含图像、音频和文本三种模态的标准化样本。每个样本均被赋予唯一标识符,并采用Parquet格式进行高效存储,确保了数据结构的清晰与访问的高效。这种系统性的整合方法,不仅保留了原始数据的丰富语义,还通过统一的模式为多模态模型的联合训练提供了坚实基础。
使用方法
为充分发挥Coalescence数据集在多模态研究中的潜力,其使用提供了高度灵活的分层访问策略。研究者可通过Hugging Face的`datasets`库,使用`load_dataset`函数便捷加载数据。最推荐的方式是加载‘filtered’元配置,该配置自动聚合了全部29个安全子集,为用户提供了一个即用型、已过滤敏感内容的多模态训练集。若研究聚焦于特定领域,如印地语语音识别或数学视觉问题求解,则可直接指定对应的子集名称进行加载,实现数据的精准利用。这种设计使得数据集既能服务于需要海量多模态数据联合训练的大型项目,也能满足针对特定垂直领域进行模型微调的精细化研究需求,极大地提升了数据使用的效率与针对性。
背景与挑战
背景概述
在人工智能迈向通用智能的进程中,多模态学习已成为核心前沿,旨在实现视觉、听觉与语言信息的深度融合与协同理解。Coalescence数据集应运而生,由研究者Vinay Umrethe于2026年构建并发布,旨在提供一个大规模、统一的多模态基准。该数据集创新性地整合了来自31个公开数据源的图像、音频与文本数据,覆盖数学推理、光学字符识别、语音识别、图像描述等多个领域,其核心研究问题在于探索跨模态表征的对齐与融合,为训练下一代多模态大模型提供了丰富的异构数据支撑,对推动通用多模态智能系统的发展具有显著影响力。
当前挑战
Coalescence数据集致力于解决多模态理解这一复杂领域问题,其核心挑战在于如何有效对齐异构模态(如图像、音频、文本)的语义空间,并实现跨模态的精准推理与生成。具体而言,数据集中包含的数学公式识别、低资源语言语音识别等任务,对模型的细粒度感知与符号理解能力提出了极高要求。在构建过程中,挑战同样显著:首先需从众多异构数据源中清洗、去重并统一数据格式与标注标准;其次,数据融合需妥善处理各源数据集不同的许可协议,并审慎管理如NSFW内容等敏感信息,以确保数据集的可用性与合规性。
常用场景
经典使用场景
在跨模态人工智能研究领域,Coalescence数据集为模型训练提供了丰富的多模态对齐基准。该数据集整合了图像、音频与文本数据,其经典应用场景在于微调视觉与音频投影器,将特定模态的编码器与大型语言模型进行融合。研究人员利用其涵盖的数学公式识别、语音转录、图像描述等多样化任务,能够系统性地训练模型实现从图像和音频到文本的跨模态理解与生成能力,为构建统一的感知-语言系统奠定数据基础。
解决学术问题
该数据集有效应对了多模态人工智能研究中数据分散与对齐困难的学术挑战。通过系统整合31个来源各异的公开数据集,Coalescence为跨模态表示学习提供了规模化的训练资源,解决了以往研究中因数据稀缺导致的模型泛化能力不足问题。其在数学视觉推理、低资源语言语音识别、复杂场景图像理解等细分领域的覆盖,显著推进了模型在符号理解、多语言处理及细粒度感知方面的研究进展,对促进通用多模态智能体的发展具有重要理论意义。
实际应用
在实际应用层面,Coalescence数据集支撑了多种下游任务的模型开发与优化。基于其丰富的子集配置,开发者可针对特定领域如军事图像分析、食品识别标注、医学视觉分析或印度语系语音识别,训练专用的多模态系统。该数据集亦为内容安全过滤提供了训练样本,通过排除NSFW内容的过滤配置,能够助力开发符合伦理规范的应用。这些能力使其在智能教育辅助、无障碍技术、专业领域分析及内容审核等现实场景中具备广泛的应用潜力。
数据集最近研究
最新研究方向
在人工智能多模态融合领域,Coalescence数据集因其整合了视觉、听觉与文本的异构数据而备受关注。当前研究聚焦于利用其丰富的数学公式识别、低资源语言语音处理及跨模态对齐样本,探索通用多模态大模型的统一表征学习。该数据集支持前沿的视觉-语言-音频联合建模,尤其在增强模型对复杂符号系统(如LaTeX)的理解、提升对小语种及方言的语音识别鲁棒性方面具有显著价值。其涵盖的军事、医疗等专业领域数据,亦推动了面向垂直场景的多模态安全与伦理研究,为构建更全面、更具适应性的下一代人工智能系统提供了关键数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作