NeoBabel

Name: NeoBabel
Creator: Cohere Labs, University of Amsterdam
Published: 2025-07-09 00:19:45
License: 暂无描述

arXiv2025-07-09 更新2025-07-10 收录

下载链接：

https://hf.co/datasets/mderakhshani/NeoBabel-Pretrain

下载链接

链接失效反馈

官方服务：

资源简介：

NeoBabel 是一个多语言图像生成框架，旨在解决现有系统对英语的过度依赖，为非英语用户创造更公平的访问。该框架支持六种语言，包括英语、中文、荷兰语、法语、印地语和波斯语。NeoBabel 使用大规模多语言预训练和高分辨率指令调整进行训练，并通过扩展的 m-GenEval 和 m-DPG 基准测试进行评估。该数据集包含 1.24 亿个多语言文本-图像对，旨在促进包容性 AI 研究。

NeoBabel is a multilingual image generation framework designed to address the over-reliance on English in existing systems and create more equitable access for non-English-speaking users. This framework supports six languages, including English, Chinese, Dutch, French, Hindi, and Persian. NeoBabel is trained using large-scale multilingual pre-training and high-resolution instruction tuning, and evaluated via extended m-GenEval and m-DPG benchmark tests. This dataset contains 124 million multilingual text-image pairs, aiming to facilitate inclusive AI research.

提供机构：

Cohere Labs, University of Amsterdam

创建时间：

2025-07-09

原始信息汇总

数据集概述

基本信息

数据集名称: NeoBabel-Pretrain
创建者: mderakhshani
托管平台: Hugging Face
数据集地址: https://hf.co/datasets/mderakhshani/NeoBabel-Pretrain

数据集状态

当前状态: 空数据集（无数据文件）
提示信息: 需上传或创建新数据文件后才能使用Dataset Viewer浏览

数据集描述

用途: 官方多语言预训练数据集（用于NeoBabel项目）
开发状态: 即将发布（coming soon）

其他信息

YAML元数据警告: 仓库卡片中元数据为空或缺失
最近下载量: 0次（上月统计）

搜集汇总

数据集介绍

构建方式

NeoBabel数据集的构建采用了多阶段训练策略，结合大规模多语言预训练和高分辨率指令微调。首先，通过翻译和重新标注现有的图像-文本对，将六种语言（英语、中文、荷兰语、法语、印地语和波斯语）纳入数据集。随后，采用渐进式预训练方法，从基础视觉理解逐步过渡到高级多语言图像生成。最后，通过指令微调进一步优化模型的多语言生成能力。整个流程确保了数据的高质量和多语言对齐。

使用方法

NeoBabel数据集的使用方法包括多语言文本到图像生成、图像修复和扩展等任务。用户可以通过提供的多语言提示生成对应的图像，或利用数据集进行模型微调和评估。数据集还支持跨语言一致性测试和代码切换场景下的性能评估。通过公开的代码库和模型检查点，研究人员可以轻松扩展数据集或将其应用于新的多语言生成任务。

背景与挑战

背景概述

NeoBabel是由Mohammad Mahdi Derakhshani、Dheeraj Varghese、Marzieh Fadaee和Cees G. M. Snoek等研究人员于2025年提出的一个多语言图像生成框架。该数据集旨在解决当前文本到图像生成技术中存在的英语中心主义问题，为非英语使用者提供更公平的生成体验。NeoBabel支持六种语言（英语、中文、荷兰语、法语、印地语和波斯语），通过大规模多语言预训练和高分辨率指令调优，实现了在多语言图像生成任务上的最先进性能。该数据集的发布包括所有代码、模型检查点、124M多语言文本-图像对以及标准化的多语言评估协议，推动了包容性AI研究的发展。

当前挑战

NeoBabel面临的挑战主要包括两个方面：1) 领域问题的挑战：当前文本到图像生成技术主要依赖英语输入，导致非英语使用者在语义和文化表达上的障碍。NeoBabel旨在通过直接的多语言映射解决这一问题，但需要处理语义漂移、计算开销和文化不对齐等复杂问题。2) 构建过程中的挑战：构建高质量的多语言视觉-语言数据集存在数据稀缺问题，尤其是在非英语语言中。此外，建立跨语言概念对齐、建模不同语言家族的类型学差异以及在生成过程中保留特定文化的语义也是技术上的难点。NeoBabel通过精心设计的数据集和端到端训练策略，成功克服了这些挑战，实现了在多语言图像生成上的高效和包容性。

常用场景

经典使用场景

在跨语言视觉生成领域，NeoBabel数据集被广泛应用于多语言文本到图像生成任务。其典型使用场景包括支持六种语言（英语、中文、荷兰语、法语、印地语和波斯语）的直接图像合成，无需依赖翻译管道。研究者利用该数据集训练模型，以实现从多语言文本描述到高质量图像的端到端生成，特别适用于需要保留文化特定语义和语言细微差别的场景。

解决学术问题

NeoBabel解决了多语言视觉生成中的核心学术问题，包括语义漂移、计算开销和文化错位。通过直接建立跨语言视觉映射，该数据集消除了对翻译管道的依赖，显著提升了非英语语言的生成质量。其贡献还包括扩展了m-GenEval和m-DPG等多语言基准，并引入了跨语言一致性（CLC）和代码混合相似性（CSS）等新指标，为评估多语言生成模型的性能提供了标准化框架。

实际应用

在实际应用中，NeoBabel支持教育、创意产业和新闻等领域的多语言内容创作。例如，非英语用户可以直接用母语生成文化相关的图像，避免了翻译导致的意义失真。其开放工具包（含124M文本-图像对和评估协议）还被用于开发包容性AI应用，如多语言视觉编辑工具和跨文化视觉叙事平台，显著降低了全球用户使用生成式AI的技术门槛。

数据集最近研究