five

NeoBabel|多语言图像生成数据集|包容性AI数据集

收藏
arXiv2025-07-09 更新2025-07-10 收录
多语言图像生成
包容性AI
下载链接:
https://hf.co/datasets/mderakhshani/NeoBabel-Pretrain
下载链接
链接失效反馈
资源简介:
NeoBabel 是一个多语言图像生成框架,旨在解决现有系统对英语的过度依赖,为非英语用户创造更公平的访问。该框架支持六种语言,包括英语、中文、荷兰语、法语、印地语和波斯语。NeoBabel 使用大规模多语言预训练和高分辨率指令调整进行训练,并通过扩展的 m-GenEval 和 m-DPG 基准测试进行评估。该数据集包含 1.24 亿个多语言文本-图像对,旨在促进包容性 AI 研究。
提供机构:
Cohere Labs, University of Amsterdam
创建时间:
2025-07-09
原始信息汇总

数据集概述

基本信息

  • 数据集名称: NeoBabel-Pretrain
  • 创建者: mderakhshani
  • 托管平台: Hugging Face
  • 数据集地址: https://hf.co/datasets/mderakhshani/NeoBabel-Pretrain

数据集状态

  • 当前状态: 空数据集(无数据文件)
  • 提示信息: 需上传或创建新数据文件后才能使用Dataset Viewer浏览

数据集描述

  • 用途: 官方多语言预训练数据集(用于NeoBabel项目)
  • 开发状态: 即将发布(coming soon)

其他信息

  • YAML元数据警告: 仓库卡片中元数据为空或缺失
  • 最近下载量: 0次(上月统计)
AI搜集汇总
数据集介绍
main_image_url
构建方式
NeoBabel数据集的构建采用了多阶段训练策略,结合大规模多语言预训练和高分辨率指令微调。首先,通过翻译和重新标注现有的图像-文本对,将六种语言(英语、中文、荷兰语、法语、印地语和波斯语)纳入数据集。随后,采用渐进式预训练方法,从基础视觉理解逐步过渡到高级多语言图像生成。最后,通过指令微调进一步优化模型的多语言生成能力。整个流程确保了数据的高质量和多语言对齐。
使用方法
NeoBabel数据集的使用方法包括多语言文本到图像生成、图像修复和扩展等任务。用户可以通过提供的多语言提示生成对应的图像,或利用数据集进行模型微调和评估。数据集还支持跨语言一致性测试和代码切换场景下的性能评估。通过公开的代码库和模型检查点,研究人员可以轻松扩展数据集或将其应用于新的多语言生成任务。
背景与挑战
背景概述
NeoBabel是由Mohammad Mahdi Derakhshani、Dheeraj Varghese、Marzieh Fadaee和Cees G. M. Snoek等研究人员于2025年提出的一个多语言图像生成框架。该数据集旨在解决当前文本到图像生成技术中存在的英语中心主义问题,为非英语使用者提供更公平的生成体验。NeoBabel支持六种语言(英语、中文、荷兰语、法语、印地语和波斯语),通过大规模多语言预训练和高分辨率指令调优,实现了在多语言图像生成任务上的最先进性能。该数据集的发布包括所有代码、模型检查点、124M多语言文本-图像对以及标准化的多语言评估协议,推动了包容性AI研究的发展。
当前挑战
NeoBabel面临的挑战主要包括两个方面:1) 领域问题的挑战:当前文本到图像生成技术主要依赖英语输入,导致非英语使用者在语义和文化表达上的障碍。NeoBabel旨在通过直接的多语言映射解决这一问题,但需要处理语义漂移、计算开销和文化不对齐等复杂问题。2) 构建过程中的挑战:构建高质量的多语言视觉-语言数据集存在数据稀缺问题,尤其是在非英语语言中。此外,建立跨语言概念对齐、建模不同语言家族的类型学差异以及在生成过程中保留特定文化的语义也是技术上的难点。NeoBabel通过精心设计的数据集和端到端训练策略,成功克服了这些挑战,实现了在多语言图像生成上的高效和包容性。
常用场景
经典使用场景
在跨语言视觉生成领域,NeoBabel数据集被广泛应用于多语言文本到图像生成任务。其典型使用场景包括支持六种语言(英语、中文、荷兰语、法语、印地语和波斯语)的直接图像合成,无需依赖翻译管道。研究者利用该数据集训练模型,以实现从多语言文本描述到高质量图像的端到端生成,特别适用于需要保留文化特定语义和语言细微差别的场景。
解决学术问题
NeoBabel解决了多语言视觉生成中的核心学术问题,包括语义漂移、计算开销和文化错位。通过直接建立跨语言视觉映射,该数据集消除了对翻译管道的依赖,显著提升了非英语语言的生成质量。其贡献还包括扩展了m-GenEval和m-DPG等多语言基准,并引入了跨语言一致性(CLC)和代码混合相似性(CSS)等新指标,为评估多语言生成模型的性能提供了标准化框架。
实际应用
在实际应用中,NeoBabel支持教育、创意产业和新闻等领域的多语言内容创作。例如,非英语用户可以直接用母语生成文化相关的图像,避免了翻译导致的意义失真。其开放工具包(含124M文本-图像对和评估协议)还被用于开发包容性AI应用,如多语言视觉编辑工具和跨文化视觉叙事平台,显著降低了全球用户使用生成式AI的技术门槛。
数据集最近研究
最新研究方向
在视觉生成领域,多语言支持正成为前沿研究的核心议题。NeoBabel作为首个支持六种语言的原生多语言图像生成框架,突破了传统英语中心化模型的局限。该数据集通过大规模多语言预训练与高分辨率指令微调相结合的方法,在保持英语能力的同时,显著提升了非英语语言的生成质量。研究热点集中在跨语言概念对齐、文化特异性保持以及混合语言提示的鲁棒性评估等方面。其创新性的跨语言一致性(CLC)和代码切换相似性(CSS)评估指标,为多模态生成模型的公平性评测建立了新标准。该工作通过开放工具包和124M高质量多语言图文对数据集,推动了包容性AI研究的发展,对消除数字鸿沟、保护语言多样性具有重要实践意义。
相关研究论文
  • 1
    NeoBabel: A Multilingual Open Tower for Visual GenerationCohere Labs, University of Amsterdam · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

China Health and Retirement Longitudinal Study

中国健康与养老追踪调查(China Health and Retirement Longitudinal Study, CHARLS)是一个全国性的、具有代表性的老年人调查项目,旨在收集有关中国45岁及以上人群的健康、经济和社会状况的数据。该数据集包括个人和家庭层面的信息,涵盖健康状况、医疗使用、经济状况、社会支持等多个方面。

charls.pku.edu.cn 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。

国家地球系统科学数据中心 收录

ERIC (Education Resources Information Center)

ERIC (Education Resources Information Center) 是一个广泛的教育文献数据库,包含超过130万条记录,涵盖从1966年至今的教育研究、政策和实践。数据集内容包括教育相关的期刊文章、书籍、研究报告、会议论文、技术报告、政策文件等。

eric.ed.gov 收录

GFS

数据来源采自美国国家环境预报中心的GFS(全球预报系统),该系统每天发布4次全球范围的气象数据,分辨率最高可达到0.25° x 0.25°。GFS数据提供FTP下载方式:https://nomads.ncep.noaa.gov/pub/data/nccf/com/gfs/。每次发布的数据保存在命名为gfs.YYYYMMDDHH的文件夹中。本次需要的数据精度为0.25°(0p25),所以数据的文件名为:gfs.t{ HH }z.pgrb2.0p25.f{ XXX }

地球大数据科学工程 收录