DialectGen

Name: DialectGen
Creator: 加利福尼亚大学洛杉矶分校
Published: 2025-10-17 01:56:55
License: 暂无描述

arXiv2025-10-17 更新2025-10-18 收录

下载链接：

https://github.com/DialectGen/DialectGen

下载链接

链接失效反馈

官方服务：

资源简介：

DialectGen是一个大规模的多方言基准数据集，用于评估在图像和视频生成中的方言鲁棒性。该数据集包含六个常见的英语方言，包括标准美式英语、英式英语、奇卡诺英语、印度英语和新加坡英语。为了确保数据集的质量，研究人员与方言发言人合作，收集并验证了超过4200个独特的提示语，并通过严格的特征选择和提示语过滤流程确保了提示语的质量。DialectGen数据集旨在解决多模态生成模型在处理方言文本输入时的性能下降问题，并为提高方言鲁棒性提供了重要的数据资源。

DialectGen is a large-scale multi-dialect benchmark dataset developed to evaluate dialect robustness in image and video generation. This dataset includes six common English dialects, namely Standard American English, British English, Chicano English, Indian English, and Singapore English. To ensure dataset quality, researchers collaborated with native dialect speakers to collect and validate over 4,200 unique prompts, and implemented strict feature selection and prompt filtering workflows to guarantee the reliability of the prompts. DialectGen aims to address the performance degradation of multimodal generative models when processing dialectal text inputs, and provides a critical data resource for enhancing dialect robustness in such models.

提供机构：

加利福尼亚大学洛杉矶分校

创建时间：

2025-10-17

原始信息汇总

DialectGen 数据集概述

数据集基本信息

数据集名称: DialectGen
研究主题: 多模态生成中的方言鲁棒性基准测试与改进
当前状态: 已提交待审
许可证: MIT
论文链接: https://arxiv.org/pdf/2510.14949
官方网站: https://dialectgen.github.io/

数据集规模与范围

覆盖方言: 6种常见英语方言
提示词数量: 超过4200个独特提示
评估模型: 17个图像和视频生成模型
方言代码: aae, bre, che, ine, sge

核心研究问题

研究多模态生成模型在接收方言文本输入时能否有效生成内容

主要研究发现

当前最先进的多模态生成模型在使用单个方言词时性能下降32.26%至48.17%
常用缓解方法（微调和提示重写）仅能小幅提升方言性能（<7%）
标准美国英语（SAE）性能可能显著下降
提出基于编码器的通用缓解策略，可在保持SAE性能的同时将五种方言性能提升至与SAE相当水平（+34.4%）

数据集结构

DialectGen/ ├── data/ └── image/ └── {mode}/ └── {model}/ ├── sae_images/ └── dialect_imgs/ └── {prompt} ├── 0.jpg ├── ... ├── 9.jpg

评估模式

简洁模式 (concise)
详细模式 (detailed)
多义模式 (polysemy)

评估指标

VQA Score: 视觉问答评分
CLIP Score: 跨模态相似度评分

支持模型类型

图像生成模型: Stable Diffusion等
视频生成模型: VideoCrafter, CogVideoX5B等

缓解方法实现

基于文本编码器的微调策略
支持在保持SAE性能的同时提升方言理解能力

引用格式

bibtex @article{zhou2025dialectgen, title={DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation}, author={Zhou, Yu and An, Sohyun and Deng, Haikang and Yin, Da and Peng, Clark and Hsieh, Cho-Jui and Chang, Kai-Wei and Peng, Nanyun}, journal={arXiv preprint arXiv:2510.14949}, year={2025} }

搜集汇总

数据集介绍

构建方式

DialectGen数据集的构建遵循严谨的多阶段流程，首先从权威区域英语词典中收集1126个方言词汇及其标准英语对应词，形成初始词汇对。随后通过GPT-4o生成以目标词汇为核心的简洁与详细两种提示模板，确保场景描述具有视觉可生成性。关键环节是引入方言使用者进行双重人工验证，每位提示对需经两名独立母语者确认语义等价性、方言有效性及非歧义性，最终从6552个初始提示中筛选出4200个高质量样本，构建涵盖六种英语方言的平衡数据集。

使用方法

研究者可通过加载标准化数据拆分（训练/验证/测试比例为8:1:1）开展多维度评估。自动评估采用VQAScore与CLIPScore指标，分别计算方言提示与标准提示生成内容的对齐度差异；人工评估则通过第三方标注者对比生成内容与标准提示的语义匹配度。针对模型优化，可运用数据集中的方言-标准语对实施文本编码器微调，或结合多任务损失函数同步提升方言鲁棒性与标准语性能，实验表明该方法能使五大方言性能提升34.4%且几乎不影响标准语表现。

背景与挑战

背景概述

随着全球化进程中英语方言多样性的日益凸显，2025年由加州大学洛杉矶分校研究团队发布的DialectGen数据集应运而生。该数据集聚焦于多模态生成模型在方言输入下的鲁棒性评估，涵盖标准美国英语、英国英语、非洲裔美国英语等六种常见英语方言变体。通过构建包含4200组经过方言使用者验证的语义等价提示词对，该研究揭示了当前主流生成模型在方言理解方面存在的系统性缺陷，为促进语言技术公平性提供了重要基准。

当前挑战

在领域问题层面，DialectGen旨在解决多模态生成模型对非标准英语方言的理解瓶颈，当前模型在方言输入下出现最高达48.17%的性能衰减。构建过程中面临双重挑战：其一是方言词汇的语义对等性验证，需通过严格的说话者标注流程确保提示词对在保持语义一致性的同时符合方言使用规范；其二是多义词消歧难题，当方言词汇在标准英语中存在歧义时，模型往往倾向于激活标准语义而非方言语义，这要求数据集设计必须包含专门的多义控制机制。

常用场景

经典使用场景

在跨文化多模态生成研究中，DialectGen数据集被广泛用于评估文本到图像和文本到视频生成模型对英语方言词汇的鲁棒性。该数据集通过构建六种常见英语方言的4200组语义等价提示词对，系统性地测试模型在方言词汇替换场景下的生成质量退化现象。研究显示，当输入提示词中包含单一方言词汇时，主流生成模型的性能下降幅度高达32.26%至48.17%，这为方言鲁棒性研究提供了关键基准。

解决学术问题

该数据集有效解决了多模态生成领域长期存在的方言性能差距问题。通过构建严格验证的方言-标准英语平行语料，首次量化揭示了生成模型在处理非主流英语方言时存在的系统性缺陷。其创新性的评估框架为研究方言词汇的语义表征对齐、多义词歧义消解等核心问题提供了实验基础，推动了方言公平性在生成式人工智能领域的理论发展。

实际应用

在实际应用层面，DialectGen为开发跨文化内容生成系统提供了重要支撑。基于该数据集训练的增强模型能准确理解新加坡英语中的“ang pow”（红包）、印度英语中的“brinjal”（茄子）等方言词汇，显著提升面向多元文化用户群体的服务质量。在全球化数字内容创作、跨文化教育工具开发等场景中，该数据集助力实现了更包容的多模态交互体验。

数据集最近研究