DiDeMo-AR

Name: DiDeMo-AR
Creator: King Abdullah University of Science and Technology (KAUST), Thuwal, Saudi Arabia; Department of Computer Science, Edge Hill University, Ormskirk, England
Published: 2025-09-20 05:35:04
License: 暂无描述

arXiv2025-09-20 更新2025-09-24 收录

下载链接：

https://github.com/KAUST-REAL/AUTOARABIC

下载链接

链接失效反馈

官方服务：

资源简介：

DiDeMo-AR是一个视频检索基准数据集，由AUTOARABIC框架生成，包含10,464个视频和40,144个流畅的阿拉伯语描述。该数据集由现代标准阿拉伯语描述组成，是阿拉伯语视频检索基准的第一个公开数据集。DiDeMo-AR的创建旨在填补阿拉伯语视频检索基准的空白，为阿拉伯语多模态研究提供支持。

DiDeMo-AR is a video retrieval benchmark dataset generated by the AUTOARABIC framework, which contains 10,464 videos and 40,144 fluent Arabic descriptions. Composed of Modern Standard Arabic descriptions, it is the first publicly available benchmark dataset for Arabic video retrieval. DiDeMo-AR was developed to fill the gap in Arabic video retrieval benchmarks and support Arabic multimodal research.

提供机构：

King Abdullah University of Science and Technology (KAUST), Thuwal, Saudi Arabia; Department of Computer Science, Edge Hill University, Ormskirk, England

创建时间：

2025-09-20

搜集汇总

数据集介绍

构建方式

在视频文本检索领域，阿拉伯语资源的稀缺性长期制约着相关研究的发展。DiDeMo-AR数据集通过AUTOARABIC三阶段框架构建，首先利用Gemini 2.0 Flash将原始英文描述翻译为现代标准阿拉伯语，随后通过GPT-4o进行自动错误检测，涵盖词汇选择、语法结构等六类错误，最后由母语专家对标记样本进行人工校对。该流程将人工修订工作量降低至传统方法的四分之一，同时保持97%的错误检测准确率。

使用方法

该数据集适用于视频文本双向检索任务的模型训练与评估，研究者可采用与英文基准相同的实验设置进行跨语言对比。通过控制后编辑预算（零干预/仅标记修正/全量修正）可灵活平衡数据质量与人工成本，实验表明即使直接使用原始机器翻译结果也能达到可用性能。基于CLIP架构的基线实验验证了数据集难度与英文版本的等效性，为阿拉伯语多模态研究提供了可靠的评估基准。

背景与挑战

背景概述

随着在线视频内容的爆炸式增长，跨模态检索技术成为计算机视觉领域的研究热点。DiDeMo-AR数据集由阿卜杜拉国王科技大学研究团队于2025年创建，旨在解决阿拉伯语视频文本检索基准缺失的问题。该数据集基于原始DiDeMo数据集，通过AUTOARABIC框架将40,144条英文描述转化为现代标准阿拉伯语，填补了阿拉伯语多模态研究的关键空白。作为首个支持时刻级定位的阿拉伯语视频检索基准，DiDeMo-AR为阿拉伯语自然语言处理与计算机视觉的交叉研究提供了重要基础设施。

当前挑战

在视频文本检索领域，阿拉伯语面临语义复杂性带来的表征挑战，包括词形变化丰富性和方言多样性对模型泛化能力的影响。数据集构建过程中需克服三大难题：一是大语言模型翻译产生的语法结构错位和时态偏差，具体表现为3.4%的时态转换错误；二是阿拉伯语特有的变音符号不一致性问题，影响27.8%的标注样本；三是文化适配性挑战，需平衡外来词与本土化表达，该问题涉及12.7%的语料。此外，部分翻译存在内容幻觉现象，需通过97%准确率的错误检测模块进行校正。

常用场景

经典使用场景

在跨模态检索研究领域，DiDeMo-AR作为首个阿拉伯语视频-文本检索基准数据集，其经典应用场景聚焦于评估多语言视频理解模型的泛化能力。该数据集通过将原始DiDeMo的英语描述转化为现代标准阿拉伯语，为研究者提供了检验模型在非拉丁语系下的对齐性能标准化平台。典型实验设置包括使用CLIP架构的视觉-语言模型，在相同超参数下对比英语与阿拉伯语变体的检索准确率，从而量化语言迁移带来的性能差异。

解决学术问题

该数据集有效解决了阿拉伯语多模态研究中长期存在的基准缺失问题，打破了该语言在视频文本检索领域对英语数据的依赖。通过构建包含40,144条流畅阿拉伯语描述的标准化评测集，研究者能够系统探究阿拉伯语复杂形态特征对跨模态对齐的影响。实验表明，即使阿拉伯语描述平均长度较英语缩短25%，基于该数据集的模型仍能保持85-90%的英语基准性能，证实了跨语言检索任务的可迁移性，为低资源语言的多模态研究提供了方法论范式。

实际应用

在实际应用层面，DiDeMo-AR为阿拉伯语地区的视频内容管理、智能检索系统开发提供了关键数据支撑。其时刻级标注特性特别适用于短视频平台的语义搜索场景，如根据阿拉伯语查询精准定位视频片段。该数据集还可服务于教育领域的多媒体资源索引、新闻视频的跨语言检索等实际需求。通过AUTOARABIC框架的误差检测模块，实现了97%的自动错误标记准确率，大幅降低了人工校对成本，为产业化应用提供了可扩展的本地化解决方案。

数据集最近研究