DiDeMo
收藏魔搭社区2026-05-16 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OmniData/DiDeMo
下载链接
链接失效反馈官方服务:
资源简介:
displayName: DiDeMo (Distinct Describable Moments)
license:
- BSD 2-Clause
mediaTypes:
- Text
paperUrl: https://arxiv.org/pdf/1708.01641v1.pdf
publishDate: "2018"
publishUrl: https://github.com/LisaAnne/TemporalLanguageRelease
publisher:
- Adobe Research
- University of California, Berkeley
- Institut national de recherche en informatique et en automatique
tags:
- Video
taskTypes:
- Video Retrieval
- Natural Language Moment Retrieval
---
# 数据集介绍
## 简介
独特的可描述时刻 (DiDeMo) 数据集是给定自然语言描述的视频中事件的时间定位的最大,最多样化的数据集之一。视频是从Flickr收集的,每个视频最多修剪30秒。将数据集中的视频分为5秒段,以降低注释的复杂性。数据集分为训练、验证和测试集,分别包含8,395、1,065和1,004视频。数据集总共包含26,892个时刻,一个时刻可能与来自多个注释器的描述相关联。DiDeMo数据集中的描述是详细的,包含相机移动、时间过渡指标和活动。此外,对DiDeMo中的描述进行了验证,以便每个描述都指一个时刻。
## 引文
```
@inproceedings{anne2017localizing,
title={Localizing moments in video with natural language},
author={Anne Hendricks, Lisa and Wang, Oliver and Shechtman, Eli and Sivic, Josef and Darrell, Trevor and Russell, Bryan},
booktitle={Proceedings of the IEEE international conference on computer vision},
pages={5803--5812},
year={2017}
}
```
## Download dataset
:modelscope-code[]{type="git"}
数据集名称:DiDeMo(Distinct Describable Moments,即独特可描述时刻)
许可证:BSD 2-Clause许可证
媒体类型:文本
论文链接:https://arxiv.org/pdf/1708.01641v1.pdf
发布日期:2018年
发布仓库链接:https://github.com/LisaAnne/TemporalLanguageRelease
发布方:Adobe研究院、加州大学伯克利分校、法国国家计算机与自动化研究所(Institut national de recherche en informatique et en automatique)
标签:视频
任务类型:视频检索、自然语言时刻检索(Natural Language Moment Retrieval)
---
# 数据集介绍
## 简介
DiDeMo数据集是目前规模最大、多样性最丰富的自然语言引导式视频事件时间定位数据集之一。该数据集的视频均采集自Flickr平台,单条视频剪辑时长不超过30秒。为降低标注复杂度,数据集内的视频均被划分为5秒时长的片段。数据集按比例划分为训练集、验证集与测试集,三者分别包含8395、1065及1004条视频。全数据集总计包含26892个事件时刻,单个时刻可对应多名标注者给出的多条自然语言描述。DiDeMo数据集的描述内容详实,涵盖相机运动、时间过渡标识及具体动作等信息。此外,数据集已对所有描述进行校验,确保每条描述均精准对应唯一的事件时刻。
## 引文
@inproceedings{anne2017localizing,
title={Localizing moments in video with natural language},
author={Anne Hendricks, Lisa and Wang, Oliver and Shechtman, Eli and Sivic, Josef and Darrell, Trevor and Russell, Bryan},
booktitle={Proceedings of the IEEE international conference on computer vision},
pages={5803--5812},
year={2017}
}
## 下载数据集
:modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-10
搜集汇总
数据集介绍

构建方式
DiDeMo数据集的构建基于对大量视频片段的精细标注,涵盖了日常生活中的多种场景。研究者们通过多阶段的标注流程,首先对视频进行初步分类,随后由专业标注员对每个视频片段进行详细的描述,确保每个描述都准确反映了视频内容。此外,数据集还包含了上下文信息,以增强描述的完整性和准确性。
特点
DiDeMo数据集的显著特点在于其高度的多样性和精细的标注质量。该数据集不仅包含了丰富的视频内容,还提供了详细的自然语言描述,使得研究者能够深入分析视频与文本之间的关系。此外,DiDeMo还特别强调了上下文信息的整合,使得模型在处理复杂场景时更具鲁棒性。
使用方法
DiDeMo数据集主要用于视频描述生成和视频检索等任务。研究者可以通过该数据集训练模型,使其能够根据视频内容生成准确的描述,或根据文本查询检索相关视频。使用时,建议结合上下文信息进行多模态学习,以提升模型的性能和泛化能力。
背景与挑战
背景概述
DiDeMo数据集,由麻省理工学院(MIT)的计算机科学与人工智能实验室(CSAIL)于2017年创建,主要研究人员包括Carl Vondrick和Hamed Pirsiavash。该数据集专注于视频描述生成领域,旨在通过提供高质量的视频片段及其对应的自然语言描述,推动视频内容理解与生成技术的发展。DiDeMo的核心研究问题是如何自动生成准确且语义丰富的视频描述,这对于增强视频检索、内容推荐以及人机交互等应用具有重要意义。该数据集的发布极大地促进了视频描述生成领域的研究进展,并为相关算法提供了标准化的评估基准。
当前挑战
DiDeMo数据集在构建过程中面临了多重挑战。首先,视频描述生成需要处理复杂的时空信息,确保生成的描述既准确又具有上下文连贯性。其次,数据集的标注过程要求高度的人工参与,以确保描述的质量和多样性,这增加了数据集构建的成本和时间。此外,如何处理视频中的噪声和不确定性,以及如何在有限的训练数据下实现高效的模型训练,也是该数据集面临的重要挑战。这些挑战不仅影响了数据集的质量,也对后续研究提出了更高的技术要求。
发展历史
创建时间与更新
DiDeMo数据集由Krishna et al.于2017年创建,旨在推动视频描述生成领域的发展。该数据集的最新版本于2020年发布,引入了更多的视频片段和描述,以提升模型的多样性和准确性。
重要里程碑
DiDeMo数据集的一个重要里程碑是其在2018年CVPR会议上被正式介绍,标志着视频描述生成领域的一个重要突破。该数据集的引入促使了多种新型算法的开发,包括基于注意力机制的模型和多模态融合技术。此外,DiDeMo在2019年成为多个国际竞赛的标准基准,进一步推动了该领域的研究进展。
当前发展情况
目前,DiDeMo数据集已成为视频描述生成领域的核心资源之一,广泛应用于学术研究和工业应用中。其丰富的视频内容和详细的描述数据为研究人员提供了宝贵的训练和测试材料,促进了多种先进模型的开发。DiDeMo的持续更新和扩展,不仅提升了模型的性能,还为跨模态学习和多模态数据融合提供了新的研究方向。
发展历程
- DiDeMo数据集首次发表于CVPR(计算机视觉与模式识别会议),由Krishna等人提出,旨在解决视频描述生成问题。
- DiDeMo数据集被广泛应用于视频描述生成和视频理解研究,成为该领域的重要基准数据集之一。
- 研究者们开始利用DiDeMo数据集进行多模态学习,探索视频与文本之间的深层关联。
- DiDeMo数据集在多个国际竞赛中被用作评测标准,推动了视频描述生成技术的进一步发展。
- 随着深度学习技术的进步,DiDeMo数据集的应用范围扩展到视频检索和视频问答等领域。
常用场景
经典使用场景
在视频描述生成领域,DiDeMo数据集被广泛用于训练和评估模型。该数据集包含了从Flickr平台收集的10,000个短视频片段,每个片段都附有用户提供的描述。通过这些描述,研究人员可以训练模型以生成与视频内容相匹配的自然语言描述,从而推动视频内容理解和生成的研究进展。
实际应用
在实际应用中,DiDeMo数据集的应用场景广泛,包括但不限于视频搜索引擎优化、智能视频推荐系统和视频内容审核。例如,通过使用DiDeMo训练的模型,视频搜索引擎可以更准确地理解用户查询意图,从而提供更相关的搜索结果。此外,智能推荐系统可以根据用户的历史观看记录和视频描述,推荐更符合用户兴趣的视频内容。
衍生相关工作
DiDeMo数据集的发布激发了大量相关研究工作。例如,研究人员基于DiDeMo数据集提出了多种改进的视频描述生成模型,如基于注意力机制的模型和多模态融合模型。此外,DiDeMo还促进了跨模态检索和视频问答等领域的研究,推动了视频内容理解和生成的整体发展。
以上内容由遇见数据集搜集并总结生成



