AVSD
收藏魔搭社区2025-12-04 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OmniData/AVSD
下载链接
链接失效反馈官方服务:
资源简介:
displayName: AVSD (Audio-Visual Scene-Aware Dialog)
license:
- MIT
mediaTypes:
- Audio
paperUrl: https://arxiv.org/pdf/1806.00525v1.pdf
publishDate: "2019"
publishUrl: http://workshop.colips.org/dstc7/call.html
publisher:
- Mitsubishi Electric Research Laboratories
- Georgia Institute of Technology
tags:
- Visual Question-Answer
taskTypes:
- Scene-Aware Dialogue
---
# 数据集介绍
## 简介
视听场景感知对话 (AVSD) 数据集,或DSTC7轨道3,是用于对话理解的视听数据集。数据集和轨道的目标是设计系统,以在给定视频的对话历史和视听内容的情况下,在有关视频的对话框中生成响应。
## 引文
```
@article{alamri2018audio,
title={Audio visual scene-aware dialog (avsd) challenge at dstc7},
author={Alamri, Huda and Cartillier, Vincent and Lopes, Raphael Gontijo and Das, Abhishek and Wang, Jue and Essa, Irfan and Batra, Dhruv and Parikh, Devi and Cherian, Anoop and Marks, Tim K and others},
journal={arXiv preprint arXiv:1806.00525},
year={2018}
}
```
## Download dataset
:modelscope-code[]{type="git"}
显示名称:视听场景感知对话(Audio-Visual Scene-Aware Dialog,简称AVSD)
license:
- MIT许可证
mediaTypes:
- 音频
paperUrl: https://arxiv.org/pdf/1806.00525v1.pdf
publishDate: 2019年
publishUrl: http://workshop.colips.org/dstc7/call.html
publisher:
- 三菱电机研究实验室(Mitsubishi Electric Research Laboratories)
- 佐治亚理工学院(Georgia Institute of Technology)
tags:
- 视觉问答(Visual Question-Answer)
taskTypes:
- 场景感知对话(Scene-Aware Dialogue)
---
# 数据集介绍
## 简介
视听场景感知对话(Audio-Visual Scene-Aware Dialog,简称AVSD)数据集,又称DSTC7赛道3,是面向对话理解任务的视听多模态数据集。该数据集及对应赛道旨在研发能够基于给定视频的对话历史与视听内容,针对视频相关对话生成自然回复的系统。
## 引文
@article{alamri2018audio,
title={Audio visual scene-aware dialog (avsd) challenge at dstc7},
author={Alamri, Huda and Cartillier, Vincent and Lopes, Raphael Gontijo and Das, Abhishek and Wang, Jue and Essa, Irfan and Batra, Dhruv and Parikh, Devi and Cherian, Anoop and Marks, Tim K and others},
journal={arXiv preprint arXiv:1806.00525},
year={2018}
}
## 数据集下载
:modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-06-29
搜集汇总
数据集介绍

背景与挑战
背景概述
AVSD(Audio-Visual Scene-Aware Dialog)数据集是一个多模态对话理解数据集,专注于音频和视觉场景感知。其核心目标是开发能够根据视频的音频视觉内容和对话历史,生成相关对话响应的系统,适用于视频相关的人机交互研究。数据集由OmniData维护,采用MIT许可证,更新于2024年7月,大小为28.57GB。
以上内容由遇见数据集搜集并总结生成



