five

AVSD|对话理解数据集|视听数据处理数据集

收藏
魔搭社区2025-02-25 更新2024-08-31 收录
对话理解
视听数据处理
下载链接:
https://modelscope.cn/datasets/OmniData/AVSD
下载链接
链接失效反馈
资源简介:
displayName: AVSD (Audio-Visual Scene-Aware Dialog) license: - MIT mediaTypes: - Audio paperUrl: https://arxiv.org/pdf/1806.00525v1.pdf publishDate: "2019" publishUrl: http://workshop.colips.org/dstc7/call.html publisher: - Mitsubishi Electric Research Laboratories - Georgia Institute of Technology tags: - Visual Question-Answer taskTypes: - Scene-Aware Dialogue --- # 数据集介绍 ## 简介 视听场景感知对话 (AVSD) 数据集,或DSTC7轨道3,是用于对话理解的视听数据集。数据集和轨道的目标是设计系统,以在给定视频的对话历史和视听内容的情况下,在有关视频的对话框中生成响应。 ## 引文 ``` @article{alamri2018audio, title={Audio visual scene-aware dialog (avsd) challenge at dstc7}, author={Alamri, Huda and Cartillier, Vincent and Lopes, Raphael Gontijo and Das, Abhishek and Wang, Jue and Essa, Irfan and Batra, Dhruv and Parikh, Devi and Cherian, Anoop and Marks, Tim K and others}, journal={arXiv preprint arXiv:1806.00525}, year={2018} } ``` ## Download dataset :modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-06-29
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

TT100K - Tsinghua-Tencent 100K

TT100K数据集是一个用于交通标志检测和识别的大规模数据集,包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。

cg.cs.tsinghua.edu.cn 收录

HyperGlobal-450K - 全球最大规模高光谱图像数据集

HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建,是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像,规模等价于超过2000万张不重叠的三波段图像,远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像,包括来自地球观测一号(EO-1)Hyperion和高分五号(GF-5B)两种传感器的图像,光谱范围从可见光到短波及中波红外,具有从紫外到长波红外的330个光谱波段,空间分辨率为30米。每幅图像经过精心处理,去除了无效波段和水汽吸收波段,保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究,还能够用于开发和测试各种高光谱图像处理方法,比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。

github 收录