MM-AVS
收藏github2021-12-08 更新2024-05-31 收录
下载链接:
https://github.com/xiyan524/MM-AVS
下载链接
链接失效反馈官方服务:
资源简介:
MM-AVS是一个全面收集了来自CNN和Daily Mail的英文文档、摘要、图像、标题、视频、音频、转录和标题的多模态数据集。据我们所知,这是该领域首个涵盖所有模态并几乎包含所有类型材料的集合。
MM-AVS is a comprehensive multimodal dataset that collects English documents, summaries, images, headlines, videos, audio, transcripts, and captions from CNN and Daily Mail. To the best of our knowledge, this is the first collection in the field that encompasses all modalities and includes nearly all types of materials.
创建时间:
2021-04-08
原始信息汇总
MM-AVS数据集概述
数据集描述
MM-AVS是一个全面的多模态数据集,涵盖了来自CNN和Daily Mail的英文文档、摘要、图像、标题、视频、音频、转录文本和标题。据我们所知,这是首个涵盖所有模态并几乎包含该领域所有类型材料的数据集。
数据集内容
- 文档
- 摘要
- 图像
- 标题
- 视频
- 音频
- 转录文本
- 标题
下载方式
- OneDrive链接: MM-AVS数据集下载
数据集扩展
数据集的规模由伴随的视频决定,考虑到这种模态比其他模态更占用空间。数据获取代码可用于数据集的扩展。
引用信息
- 论文: Fu, Xiyan, Wang, Jun, and Yang, Zhenglu. "MM-AVS: A Full-Scale Dataset for Multi-modal Summarization". Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.
- 出版信息: 2021年6月, 在线, 由Association for Computational Linguistics出版.
- 论文链接: MM-AVS论文
- 原始版本: "Multi-modal Summarization for Video-containing Documents"
搜集汇总
数据集介绍

构建方式
MM-AVS数据集构建于多模态摘要领域,通过全面收集来自CNN和Daily Mail的英文文档、摘要、图像、字幕、视频、音频、转录文本和标题,形成了一个全尺度的多模态数据集。该数据集首次涵盖了所有模态,并几乎包含了该领域中所有可用的材料类型,为多模态摘要研究提供了丰富的资源。
特点
MM-AVS数据集的特点在于其多模态的全面性和多样性。它不仅包含了文本和图像,还整合了视频、音频及其转录文本,形成了一个多维度的数据集合。这种多模态的结合使得数据集能够支持更复杂和全面的研究需求,尤其是在多模态摘要生成和跨模态理解方面。
使用方法
MM-AVS数据集的使用方法包括下载数据集文件,如cnn.zip和dailymail.zip,以及训练和测试ID文件。用户可以通过OneDrive链接下载数据,确保网络环境稳定以处理大文件。数据集的使用旨在支持多模态摘要的研究和开发,用户可以利用这些多模态数据进行模型训练、测试和验证,以探索多模态摘要的生成和理解。
背景与挑战
背景概述
MM-AVS数据集由Xiyan Fu、Jun Wang和Zhenglu Yang等研究人员于2021年提出,旨在为多模态摘要任务提供一个全面的数据集。该数据集首次整合了来自CNN和Daily Mail的多种模态数据,包括文档、摘要、图像、字幕、视频、音频、转录文本和标题等。作为首个涵盖几乎所有模态的数据集,MM-AVS为多模态摘要领域的研究提供了丰富的资源,推动了该领域的发展。该数据集的研究成果被NAACL 2021会议接受,并在相关领域产生了广泛影响。
当前挑战
MM-AVS数据集在构建过程中面临了多模态数据整合的复杂性挑战。首先,多模态数据的对齐与融合是一个关键问题,不同模态之间的信息如何有效结合以生成准确的摘要,仍然是一个未完全解决的难题。其次,视频数据的存储与传输问题也带来了技术挑战,由于视频文件体积庞大,数据集的扩展与分发受到了网络带宽和存储空间的限制。此外,数据集的扩展性也是一个挑战,尽管提供了数据获取代码,但如何高效地扩展数据集并保持数据质量仍需进一步研究。
常用场景
经典使用场景
MM-AVS数据集在多模态摘要生成领域具有广泛的应用,尤其是在处理包含视频、音频、文本和图像等多种模态的文档时。研究人员可以利用该数据集进行多模态信息的融合与摘要生成,探索不同模态之间的互补性和协同效应。通过该数据集,研究者能够开发出更加智能的摘要系统,能够自动从复杂的多模态数据中提取关键信息,生成简洁且信息丰富的摘要。
解决学术问题
MM-AVS数据集解决了多模态摘要生成中的关键问题,即如何有效地整合来自不同模态的信息以生成高质量的摘要。传统摘要生成方法通常仅依赖于文本数据,而忽略了视频、音频和图像等模态的丰富信息。该数据集为研究者提供了一个全面的实验平台,能够验证多模态融合算法的有效性,推动多模态摘要生成技术的发展。
衍生相关工作
MM-AVS数据集的发布催生了一系列相关研究工作,尤其是在多模态信息融合和摘要生成领域。例如,基于该数据集的研究提出了多种多模态融合模型,如基于注意力机制的融合方法和跨模态对齐技术。这些工作不仅推动了多模态摘要生成技术的发展,还为其他多模态任务(如多模态问答和内容推荐)提供了重要的参考。
以上内容由遇见数据集搜集并总结生成



