MMTrail-20M|多模态学习数据集|视频语言模型数据集
收藏MMTrail: 多模态预告片视频数据集
数据集概述
- 名称: MMTrail
- 类型: 多模态视频-语言数据集
- 规模: 20M+预告片片段
- 总时长: 27.1k小时
- 许可证: CC-BY-NC-SA 4.0
- 任务类别: 特征提取
- 语言: 英语
- 标签: 音乐、视频
数据集内容
- 视频片段: 20M+预告片片段
- 字幕类型:
- LLaVA视频字幕: 2M+
- 音乐字幕: 2M+
- Coca帧字幕: 60M+
- 特点:
- 多样化的主题(电影、新闻、游戏等)
- 定制设计的背景音乐
- 高质量的多模态字幕
数据格式
- 文件格式: JSON
- 包含字段:
- 视频ID、路径、时长、分辨率、帧率
- 片段ID、路径、时长、起止帧
- 图像质量评分、光流评分、美学评分
- 音乐字幕(带/不带人声)
- 语音识别字幕
- 关键帧字幕
- 对象列表、背景描述
- 多种字幕版本(原始、润色、合并)
下载与使用
-
下载方式: python from datasets import load_dataset dataset = load_dataset("litwell/MMTrail-2M")
-
注意事项: 不提供处理后的视频数据下载
引用
bibtex @misc{chi2024mmtrailmultimodaltrailervideo, title={MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions}, author={Xiaowei Chi and Yatian Wang and Aosong Cheng and Pengjun Fang and Zeyue Tian and Yingqing He and Zhaoyang Liu and Xingqun Qi and Jiahao Pan and Rongyu Zhang and Mengfei Li and Ruibin Yuan and Yanbing Jiang and Wei Xue and Wenhan Luo and Qifeng Chen and Shanghang Zhang and Qifeng Liu and Yike Guo}, year={2024}, eprint={2407.20962}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2407.20962}, }
相关链接
- 论文: https://arxiv.org/abs/2407.20962
- 项目页: https://mattie-e.github.io/MMTrail/
- GitHub: https://github.com/litwellchi/MMTrail

中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
TM-Senti
TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。
arXiv 收录
WideIRSTD Dataset
WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。
github 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录