five

Text-to-Video Quality Assessment DataBase (T2VQA-DB)|文本到视频质量评估数据集|视频质量分析数据集

收藏
arXiv2024-05-18 更新2024-06-21 收录
文本到视频质量评估
视频质量分析
下载链接:
https://github.com/QMME/T2VQA
下载链接
链接失效反馈
资源简介:
T2VQA-DB是由上海交通大学创建的大规模数据集,包含10000个由9种不同文本到视频(T2V)模型生成的视频,每个视频都配有主观评分。数据集通过27名受试者的主观实验收集了每个视频的平均意见分数(MOS),旨在解决现有视频质量评估模型无法准确量化文本生成视频质量的问题。T2VQA-DB不仅用于训练和测试后续模型,还支持提出了一种基于Transformer的新模型T2VQA,该模型从文本-视频对齐和视频保真度两个角度提取特征,并利用大型语言模型进行质量预测,有效提升了文本生成视频质量评估的准确性。
提供机构:
上海交通大学
创建时间:
2024-03-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
T2VQA-DB数据集通过整合9种不同的文本到视频生成模型,生成了10,000个视频,每个视频对应一个文本提示。这些提示涵盖了广泛的类别,包括自然、人类、动物、抽象等,确保了数据集的多样性。为了评估视频质量,研究团队邀请了27名参与者进行主观评分,生成每个视频的平均意见分数(MOS)。通过这种方式,T2VQA-DB不仅提供了大规模的文本到视频生成数据,还通过主观实验确保了数据集的质量评估具有较高的可靠性。
使用方法
T2VQA-DB数据集可用于训练和测试文本到视频质量评估模型。研究人员可以使用该数据集来训练新的模型,或验证现有模型的性能。通过分析视频与文本的对齐度以及视频的保真度,模型可以预测视频的质量评分。此外,数据集的主观评分部分可以用于模型的校准和验证,确保模型预测结果与人类主观感知的一致性。T2VQA-DB的开放性使得研究人员能够基于该数据集开发和改进文本到视频生成和评估技术。
背景与挑战
背景概述
随着生成模型的快速发展,人工智能生成内容(AIGC)在日常生活中呈指数级增长,其中文本到视频(T2V)生成技术备受关注。尽管已有多种T2V模型能够生成高质量的视频,但目前仍缺乏一种有效的方法来量化评估这些生成视频的质量。为解决这一问题,上海交通大学的研究团队于2024年创建了迄今为止最大规模的文本到视频质量评估数据库(T2VQA-DB)。该数据集包含10,000个由9种不同T2V模型生成的视频,并附有每个视频的平均主观评分(MOS)。基于此数据集,研究团队提出了一种基于Transformer的新模型T2VQA,用于主观对齐的文本到视频质量评估。该模型从文本与视频对齐和视频保真度两个角度提取特征,并通过大型语言模型进行预测,实验结果表明T2VQA在评估生成视频质量方面表现优异。
当前挑战
T2VQA-DB的构建面临两大挑战:一是现有T2V数据集规模不足,难以全面反映当前T2V生成算法的多样性;二是缺乏足够的人类注释,导致现有评估方法无法准确反映用户的主观偏好。此外,传统的视频质量评估模型(VQA)无法有效处理T2V生成视频中的独特失真,如抖动效应和不合理的物体。现有的T2V评估指标(如IS、FVD和CLIPSim)也存在局限性,无法准确捕捉视频的时序信息和感知质量。T2VQA模型的提出旨在解决这些挑战,通过多模态特征融合和大型语言模型的回归,提供更全面的主观对齐预测。
常用场景
经典使用场景
T2VQA-DB数据集的经典应用场景主要集中在文本生成视频(Text-to-Video, T2V)的质量评估领域。该数据集通过收集10,000个由9种不同T2V模型生成的视频,并结合每个视频的平均主观评分(MOS),为研究人员提供了一个大规模的基准数据集。T2VQA-DB的核心应用在于训练和测试新的质量评估模型,特别是那些能够从文本与视频的对齐度(text-video alignment)和视频保真度(video fidelity)两个维度进行评估的模型。
解决学术问题
T2VQA-DB数据集解决了当前文本生成视频质量评估领域中的关键学术问题。首先,它填补了现有T2V数据集规模不足的空白,提供了迄今为止最大规模的T2V视频数据集。其次,通过引入主观评分(MOS),该数据集能够更准确地反映人类对生成视频质量的感知,解决了传统视频质量评估模型(如IS、FVD等)无法有效评估T2V生成视频质量的问题。T2VQA-DB的提出为开发更精确的T2V质量评估模型提供了坚实的基础,推动了该领域的研究进展。
实际应用
T2VQA-DB数据集在实际应用中具有广泛的潜力。首先,它可以用于训练和验证新的T2V生成模型,帮助开发者优化模型以生成更高质量的视频。其次,该数据集可以应用于视频生成平台的质量控制,确保用户生成的视频内容符合预期质量标准。此外,T2VQA-DB还可以用于多媒体内容推荐系统,通过评估生成视频的质量来提升用户体验。总之,T2VQA-DB为文本生成视频领域的实际应用提供了重要的技术支持。
数据集最近研究
最新研究方向
随着生成式模型技术的快速发展,文本到视频(Text-to-Video, T2V)生成领域受到了广泛关注。T2VQA-DB数据集作为当前规模最大的文本到视频质量评估数据库,涵盖了10,000个由9种不同T2V模型生成的视频,并结合了每段视频的主观评分(MOS)。该数据集的建立填补了现有T2V生成模型缺乏量化评估方法的空白。基于此,研究者提出了一种基于Transformer架构的T2VQA模型,该模型从文本与视频的对齐度及视频保真度两个维度提取特征,并通过大型语言模型(LLM)进行质量回归预测。实验结果表明,T2VQA模型在评估文本生成视频的质量方面表现优异,超越了现有的T2V评估指标和视频质量评估模型。这一研究不仅推动了T2V生成技术的进步,还为未来基于多模态数据的质量评估提供了新的思路。
相关研究论文
  • 1
    Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment上海交通大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。

arXiv 收录

Fruits-360

一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。

github 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录