five

Koala-36M|视频生成数据集|数据集数据集

收藏
arXiv2024-10-11 更新2024-10-16 收录
视频生成
数据集
下载链接:
https://koala36m.github.io/
下载链接
链接失效反馈
资源简介:
Koala-36M是由快手科技创建的大规模高质量视频数据集,旨在提升视频生成模型的一致性。该数据集包含3600万条视频,平均每条视频时长为13.75秒,分辨率为720p,每条视频配有平均202字的详细描述。数据集的创建过程包括精确的时间分割、详细的字幕生成和高质量视频过滤。Koala-36M主要应用于视频生成领域,旨在通过提高文本与视频内容的一致性来优化生成模型的性能。
提供机构:
快手科技
创建时间:
2024-10-11
AI搜集汇总
数据集介绍
main_image_url
构建方式
Koala-36M数据集的构建过程着重于提升视频内容与细粒度条件之间的一致性。首先,通过采用基于概率分布的线性分类器来增强过渡检测的准确性,确保视频片段的时间一致性。随后,为分割后的视频片段生成结构化的详细字幕,平均长度达到200字,以增强文本与视频的对齐。此外,开发了视频训练适宜性评分(VTSS),综合多个子指标来筛选高质量视频。最后,将多个数据指标纳入生成模型的训练过程中,进一步细化细粒度条件,从而提升生成模型的性能和可控性。
特点
Koala-36M数据集的主要特点在于其大规模、高质量的视频内容和详细的字幕描述。该数据集包含3600万个视频片段,平均时长为13.75秒,分辨率为720p,每个视频片段配有平均202字的详细描述。通过精确的时间分割、详细的字幕和高质量的视频筛选,Koala-36M显著提升了视频生成模型的训练数据质量。此外,数据集还引入了视频训练适宜性评分(VTSS),用于筛选高质量视频,确保数据集的整体质量。
使用方法
Koala-36M数据集适用于训练视频生成模型,特别是那些需要高一致性和细粒度控制的模型。研究人员可以使用该数据集来训练和验证视频生成算法,通过其详细的字幕和高质量的视频内容,提升模型的生成效果。此外,数据集中的视频训练适宜性评分(VTSS)可以作为筛选高质量数据的依据,帮助模型在训练过程中更好地学习视频与文本之间的关系。通过将多个数据指标纳入生成模型的训练过程,Koala-36M还支持在推理阶段对生成视频进行细粒度控制,从而生成更高质量的视频内容。
背景与挑战
背景概述
随着视觉生成技术的不断进步,视频数据集的规模迅速扩大,这些数据集的质量对视频生成模型的性能至关重要。Koala-36M数据集由Kuaishou Technology、Shenzhen University和Tsinghua University的研究人员共同创建,旨在通过精确的时间分割、详细的字幕和高质量的视频过滤来提升数据集的质量。该数据集的核心在于提高细粒度条件与视频内容之间的一致性,通过线性分类器增强过渡检测的准确性,并生成平均长度为200字的结构化字幕,以改善文本与视频的对齐。此外,Koala-36M还开发了视频训练适用性评分(VTSS),通过整合多个子指标来过滤高质量视频,从而进一步提升生成模型的性能。
当前挑战
Koala-36M数据集面临的挑战主要包括:首先,文本与视频语义的对齐问题,视频生成需要与视觉内容直接相关的详细字幕,而原始视频数据中的复杂过渡增加了确保字幕准确性的难度。其次,低质量数据的有效评估和过滤问题,现有方法依赖于手动选择的质量指标和基于启发式的阈值过滤,这些方法可能不适用于视频生成任务。最后,即使经过数据过滤,数据集中的视频质量仍存在差异,这可能导致模型在训练过程中产生模糊性,影响其学习效果。为了应对这些挑战,Koala-36M通过改进数据处理流程,包括更精确的视频分割、结构化字幕系统和数据过滤方法,来提升数据集的质量和一致性。
常用场景
经典使用场景
在视频生成技术不断进步的背景下,Koala-36M数据集通过提供大规模、高质量的视频数据,显著提升了视频生成模型的性能。其核心在于通过精确的时间分割、详细的字幕和高质量的视频过滤,增强了细粒度条件与视频内容之间的一致性。具体而言,Koala-36M利用线性分类器在概率分布上增强过渡检测的准确性,确保更好的时间一致性,并生成平均长度为200字的结构化字幕,以提升文本与视频的对齐效果。此外,通过集成多个子指标的视频训练适宜性评分(VTSS),Koala-36M能够从原始语料库中筛选出高质量的视频。
解决学术问题
Koala-36M数据集解决了视频生成领域中常见的学术研究问题,特别是在文本与视频语义对齐、低质量数据的有效评估与过滤以及数据异质性带来的模型学习困难等方面。通过提供精确的时间分割和详细的字幕,Koala-36M确保了文本与视频内容之间的高度一致性,从而减少了生成视频中的语义不一致问题。此外,通过引入视频训练适宜性评分(VTSS),Koala-36M有效地过滤了低质量数据,避免了这些数据对模型训练的负面影响,提升了模型的整体性能和可控性。
衍生相关工作
Koala-36M数据集的推出催生了多项相关研究工作,特别是在视频生成模型的改进和优化方面。许多研究者基于Koala-36M的高质量数据和精细处理方法,进一步探索了视频生成模型的性能提升和应用扩展。例如,有研究通过引入Koala-36M的结构化字幕系统,改进了文本与视频的对齐效果;还有研究利用Koala-36M的视频训练适宜性评分(VTSS),开发了新的数据过滤和质量评估方法。这些衍生工作不仅提升了视频生成模型的性能,还推动了整个领域的技术进步。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

World Flights

该数据集包含使用OpenSky Network实时API收集的两小时飞行数据。飞行颜色基于出发国家,记录了18000次飞行,由于缺乏卫星覆盖,海洋上的航线不完整。每条航线还加入了来自airlinecodes.co.uk的航空公司信息。

github 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

glaive-function-calling-openai

该数据集包含用于训练和评估语言模型在函数调用能力上的对话示例。数据集包括一个完整的函数调用示例集合和一个精选的子集,专注于最常用的函数。数据集的结构包括一个完整的数据集和几个测试子集。每个记录都是一个JSON对象,包含对话消息、可用函数定义和实际的函数调用。数据集还包括最常用的函数分布信息,并提供了加载和评估数据集的示例代码。

huggingface 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录