five

AI Training Dataset: Video Understanding & Annotation

收藏
Snowflake2026-05-14 更新2026-05-16 收录
下载链接:
https://app.snowflake.com/marketplace/listing/GZTSZOQAUQLE
下载链接
链接失效反馈
官方服务:
资源简介:
Qortex provides one of the largest commercially available multi-signal video annotation datasets, covering online videos with millions of structured annotations across 11 analysis types. <p><br/></p> This dataset is designed for ML teams training video understanding models, NLP researchers building multi-modal systems, and AI companies fine-tuning foundation models on rich, diverse video content signals. <p><br/></p> Included annotation types: - Full-text transcripts with language detection - Timestamped captions (transcript segments with start/end times) - Video summarization (summaries of transcript content) - Content overview (inferred title, genre, theme, tone, language, content type) - Semantic keyword extraction with entity types and aliases - Brand safety risk scores (11 categories, 0-5 scale with reasoning) - Brand suitability assessment (GARM categories) - Sentiment analysis (overall + per-entity sentiment/tone/excitement/controversy) <p><br/></p> This dataset enables: - Fine-tuning video understanding and multi-modal AI models - Training NER (named entity recognition), summarization, and classification models on video content - Building content moderation and brand safety classifiers - Research in multi-modal learning (text + video signals) - Developing contextual advertising AI systems - Benchmarking video annotation quality
提供机构:
Qortex
创建时间:
2026-05-08
原始信息汇总

数据集概述:AI Training Dataset: Video Understanding & Annotation

该数据集由 Qortex 提供,是当前商业上可用的最大规模多信号视频标注数据集之一,涵盖在线视频,包含数百万条结构化标注,跨越 11 种分析类型。

核心用途

  • 训练和微调视频理解模型及多模态 AI 模型
  • 训练视频内容上的命名实体识别(NER)、摘要生成和分类模型
  • 构建内容审核和品牌安全分类器
  • 多模态学习(文本 + 视频信号)研究
  • 开发情境化广告 AI 系统
  • 基准测试视频标注质量

包含的标注类型

标注类型 说明
全文转录文本 包含语言检测
带时间戳的标题 转录文本片段,含开始/结束时间
视频摘要 对转录内容的摘要
内容概览 推断的标题、类型、主题、语气、语言、内容类型
语义关键词提取 包含实体类型和别名
品牌安全风险评分 11 个类别,0-5 级评分,附推理说明
品牌适宜性评估 GARM 类别
情感分析 整体情感 + 每个实体的情感/语气/兴奋度/争议度

数据集结构

数据集包含以下表(来自 Data dictionary):

  • VIDEO_AI_ANNOTATIONS:核心标注表
  • VIDEO_CONTENT_OVERVIEW:内容概览表
  • VIDEO_TRANSCRIPTS:转录文本表
  • VIDEO_SUMMARIES:摘要表
  • VIDEO_CAPTIONS:带时间戳的标题表

适用业务场景

  • 机器学习:使用结构化标注训练视频理解模型
  • 情感分析:利用预标注情感数据构建自定义情感分类器
  • 市场分析:通过结构化元数据分析内容趋势
  • AI 训练数据:为多模态 AI 模型提供训练数据
  • 内容理解:训练内容分类和推荐系统
  • 视频分析:提供全面的视频级分析

其他信息

  • 刷新频率:每日(Daily)
  • 交付方式:Secure share
  • 试用:提供有限功能试用,可免费访问示例视频及完整标注
  • 定价:需联系获取(“Get Unlock New Insights”)
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作