AI Training Dataset: Video Understanding & Annotation
收藏Snowflake2026-05-14 更新2026-05-16 收录
下载链接:
https://app.snowflake.com/marketplace/listing/GZTSZOQAUQLE
下载链接
链接失效反馈官方服务:
资源简介:
Qortex provides one of the largest commercially available multi-signal video annotation datasets, covering online videos with millions of structured annotations across 11 analysis types.
<p><br/></p>
This dataset is designed for ML teams training video understanding models, NLP researchers building multi-modal systems, and AI companies fine-tuning foundation models on rich, diverse video content signals.
<p><br/></p>
Included annotation types:
- Full-text transcripts with language detection
- Timestamped captions (transcript segments with start/end times)
- Video summarization (summaries of transcript content)
- Content overview (inferred title, genre, theme, tone, language, content type)
- Semantic keyword extraction with entity types and aliases
- Brand safety risk scores (11 categories, 0-5 scale with reasoning)
- Brand suitability assessment (GARM categories)
- Sentiment analysis (overall + per-entity sentiment/tone/excitement/controversy)
<p><br/></p>
This dataset enables:
- Fine-tuning video understanding and multi-modal AI models
- Training NER (named entity recognition), summarization, and classification models on video content
- Building content moderation and brand safety classifiers
- Research in multi-modal learning (text + video signals)
- Developing contextual advertising AI systems
- Benchmarking video annotation quality
提供机构:
Qortex
创建时间:
2026-05-08
原始信息汇总
数据集概述:AI Training Dataset: Video Understanding & Annotation
该数据集由 Qortex 提供,是当前商业上可用的最大规模多信号视频标注数据集之一,涵盖在线视频,包含数百万条结构化标注,跨越 11 种分析类型。
核心用途
- 训练和微调视频理解模型及多模态 AI 模型
- 训练视频内容上的命名实体识别(NER)、摘要生成和分类模型
- 构建内容审核和品牌安全分类器
- 多模态学习(文本 + 视频信号)研究
- 开发情境化广告 AI 系统
- 基准测试视频标注质量
包含的标注类型
| 标注类型 | 说明 |
|---|---|
| 全文转录文本 | 包含语言检测 |
| 带时间戳的标题 | 转录文本片段,含开始/结束时间 |
| 视频摘要 | 对转录内容的摘要 |
| 内容概览 | 推断的标题、类型、主题、语气、语言、内容类型 |
| 语义关键词提取 | 包含实体类型和别名 |
| 品牌安全风险评分 | 11 个类别,0-5 级评分,附推理说明 |
| 品牌适宜性评估 | GARM 类别 |
| 情感分析 | 整体情感 + 每个实体的情感/语气/兴奋度/争议度 |
数据集结构
数据集包含以下表(来自 Data dictionary):
- VIDEO_AI_ANNOTATIONS:核心标注表
- VIDEO_CONTENT_OVERVIEW:内容概览表
- VIDEO_TRANSCRIPTS:转录文本表
- VIDEO_SUMMARIES:摘要表
- VIDEO_CAPTIONS:带时间戳的标题表
适用业务场景
- 机器学习:使用结构化标注训练视频理解模型
- 情感分析:利用预标注情感数据构建自定义情感分类器
- 市场分析:通过结构化元数据分析内容趋势
- AI 训练数据:为多模态 AI 模型提供训练数据
- 内容理解:训练内容分类和推荐系统
- 视频分析:提供全面的视频级分析
其他信息
- 刷新频率:每日(Daily)
- 交付方式:Secure share
- 试用:提供有限功能试用,可免费访问示例视频及完整标注
- 定价:需联系获取(“Get Unlock New Insights”)



