Netflix影视内容数据集|流媒体内容分析数据集|影视数据数据集
收藏数据集概述
数据集名称
- NETFLIX_DATA_EXPLORATION
数据集内容
- 包含Netflix上的电影和电视节目详细信息。
- 主要信息包括:
- show_id: 唯一标识符。
- type: 类型(电影/电视节目)。
- title: 标题。
- director: 导演。
- cast: 主要演员。
- country: 制作国家。
- date_added: 添加到Netflix的日期。
- release_year: 原始发布年份。
- rating: 内容评级。
- duration: 时长。
- listed_in: 分类或流派。
- description: 简短描述。
数据集目的
- 分析内容多样性。
- 追踪年度电影发布。
- 比较电视节目和电影以识别平台主导。
- 确定电视节目的最佳发布时间。
- 审查不同内容类型的演员和导演。
- 探究Netflix在电视节目和电影之间的关注转移。
- 揭示不同国家的内容变化。
数据集处理流程
- 导入库和加载数据集
- 基本数据探索
- 特征探索
- 摘要统计
- 数据清洗
- 空值分析
- 检查重复值
- 处理不一致或错误数据
- 探索性数据分析 (EDA)
- 内容类型分析
- 时间分析
- 按国家的内容数量分析
- 评级分析
- 时长分析
- 从内容描述中生成词云
此数据集旨在通过详细的数据分析,为Netflix的内容决策和全球扩张提供数据驱动的洞察。

AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
ImageNet-1K(ILSVRC2012)
ImageNet-1K(ILSVRC2012)是一个大规模的图像分类数据集,包含1000个类别的图像,用于训练和验证图像分类模型。
github 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
Houston2013, Berlin, Augsburg
本研究发布了三个多模态遥感基准数据集:Houston2013(高光谱和多光谱数据)、Berlin(高光谱和合成孔径雷达数据)和Augsburg(高光谱、合成孔径雷达和数字表面模型数据)。这些数据集用于土地覆盖分类,旨在通过共享和特定特征学习模型(S2FL)评估多模态基线。数据集包含不同模态和分辨率的图像,适用于评估和开发新的遥感图像处理技术。
arXiv 收录
CMNEE(Chinese Military News Event Extraction dataset)
CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。
github 收录