流媒体公司数据集

github2024-08-21 更新2024-08-23 收录

下载链接：

https://github.com/PhDSchrodinger/DFT_24-Proyecto-Indv-Henrry-

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集用于分析流媒体公司的电影数据，包括电影的详细信息如上映日期、预算、收入等，并进行了数据清洗和转换以供机器学习模型使用。

This dataset is intended for the analysis of movie data from streaming media companies. It includes comprehensive movie details such as release date, budget, revenue and other relevant metrics, and has been processed with data cleaning and transformation to support machine learning model applications.

创建时间：

2024-08-21

原始信息汇总

Proyecto Individual Nº1: Machine Learning Operations (MLOps)

Introducción

Este proyecto se enfoca en el desarrollo de un sistema de recomendación para un servicio de streaming, abarcando desde el tratamiento y recolección de datos hasta el entrenamiento y despliegue del modelo.

Contexto

El proyecto se desarrolla en una start-up que provee servicios de agregación de plataformas de streaming. El objetivo es crear un sistema de recomendación que funcione bien y esté listo para ser desplegado en un entorno de producción.

Problemas a Resolver

Datos desordenados: Los datos están anidados y requieren transformación.
Falta de madurez en los datos: Existen valores nulos y formatos inconsistentes.
Creación de un MVP: Se debe entregar un Producto Mínimo Viable (MVP) en un corto plazo.

Propuesta de Trabajo

1. Transformaciones de Datos

Desanidamiento de datos: Columnas como belongs_to_collection y production_companies fueron desanidadas.
Manejo de valores nulos: Valores nulos en revenue y budget fueron reemplazados por 0. Valores nulos en release_date fueron eliminados.
Formato de fechas: Las fechas en release_date fueron convertidas al formato AAAA-mm-dd, y se creó una nueva columna release_year.
Retorno de inversión: Se añadió una columna return que calcula el retorno de inversión.
Eliminación de columnas innecesarias: Se eliminaron columnas como video, imdb_id, adult, original_title, poster_path, y homepage.

2. Desarrollo de la API

La API fue desarrollada utilizando FastAPI y cuenta con los siguientes endpoints:

/cantidad_filmaciones_mes/{mes}: Devuelve la cantidad de películas estrenadas en un mes dado.
/cantidad_filmaciones_dia/{dia}: Devuelve la cantidad de películas estrenadas en un día específico.
/score_titulo/{titulo}: Devuelve el título, año de estreno y el score de la película solicitada.
/votos_titulo/{titulo}: Devuelve el título, cantidad de votos y el promedio de votaciones para una película.
/get_actor/{nombre_actor}: Devuelve el éxito de un actor medido a través del retorno, cantidad de películas y el promedio de retorno.
/get_director/{nombre_director}: Devuelve el éxito de un director, el nombre de cada película, la fecha de lanzamiento, el retorno individual, costo y ganancia de la misma.

3. Despliegue

La API fue desplegada utilizando Render (o la plataforma elegida), permitiendo que sea accesible desde la web para su consumo.

4. Análisis Exploratorio de Datos (EDA)

Se realizó un análisis exploratorio de los datos para investigar relaciones entre las variables, detectar outliers y patrones interesantes.

5. Sistema de Recomendación

Se desarrolló un sistema de recomendación que, dado el título de una película, devuelve una lista de 5 películas similares basadas en la similitud de puntuación.

/recomendacion/{titulo}: Devuelve una lista de 5 películas similares al título ingresado.

6. Video Demostrativo

Se creó un video demostrativo de menos de 7 minutos que muestra el funcionamiento de las consultas requeridas en la API y una breve explicación del modelo de Machine Learning utilizado para el sistema de recomendación.

Estructura del Proyecto

/project │ ├── /data/ # Contiene los datasets originales │ ├── movies_dataset.csv │ └── credits.csv │ ├── /notebooks/ # Notebooks para limpieza de datos y EDA │ ├── data_cleaning.ipynb │ └── eda.ipynb │ ├── /app/ # Código de la API │ ├── main.py │ ├── models.py │ └── requirements.txt │ ├── /models/ # Modelos entrenados │ └── recommendation_model.pkl │ ├── README.md # Este archivo ├── video_demo.mp4 # Video demostrativo del proyecto └── .gitignore # Archivos y directorios a ignorar por Git

Requisitos

Python 3.x
FastAPI
pandas
scikit-learn

Instrucciones para Ejecutar

Tener repositorio listo para el Render
Instala las dependencias con pip install -r requirements.txt.
Ejecuta la API con el comando uvicorn app.main:app --reload.
Accede a http://127.0.0.1:8000 para probar los endpoints.

搜集汇总

数据集介绍

构建方式

在构建流媒体公司数据集时，首先进行了数据的去嵌套处理，特别是对`belongs_to_collection`和`production_companies`等列进行了展开，以简化数据的使用。随后，针对`revenue`和`budget`列中的缺失值，采用了填充为0的处理方式，同时删除了`release_date`列中的缺失值。此外，数据集中的日期格式被统一为`AAAA-mm-dd`，并新增了`release_year`列以提取发布年份。为了计算投资回报率，新增了`return`列，并删除了不必要的列如`video`, `imdb_id`, `adult`, `original_title`, `poster_path`, 和 `homepage`。

特点

流媒体公司数据集的特点在于其经过精细处理的数据结构和丰富的计算列。数据集不仅解决了原始数据中的嵌套问题和缺失值，还通过新增的`return`列提供了投资回报率的计算，增强了数据的经济分析价值。此外，通过删除不必要的列，数据集的简洁性得以提升，便于后续的模型训练和分析。

使用方法

使用流媒体公司数据集时，用户可以通过FastAPI框架访问预设的API端点，如`/cantidad_filmaciones_mes/{mes}`和`/cantidad_filmaciones_dia/{dia}`，以获取特定月份或日期的电影发布数量。此外，`/score_titulo/{titulo}`和`/votos_titulo/{titulo}`端点允许用户查询特定电影的评分和投票信息。对于演员和导演的分析，`/get_actor/{nombre_actor}`和`/get_director/{nombre_director}`提供了详细的参与电影和投资回报数据。最后，通过`/recomendacion/{titulo}`端点，用户可以获取基于电影标题的推荐列表。

背景与挑战

背景概述

流媒体公司数据集是由一家专注于流媒体平台聚合服务的初创公司创建的，旨在支持其机器学习操作（MLOps）项目。该项目由一位MLOps工程师主导，目标是为流媒体服务开发一个不仅性能优越，而且能够直接部署到生产环境中的推荐系统。数据集的创建时间未明确提及，但其核心研究问题在于如何从原始且未经处理的数据中构建一个有效的推荐系统，这对于提升用户体验和平台竞争力具有重要意义。该数据集的开发不仅推动了流媒体领域的技术进步，也为其他类似服务提供了宝贵的数据处理和模型构建经验。

当前挑战

流媒体公司数据集在构建过程中面临多项挑战。首先，数据集中的数据存在严重的结构问题，如数据嵌套、未转换和缺乏自动化更新机制，这要求对数据进行复杂的预处理。其次，数据质量问题突出，包括大量缺失值和格式不一致，这增加了数据清洗和标准化处理的难度。此外，项目时间紧迫，需要在短时间内交付一个最小可行产品（MVP），这对数据科学家和工程师的快速响应能力提出了高要求。最后，构建一个能够实时更新并适应新数据的推荐系统，也是该项目面临的技术挑战之一。

常用场景

经典使用场景

在流媒体公司数据集中，经典的使用场景主要围绕构建和优化推荐系统。通过分析用户的历史观看行为和偏好，数据集能够提供丰富的电影元数据，包括评分、预算、收益等，从而帮助算法识别并推荐用户可能感兴趣的电影。此外，数据集还支持基于内容的推荐，通过比较电影的特征（如导演、演员、类型等）来发现相似的电影，进一步提升用户体验。

实际应用

在实际应用中，流媒体公司数据集被广泛用于开发和优化流媒体平台的推荐系统。通过分析用户的观看历史和偏好，平台能够提供个性化的电影推荐，从而提高用户满意度和留存率。此外，数据集还支持市场分析和内容策划，帮助平台了解电影的流行趋势和用户喜好，优化内容库的结构和更新策略。

衍生相关工作

基于流媒体公司数据集，衍生了许多经典的工作，特别是在推荐系统和数据分析领域。例如，研究人员开发了多种推荐算法，如基于内容的推荐、协同过滤和混合推荐系统，这些算法在学术界和工业界都得到了广泛应用。此外，数据集还支持了多个数据分析项目，包括电影市场的趋势分析、用户行为研究等，为相关领域的研究提供了丰富的数据支持。

以上内容由遇见数据集搜集并总结生成