Indian Regional Movie Dataset

Name: Indian Regional Movie Dataset
Creator: 印度理工学院德里分校
Published: 2018-01-08 00:02:35
License: 暂无描述

arXiv2018-01-08 更新2024-06-21 收录

下载链接：

https://goo.gl/EmTPv6

下载链接

链接失效反馈

官方服务：

资源简介：

Indian Regional Movie Dataset是首个针对印度地区电影的数据库，包含18种不同印度地区语言的电影、用户及其评分。数据集由印度理工学院德里分校创建，旨在捕捉印度地区电影的多样性和庞大的观众群体。该数据集包含约10,000条评分，涉及919名用户和2,851部电影。数据集的创建过程涉及从IMDb等来源收集电影元数据，并通过网络门户Flickscore收集用户信息和评分。该数据集主要用于设计和测试针对印度观众的推荐系统，解决印度地区电影推荐系统的缺失问题。

The Indian Regional Movie Dataset is the first dedicated database focused on Indian regional films, covering films, users and their corresponding ratings across 18 distinct Indian regional languages. Developed by the Indian Institute of Technology Delhi, this dataset aims to capture the diversity and extensive audience base of Indian regional films. It comprises approximately 10,000 ratings, involving 919 unique users and 2,851 films. The dataset was compiled by collecting film metadata from sources such as IMDb, and gathering user information and ratings via the web portal Flickscore. It is primarily intended for designing and testing recommendation systems tailored for Indian audiences, addressing the gap in existing dedicated recommendation systems for Indian regional films.

提供机构：

印度理工学院德里分校

创建时间：

2018-01-08

搜集汇总

数据集介绍

构建方式

Indian Regional Movie Dataset的构建依托于一个名为Flickscore的专用网络门户，用户通过注册并填写年龄、性别、职业、家乡及掌握语言等人口统计信息完成注册。随后，系统引导用户对其偏好的区域电影进行二元评分（喜欢或 dislike，分别记为1和-1）。电影数据则从IMDb爬取，涵盖18种印度地方语言、多种类型、上映年份及演职人员等元数据。最终，该数据集汇集了919位用户对2851部电影的约10,000条评分记录。

特点

该数据集的核心特色在于其鲜明的区域性与多样性，覆盖了18种印度地方语言，弥补了现有推荐系统数据集（如MovieLens）对印度区域电影关注的缺失。与MovieLens不同，本数据集不限制用户的最低评分数量，从而降低了采样偏差，更真实地反映了广泛观众群体的偏好。此外，数据采用二元评分机制简化了用户交互，并包含了丰富的用户人口统计与电影元数据，为缓解冷启动问题提供了宝贵的信息支撑。

使用方法

该数据集适用于设计和评估面向印度观众及区域电影的推荐系统。研究者可利用其包含的用户与电影元数据，应用监督式或非监督式协同过滤技术（如概率矩阵分解、盲压缩感知、监督矩阵分解等）进行模型训练与评测。数据以用户ID、电影ID及二元评分的形式提供，便于直接集成到常见的推荐系统框架中。通过与MovieLens数据集进行对比实验，该数据集为验证算法在高度稀疏及多元文化场景下的表现提供了独特基准。

背景与挑战

背景概述

推荐系统作为个性化信息过滤的核心技术，在电影、电商等领域具有广泛应用，其性能高度依赖于高质量的用户-物品交互数据集。然而，现有主流数据集如MovieLens和Netflix主要聚焦于好莱坞电影及英语用户群体，忽视了印度这一全球最大电影生产国所蕴含的丰富区域语言电影市场。为填补这一空白，Prerna Agarwal、Richa Verma和Angshul Majumdar等来自IIIT Delhi的研究人员于2017年创建了Indian Regional Movie Dataset。该数据集通过自建门户Flickscore收集了919名用户对2851部涵盖18种印度区域语言的电影的约1万条二元评分，并包含用户年龄、职业、家乡、语言等人口统计学元数据。作为首个面向印度区域电影的推荐系统基准数据集，它为探索多语言、多文化背景下的个性化推荐算法提供了独特资源，推动了推荐系统在印度这一庞大且多样化市场中的研究与应用。

当前挑战

该数据集面临的核心挑战源于印度区域电影生态的高度复杂性。首先，数据稀疏性极为严重（99.96%），远高于同规模数据集，使得传统协同过滤算法难以捕捉用户偏好。其次，语言与地域多样性导致冷启动问题突出——新用户或新电影缺乏历史交互，而用户元数据（如语言能力、居住地）虽可辅助预测，但如何有效融合这些异构信息仍是一大难题。此外，数据集仅包含二元评分（喜欢/不喜欢），丢失了用户偏好的细粒度差异，限制了模型对情感强度的建模能力。在构建过程中，研究人员需从IMDb爬取多语言电影元数据并手动清洗，同时设计门户吸引来自印度各邦的多样用户群体，以平衡地理与语言分布。这些挑战共同促使该数据集成为检验推荐系统在极端稀疏、多模态环境下的鲁棒性与泛化能力的理想测试平台。

常用场景

经典使用场景

Indian Regional Movie Dataset 最经典的使用场景是作为基准数据集，用于设计和评估面向印度本土观众及区域电影的推荐系统。研究人员可利用该数据集中涵盖18种印度区域语言的2851部电影、919位用户的约10,000条评分，以及丰富的用户人口统计元数据（如年龄、职业、母语、居住邦）和电影属性（如语言、类型、上映年份、演员阵容），来训练和测试协同过滤、矩阵分解等推荐算法。该数据集填补了现有主流数据集（如MovieLens、Netflix）缺乏印度区域电影覆盖的空白，为构建能捕捉印度多元文化与语言偏好的个性化推荐引擎提供了关键数据支撑。

衍生相关工作

该数据集衍生了一系列关于多元文化推荐系统的经典工作，包括基于监督矩阵分解的冷启动解决方案，以及采用盲压缩感知技术处理高稀疏评分矩阵的研究。后续工作进一步将用户元数据（如已知语言、家乡邦）与电影元数据（如语言、类型）融合到深度学习框架中，例如利用变分自编码器或图神经网络捕捉区域电影间的语言与地域关联。部分工作还基于该数据集对比了概率矩阵分解与矩阵补全在印度语境下的表现，验证了元数据增强方法在提升推荐准确性方面的有效性。这些衍生研究共同推动了从单一文化到多元文化推荐系统范式的演进。

数据集最近研究