MM-IMDB 公开数据集
收藏国家基础学科公共科学数据中心2026-01-30 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=67d51189195d260905af9ff3&type=1
下载链接
链接失效反馈官方服务:
资源简介:
MM-IMDB Datasets是基于IMDb核心资源扩展形成的多模态电影领域数据集,旨在整合文本、图像和结构化元数据等多维度信息,支持跨模态人工智能研究与应用。数据集的资源来源包括IMDb公开的电影元数据(如标题、导演、演员、评分、用户评论等),以及通过爬虫技术或API获取的视觉数据,如电影海报、剧照和预告片关键帧,可能还会整合第三方资源库(如TMDB)。在多智能体系统研究中,MM-IMDB数据集为多重知识融合的超图表示提供了丰富的数据支持。通过将文本、图像以及结构化信息整合到一个统一的表示框架中,可以在超图结构中捕捉到电影元素之间复杂的关系。每一部电影不仅是单一数据源的集合,而是多个智能体(如导演、演员、用户评论、视觉资源等)的交互结果,这为构建复杂的电影推荐系统、情感分析、以及跨模态检索任务提供了更加精准的多层次表达方式。这种超图表示能够有效地融合不同模态的知识,提升模型在多智能体环境下的推理能力和泛化能力。在本项目中,数据的采集采用自动化工具抓取IMDb的结构化数据,并通过图像爬虫获取视觉资源,标注则通过人工或半自动化的方式对文本和图像的关联进行标注,并通过众包平台验证数据的一致性。数据清洗后,按分辨率分级存储,存储总容量大约为200GB到1TB。该数据集的核心内容包括1万多条电影描述、10万多条用户评论、高清海报(5万+)、剧照(50万+)和视频关键帧,以及电影的导演、演员、票房、奖项等结构化信息。MM-IMDB涵盖超过5万部电影,时间跨度从经典电影至2024年新片,支持多年代和多文化背景分析。
提供机构:
山西大学



