MovieTection

github2025-02-26 更新2025-03-03 收录

下载链接：

https://github.com/avduarte333/DIS-CO

下载链接

链接失效反馈

官方服务：

资源简介：

MovieTection数据集是用于图像/标题基于的问题回答，模型根据帧或相应的文本描述预测电影标题。

The MovieTection dataset is designed for image and caption-based visual question answering, where models predict movie titles based on video frames or their corresponding textual descriptions.

创建时间：

2025-02-06

原始信息汇总

DIS-CO 数据集概述

数据集简介

数据集名称：DIS-CO
方法描述：DIS-CO 是一种用于推断视觉语言模型（VLMs）训练数据中是否包含版权内容的方法。通过查询模型中使用目标版权媒体的帧，并分析其自由形式的响应，DIS-CO 可以提供关于记忆化的强证据，同时适用于白盒和黑盒模型。

数据集结构

MovieTection 数据集
- 数据集包含：从 100 部电影中提取的 14,000 帧
- 分类：嫌疑电影（发布于 2023 年 9 月之前，可能包含在训练数据中），清洁电影（发布于 2023 年 9 月之后，不在模型训练数据中）
- 框架类型：主框架（关键角色）、中性框架（背景、物体或次要角色）
- 数据列：电影名称、框架类型、场景编号、镜头编号、图像文件、帧描述、标签（清洁或嫌疑）、答案（正确的电影标题变体）
MovieTection_Mini 数据集
- 数据集包含：4 部电影的子集，用于测试和实验

使用说明

安装步骤：克隆仓库、创建 conda 环境
安装依赖：通过 pip install -r requirements.txt 命令安装
运行任务：使用 run_movie_guess.py 脚本进行电影猜测任务
计算指标：使用 run_metrics.py 脚本计算模型性能指标

引用信息

论文标题：DIS-CO: Discovering Copyrighted Content in VLMs Training Data
作者：André V. Duarte, Xuandong Zhao, Arlindo L. Oliveira, Lei Li
年份：2025
论文链接：https://arxiv.org/abs/2502.17358

搜集汇总

数据集介绍

构建方式

MovieTection数据集的构建旨在针对图像/字幕基础上的问答任务，通过从100部电影中提取的14,000个帧及其对应的文本描述，构建出一个用于预测电影标题的数据集。这些电影被分类为可能在训练数据中的'Suspect movies'和不在训练数据中的'Clean movies'，每个电影包含140个帧，进一步分为主要角色出现的'Main Frames'和背景、物体或次要角色的'Neutral Frames'。

特点

MovieTection数据集的特点在于其精心设计的框架类型和详细的文本描述，这为视觉语言模型的训练提供了丰富的上下文信息。数据集的结构化列包括电影标题、帧类型、场景编号、镜头编号、图像文件、文本描述和标签，使得该数据集在检测模型是否记忆了训练数据中的版权内容方面具有独特的应用价值。

使用方法

使用MovieTection数据集首先需要安装相关依赖，然后通过指定的脚本运行电影猜测任务。用户可以根据需要调整模型名称、电影选项、帧类型等参数，并通过执行脚本进行预测。此外，还提供了计算模型性能度量的工具，以便用户可以评估模型在数据集上的表现。

背景与挑战

背景概述

MovieTection数据集，源于对视觉语言模型（VLMs）训练数据中是否存在版权内容的研究需求，由André V. Duarte、Xuandong Zhao、Arlindo L. Oliveira和Lei Li等研究人员共同开发。该数据集创建于近年来，旨在通过分析模型对特定版权媒体帧的开放式响应，推断训练数据中是否包含版权内容，其研究成果对视觉语言模型的训练数据版权问题产生了重要影响。

当前挑战

MovieTection数据集面临的挑战主要包括：1）如何准确识别并验证视觉语言模型训练数据中的版权内容，这对于确保模型使用的合规性至关重要；2）数据集构建过程中，对电影帧的抽取、分类及其对应的文本描述的生成，都需要克服技术难题，确保数据的质量和一致性；3）此外，如何高效地运行DIS-CO方法，并准确计算模型性能指标，也是当前研究的重要挑战。

常用场景

经典使用场景

在视觉语言模型的训练数据中发现是否包含版权内容的问题上，MovieTection数据集提供了一个独特的视角。该数据集通过提供电影帧及其对应的文本描述，使得模型能够预测给定帧或描述对应的电影标题，从而推断模型是否在训练过程中记住了版权内容。

解决学术问题

MovieTection数据集解决了如何检测视觉语言模型在训练过程中是否吸收了版权内容的问题，这对于保护知识产权和确保模型训练数据的合法性具有重要意义。通过该数据集，研究者能够评估模型对于版权内容的记忆能力，从而提高模型的合规性和可靠性。

衍生相关工作

MovieTection数据集的发布促进了相关领域的研究，如版权检测方法、模型记忆分析技术等。基于该数据集，研究人员已经开展了一系列工作，包括但不限于改进版权内容识别算法，以及探索新的模型训练策略以减少对版权内容的记忆。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集