data-mv

Hugging Face2026-06-30 更新2026-07-01 收录

下载链接：

https://huggingface.co/datasets/invokeaibase/data-mv

下载链接

链接失效反馈

官方服务：

资源简介：

Data-MV数据集是一个日本成人视频（AV）电影的数据集，按电影代码进行组织。数据集包含视频文件（.mp4）、完整的元数据文件（metadata.json）以及可搜索的表格文件（movies.csv）。元数据涵盖标题、女演员、类型、发行日期等信息。该数据集适用于视频内容分析、元数据检索、信息提取等任务，尤其适合针对日本AV领域的研究或应用。数据规模为101部电影，其中70部已附有元数据，女演员包括Maria Himesaki、Oda Mako等。数据集支持通过多种方式搜索，如直接浏览CSV文件、编程查询元数据或使用Hugging Face平台的内置查看器。数据集语言为日语和英语，采用Apache 2.0许可证发布。

The Data-MV Dataset is a dataset of Japanese adult video (AV) movies, organized by movie codes. It includes video files (.mp4), comprehensive metadata files (metadata.json), and searchable table files (movies.csv). The metadata covers information such as titles, actresses, genres, and release dates. This dataset is suitable for tasks like video content analysis, metadata retrieval, and information extraction, particularly for research or applications in the Japanese AV domain. The dataset consists of 101 movies, with metadata provided for 70 of them, and actresses include Maria Himesaki, Oda Mako, among others. It supports multiple search methods, such as browsing CSV files directly, querying metadata programmatically, or using the built-in viewer on the Hugging Face platform. The dataset is in Japanese and English, and is released under the Apache 2.0 license.

创建时间：

2026-06-29

原始信息汇总

数据集概述：Data-MV

数据集地址：https://huggingface.co/datasets/invokeaibase/data-mv

语言：日语、英语

许可协议：Apache-2.0

标签：AV、日语、视频

内容描述：该数据集收集了日本成人影片，并按影片代码进行组织。

数据结构

视频文件：以影片唯一代码命名的 {CODE}.mp4 文件。
元数据文件：metadata.json，包含完整元数据（标题、演员、类型、发行日期等）。
可搜索表格：movies.csv，以可交互表格形式提供代码、标题、演员、发行日期等信息，可在浏览器中直接搜索。

搜索方式

方式一：直接在 Hugging Face 界面打开 movies.csv，利用交互式表格按演员、标题关键词或发行日期搜索。
方式二：下载 metadata.json 文件，通过 Python 脚本按演员或类型进行搜索。
方式三：利用 Hugging Face 数据集查看器自动索引 movies.csv，在仓库浏览器中点击文件即可查看。

数据统计

影片总数：101 部
含元数据的影片数：70 部
演员：Maria Himesaki、Oda Mako 等，另有合辑出演。

当前进度

元数据索引工作正在进行中，目前已完成 Oda Mako 影片的元数据捕获，后续将逐步更新 metadata.json 以包含更多影片信息。

搜集汇总

数据集介绍

构建方式

Data-MV数据集是一个专注于日本成人影片领域的多模态资源集合，以唯一的影片代码作为核心组织单元。每个视频文件以`{CODE}.mp4`格式命名，并辅以`metadata.json`文件存储完整的元数据信息，包括影片标题、演员阵容、类型标签及发行日期等关键字段。此外，数据集还提供`movies.csv`文件，以表格化形式呈现代码、标题、演员和发行日期，便于快速检索。当前数据集包含101部影片，其中70部已配备完整元数据，涵盖多位知名演员的作品。构建流程目前优先处理特定演员的元数据捕获，并通过持续更新机制完善剩余影片的索引信息。

使用方法

用户可通过三种主要途径利用该数据集。最简便的方式是直接浏览`movies.csv`文件，在HuggingFace的交互式表格界面中通过关键词筛选所需影片。对于编程化操作，推荐下载`metadata.json`文件：使用Python的requests库获取JSON数据后，可基于演员字段或类型字段进行条件过滤，例如提取特定演员的所有影片。此外，HuggingFace的数据集查看器自动索引了`movies.csv`，用户只需在仓库浏览器中点击文件即可访问。对于尚未完成元数据索引的影片，当前构建流程以演员Oda Mako为主进行逐步标注，并定期更新元数据文件，确保数据的持续完善。

背景与挑战

背景概述

Data-MV数据集由invokeaibase团队创建，专注于收集日本成人视频（AV）电影，以影片代码为唯一标识进行组织。该数据集旨在为视频内容检索与元数据分析提供标准化资源，涵盖标题、演员、类型、发行日期等核心信息。自发布以来，Data-MV因其结构化的元数据格式和易于搜索的特性，在成人内容研究领域内逐步积累影响力，尤其为计算机视觉与视频理解领域的多模态分析任务提供了基础素材。尽管数据集规模有限（含101部视频，其中70部附带完整元数据），但其通过CSV表格和JSON文件实现的便捷访问方式，显著降低了研究者在跨语言（日英）环境下对特定演员或主题影片的检索门槛，推动了小众领域数据共享的实践。

当前挑战

Data-MV数据集面临多重挑战。首先，其核心解决领域问题为视频元数据标准化与高效检索，但当前仅覆盖70部影片的完整元数据，剩余31部需持续处理，暴露出数据构建过程中标注流程不完善、机械开销大的难题。其次，数据集依赖手动或半自动化管道捕获元数据（如针对演员Oda Mako影片的专用索引），导致演员与类型信息的覆盖范围受限，难以满足大规模跨类别分析需求。此外，成人内容领域天然存在伦理与版权敏感性，数据集虽采用Apache-2.0许可，但仍需在开放可用性与隐私合规之间寻求平衡，元数据中演员信息的精确性也依赖外部验证，存在数据完整性和时效性维护的长期挑战。

常用场景

经典使用场景

在多媒体内容分析与检索领域，data-mv数据集为日本成人视频的研究提供了结构化的素材基础。该数据集以影片代码为索引，整合了MP4视频文件与详尽的元数据（涵盖标题、女演员、类型、发行日期等），并辅以可交互的CSV表格，便于研究者按女演员姓名或标题关键词进行检索。其典型应用场景包括视频内容分类、女演员识别模型的训练与评估，以及基于元数据的多模态信息检索系统的开发。

解决学术问题

该数据集显著缓解了日本成人视频领域标注数据稀缺的困境，为计算传播学与视觉内容分析中的隐私保护、内容审核及伦理研究提供了标准化的测试基准。通过整合元数据与视频内容，它解决了传统数据集缺乏结构化信息（如女演员多标签映射、类型分层标注）的问题，从而推动了面向特定文化语境的受控内容理解与过滤算法的学术探索。

实际应用

在实际工业场景中，data-mv可服务于内容分发平台的自动化标签生成与智能推荐系统，例如通过影片代码快速调取元数据以实现精准分类。此外，它能够辅助版权管理工具进行盗版识别，因为其独特的编码结构便于追踪非法传播副本。在安全领域，该数据集还可用于训练限制级内容检测器，以提升网络环境的合规过滤能力。

数据集最近研究