ML-DDD 和 AO3 数据集

Name: ML-DDD 和 AO3 数据集
Creator: 康奈尔大学
Published: 2025-09-09 06:58:17
License: 暂无描述

arXiv2025-09-09 更新2025-09-11 收录

下载链接：

https://huggingface.co/datasets/sdeangroup/NavigatingSensitivity

下载链接

链接失效反馈

官方服务：

资源简介：

ML-DDD 数据集结合了 MovieLens 评分数据和来自 doesthedogdie.com 的内容警告，用于研究用户偏好与敏感内容之间的关系。AO3 数据集则结合了 fan-fiction 互动数据和来自 Webis Trigger Warning Corpus 的警告，用于研究敏感内容与推荐系统之间的关系。两个数据集都包含了敏感性标签和用户-内容评分，为研究个性化系统提供了新的视角和工具。

The ML-DDD dataset combines MovieLens rating data and content warnings obtained from doesthedogdie.com, and is utilized to study the relationship between user preferences and sensitive content. The AO3 dataset integrates fan-fiction interaction data and warnings from the Webis Trigger Warning Corpus, with the purpose of investigating the association between sensitive content and recommendation systems. Both datasets contain sensitivity labels and user-content ratings, offering novel perspectives and practical tools for research on personalized systems.

提供机构：

康奈尔大学

创建时间：

2025-09-09

搜集汇总

数据集介绍

构建方式

ML-DDD数据集通过整合MovieLens 25M电影评分数据与DoesTheDogDie.com平台的社区生成触发警告构建而成，采用API匹配IMDb和TMDB标识符，并过滤仅包含DDD平台作品的评分数据，确保52%的电影覆盖率和100%用户交互有效性。AO3数据集则基于Webis触发警告语料库，通过系统化分类4100万用户生成标签为36个警告类别，并补充采集用户公开点赞数据，采用伪匿名化处理保护隐私，最终涵盖30万部作品和130万用户交互。

使用方法

该数据集支持推荐系统敏感性评估的多维度研究，可通过协同过滤算法（如SVD或ALS）训练模型，结合提出的警告放大指标量化敏感内容推荐偏差。研究者可基于用户历史交互与警告标签的关联性，分析个性化推荐对敏感内容的放大效应，或开发多目标优化策略平衡用户偏好与内容敏感性。数据集提供标准化预处理代码，支持在Hugging Face平台直接访问。

背景与挑战

背景概述

ML-DDD与AO3数据集由康奈尔大学Amelia Kovacs等人于2025年提出，旨在量化推荐系统对敏感内容的传播机制。该研究聚焦于用户偏好数据与敏感内容标签的关联性，通过整合MovieLens电影评分与DoesTheDogDie社区警告标签，以及AO3同人作品互动数据与Webis触发警告语料库，构建了多维度敏感性标注体系。这些数据集填补了推荐系统研究中敏感内容量化评估的空白，为多目标优化算法提供了关键数据支撑，推动了个性化系统向兼顾用户福祉与内容安全的方向发展。

当前挑战

领域核心挑战在于如何平衡推荐系统的 engagement 最大化目标与敏感内容规避需求，具体表现为算法可能放大暴力、性暗示等负面内容，导致用户心理伤害。构建过程中的挑战包括多源数据对齐困难（如MovieLens与DDD的跨平台标识符匹配）、隐式交互数据处理（AO3的Kudos机制需转化为可计算信号），以及伦理风险防控（用户生成内容的敏感性标注需避免偏见且保护社区隐私）。此外，稀疏警告标签与高维分类体系对模型泛化能力提出更高要求。

常用场景

经典使用场景

在推荐系统研究中，ML-DDD和AO3数据集被广泛应用于分析用户偏好与敏感内容之间的关联机制。这些数据集通过整合用户评分数据与社区生成的敏感标签，为研究人员提供了评估推荐算法在敏感内容放大效应方面的基准工具，尤其在电影和同人小说领域具有高度代表性。

解决学术问题

该数据集解决了推荐系统领域长期存在的敏感内容量化难题，通过引入基于社区投票和用户生成标签的敏感内容分类体系，使研究者能够超越传统参与度指标，系统评估算法对用户心理健康的潜在影响。其意义在于为多目标优化推荐系统提供了实证基础，推动了算法公平性与用户福祉的跨学科研究。

实际应用

实际应用中，这些数据集被科技公司用于构建敏感内容过滤机制，例如流媒体平台可依据电影血腥内容警告调整推荐策略，文学网站能根据用户设置的触发词标签实现个性化内容规避。医疗健康领域也可借助此类数据研究特定心理创伤群体对媒体内容的耐受阈值，辅助制定数字疗法方案。

数据集最近研究