MIND

Hugging Face2025-12-21 更新2025-12-22 收录

下载链接：

https://huggingface.co/datasets/Recommenders/MIND

下载链接

链接失效反馈

官方服务：

资源简介：

MIND（Microsoft News Dataset）是一个用于新闻推荐研究的大规模数据集，由微软新闻网站的用户行为日志匿名收集而成。该数据集旨在作为新闻推荐的基准数据集，促进新闻推荐和推荐系统领域的研究。数据集包含约16万篇英文新闻文章和超过1500万条由100万用户生成的印象日志。每篇新闻文章包含标题、摘要、正文、类别和实体等丰富的文本内容。每条印象日志包含点击事件、未点击事件以及用户在此次印象之前的新闻点击行为。为了保护用户隐私，所有用户ID都经过安全哈希处理成匿名ID。数据集可用于研究目的，下载需遵守微软研究许可条款。

MIND (Microsoft News Dataset) is a large-scale dataset for news recommendation research, anonymously collected from user behavior logs on Microsoft News websites. This dataset is designed as a benchmark dataset for news recommendation, to facilitate research in the fields of news recommendation and recommendation systems. The dataset contains approximately 160,000 English news articles and over 15 million impression logs generated by 1 million users. Each news article includes rich textual content such as title, abstract, body, category and entities. Each impression log contains click events, non-click events, as well as the user's prior news click behavior before this impression. To protect user privacy, all user IDs have been securely hashed into anonymous IDs. The dataset is available for research purposes, and downloads must comply with the Microsoft Research License Terms.

创建时间：

2025-12-16

原始信息汇总

MIND数据集概述

数据集简介

Microsoft News Dataset (MIND) 是一个用于新闻推荐研究的大规模数据集。该数据集收集自Microsoft News网站的用户匿名行为日志。其使命是作为新闻推荐的基准数据集，促进新闻推荐和推荐系统领域的研究。

数据集规模

包含约16万篇英文新闻文章。
包含超过1500万条由100万用户生成的展示日志。

数据内容

新闻文章

每篇新闻文章包含丰富的文本内容：

标题
摘要
正文
类别
实体

展示日志

每条展示日志包含：

点击事件
未点击事件
该用户在此次展示之前的历史新闻点击行为

隐私保护

为保护用户隐私，每个用户从生产系统中解除关联，并安全地哈希为匿名ID。

使用许可

MIND数据集可在研究目的下免费下载，遵循Microsoft Research License Terms。

参考文献

[1] Fangzhao Wu, Ying Qiao, Jiun-Hung Chen, Chuhan Wu, Tao Qi, Jianxun Lian, Danyang Liu, Xing Xie, Jianfeng Gao, Winnie Wu and Ming Zhou. "MIND: A Large-scale Dataset for News Recommendation" Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. https://msnews.github.io/competition.html

搜集汇总

数据集介绍

构建方式

在新闻推荐系统研究领域，数据集的构建需兼顾规模与真实性。MIND数据集源于微软新闻网站的用户行为日志，经过匿名化处理以保护隐私。其构建过程涉及从海量日志中提取约16万篇英文新闻文章及超过1500万条用户印象记录，涵盖点击事件、未点击事件及用户历史点击行为。每条新闻均包含标题、摘要、正文、类别和实体等丰富文本信息，而用户身份则通过安全哈希转换为匿名ID，确保数据在学术研究中的可用性与合规性。

使用方法

使用MIND数据集时，研究者可将其应用于新闻推荐系统的模型训练与评估。典型流程包括数据预处理，如解析新闻文本和用户行为序列，并划分训练集、验证集和测试集以进行实验。基于印象日志中的点击标签，可构建监督学习任务，预测用户对未读新闻的偏好。数据集支持多种任务设计，例如点击率预测、个性化排序和冷启动推荐，同时其开源许可允许学术机构在遵守协议的前提下自由下载与修改，促进跨团队比较与创新。

背景与挑战

背景概述

随着信息爆炸时代的到来，个性化新闻推荐系统成为缓解信息过载、提升用户体验的关键技术。在此背景下，微软研究院于2020年推出了大规模新闻推荐数据集MIND，旨在为学术界和工业界提供一个标准化的基准平台。该数据集由微软新闻网站的用户匿名行为日志构建而成，涵盖了约16万篇英文新闻文章及超过1500万条用户印象日志，涉及百万级用户规模。MIND的核心研究问题聚焦于如何利用丰富的新闻文本内容与用户历史交互行为，推动新闻推荐算法的创新与评估，对自然语言处理与推荐系统领域的交叉研究产生了深远影响，促进了诸如神经新闻推荐等前沿方向的发展。

当前挑战

在新闻推荐领域，核心挑战在于如何精准建模用户兴趣的动态演变，并有效融合新闻文本的语义信息以提升推荐准确性。MIND数据集所针对的正是这一复杂问题，要求算法能够处理用户行为的稀疏性、新闻内容的时效性以及兴趣漂移现象。在构建过程中，研究团队面临多重挑战：首先，需从海量用户日志中安全地提取并匿名化行为数据，确保隐私保护符合伦理规范；其次，新闻文章包含标题、摘要、正文、类别及实体等多模态信息，其高质量标注与结构化处理要求精细的自然语言处理技术；此外，用户历史点击序列的构建与噪声过滤亦需严谨设计，以真实反映用户兴趣模式。

常用场景

解决学术问题

MIND数据集主要解决了新闻推荐中数据稀缺与评估标准不统一的问题。它通过提供海量标注的用户点击行为与新闻元数据，支持了对协同过滤、内容过滤及深度学习等推荐技术的系统化研究。该数据集促进了用户兴趣建模、序列行为分析及冷启动问题等关键学术课题的探索，为推荐系统领域的理论创新与方法优化提供了重要支撑。

实际应用

在实际应用中，MIND数据集为新闻平台和媒体公司优化个性化推荐服务提供了参考依据。基于该数据集训练的模型可帮助提升新闻分发的准确性与用户参与度，实现更精准的内容匹配。此外，其匿名化处理机制确保了用户隐私安全，使得研究成果能够合规地应用于商业环境，推动新闻行业智能化转型。

数据集最近研究