reczoo/MIND_small_x1
收藏Hugging Face2023-12-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/reczoo/MIND_small_x1
下载链接
链接失效反馈官方服务:
资源简介:
MIND是一个用于新闻推荐的大规模微软新闻数据集,收集自微软新闻网站的匿名用户行为日志。MIND总共包含约16万篇英文新闻文章和超过1500万条由100万用户生成的印象日志。每篇新闻文章包含丰富的文本内容,如标题、摘要、正文、类别和实体。每条印象日志包含点击事件、未点击事件以及该用户在此次印象之前的历史新闻点击行为。MIND-small版本是从MIND数据集中随机抽取了50,000用户及其行为日志生成的。数据集统计信息如下:训练集5,843,444条,验证集2,740,998条,总计8,584,442条。
MIND是一个用于新闻推荐的大规模微软新闻数据集,收集自微软新闻网站的匿名用户行为日志。MIND总共包含约16万篇英文新闻文章和超过1500万条由100万用户生成的印象日志。每篇新闻文章包含丰富的文本内容,如标题、摘要、正文、类别和实体。每条印象日志包含点击事件、未点击事件以及该用户在此次印象之前的历史新闻点击行为。MIND-small版本是从MIND数据集中随机抽取了50,000用户及其行为日志生成的。数据集统计信息如下:训练集5,843,444条,验证集2,740,998条,总计8,584,442条。
提供机构:
reczoo
原始信息汇总
MIND_small_x1
数据集描述
MIND是一个大规模的微软新闻数据集,用于新闻推荐。该数据集从微软新闻网站的匿名行为日志中收集,总共包含约16万篇英文新闻文章和超过1500万条印象日志,由100万用户生成。每篇新闻文章包含丰富的文本内容,包括标题、摘要、正文、类别和实体。每条印象日志包含点击事件、未点击事件以及该用户在此印象之前的点击历史。MIND-small版本的数据集是通过从MIND数据集中随机抽样50,000名用户及其行为日志生成的。
数据集统计
| 数据集划分 | 总计 | 训练集 | 验证集 | 测试集 |
|---|---|---|---|---|
| MIND_small_x1 | 8,584,442 | 5,843,444 | 2,740,998 |
搜集汇总
数据集介绍

构建方式
在新闻推荐系统研究领域,数据集的构建质量直接影响模型的性能评估。MIND_small_x1数据集源自微软新闻网站的大规模匿名用户行为日志,其构建过程体现了严谨的抽样策略。原始MIND数据集囊括约16万篇英文新闻文章及超过1500万条由百万用户产生的曝光日志。本小型版本通过随机抽取5万名用户及其对应的行为记录生成,确保了数据子集在保持原始分布特征的同时,显著降低了计算复杂度。数据涵盖新闻文章的标题、摘要、正文、类别及实体信息,每条曝光日志则详细记录了用户的点击事件、未点击事件及历史新闻浏览行为,为推荐算法研究提供了多层次的结构化信息。
特点
该数据集在新闻推荐领域展现出鲜明的特征,其核心在于融合了丰富的文本内容与细粒度的用户交互行为。新闻条目不仅包含基本的标题与摘要,还整合了类别标签和实体标注,为深度语义理解提供了可能。用户行为日志则完整呈现了曝光场景下的点击反馈与非点击记录,辅以长期历史行为序列,使得时序动态与兴趣演化得以捕捉。数据规模经过精心优化,在保留原始数据统计特性的基础上,通过约5万用户的抽样,形成了包含超过858万条记录的子集,其中训练集与验证集划分明确,兼顾了模型训练的效率与评估的可靠性。这种设计使得数据集既能支持复杂的神经网络建模,又适用于高效的算法实验与比较。
使用方法
使用该数据集时,研究者可依据标准的推荐系统流程展开工作。数据文件主要包括训练集、验证集及新闻语料库,分别以CSV与TSV格式存储。初始步骤涉及数据加载与预处理,需解析新闻文本中的结构化字段,并将用户行为日志转换为序列形式。模型训练通常利用训练集学习用户兴趣与新闻内容之间的关联,验证集则用于调参及早期停止,以避免过拟合。鉴于数据集包含丰富的侧面信息,如新闻类别与实体,可灵活嵌入多任务学习或预训练策略以增强表示能力。实践过程中,建议通过提供的MD5校验和确保数据完整性,并参考相关已发表论文,借鉴其特征工程与评估框架,以保障实验的可复现性与对比公平性。
背景与挑战
背景概述
新闻推荐系统作为信息过滤领域的关键技术,旨在从海量新闻中为用户提供个性化内容。2020年,微软研究院团队发布了MIND数据集,这是一个基于微软新闻网站匿名行为日志构建的大规模新闻推荐基准。该数据集由约16万篇英文新闻文章和超过1500万条用户印象日志组成,涵盖了丰富的文本特征与用户交互行为。其小型版本MIND_small_x1通过随机采样5万用户及其行为数据,为学术界提供了高效且可复现的实验平台,显著推动了新闻推荐算法的研究与评估。
当前挑战
新闻推荐领域面临的核心挑战在于如何精准建模用户动态兴趣与新闻内容的复杂关联,同时处理数据稀疏性和冷启动问题。MIND数据集的构建过程中,研究人员需应对大规模行为日志的匿名化处理、多模态新闻特征(如标题、摘要、实体)的标准化整合,以及用户历史行为序列的噪声过滤。此外,数据采样与划分需保持用户行为分布的完整性,以确保推荐模型在真实场景中的泛化能力。
常用场景
经典使用场景
在新闻推荐系统领域,MIND_small_x1数据集作为大规模用户行为日志的缩影,常被用于构建和评估个性化新闻推荐模型。该数据集通过捕捉用户对新闻文章的点击与未点击行为,结合新闻内容的丰富文本特征,为研究者提供了模拟真实世界推荐场景的基准环境。其经典应用体现在训练深度神经网络,以学习用户兴趣与新闻内容之间的复杂匹配关系,进而优化点击率预测的准确性。
实际应用
在实际应用中,MIND_small_x1数据集被广泛用于新闻平台如Microsoft News的个性化推荐引擎优化。它帮助工程师训练模型,实现实时新闻推送、热点内容发现以及用户留存提升。通过分析用户行为模式,平台能够精准适配新闻分发策略,增强用户体验,同时为广告定向和内容运营提供数据驱动的决策支持,体现了数据科学在媒体行业中的关键价值。
衍生相关工作
基于MIND_small_x1数据集,衍生出多项经典研究工作,例如MINER模型通过多兴趣匹配网络改进新闻推荐效果,以及利用预训练技术提升点击率预测性能的探索。这些工作不仅深化了对用户多维度兴趣的理解,还推动了Transformer等先进架构在推荐领域的应用。相关成果发表于ACL、COLING等顶级会议,形成了新闻推荐研究的重要分支,持续引领该领域的技术演进。
以上内容由遇见数据集搜集并总结生成



