five

EB-NeRD|新闻推荐数据集|数据集数据集

收藏
arXiv2024-10-04 更新2024-10-08 收录
新闻推荐
数据集
下载链接:
https://recsys.eb.dk
下载链接
链接失效反馈
资源简介:
EB-NeRD是由丹麦报纸Ekstra Bladet创建的大规模新闻推荐数据集,旨在解决新闻推荐领域的技术与规范挑战。该数据集包含超过125,000篇丹麦新闻文章,涵盖标题、摘要、正文及元数据,记录了超过3700万条用户印象日志。数据集的创建过程包括从用户行为日志中提取信息,并进行匿名化处理。EB-NeRD主要应用于新闻推荐系统的研究和开发,旨在提升新闻推荐的准确性和符合编辑价值观。
提供机构:
技术大学丹麦分校
创建时间:
2024-10-04
AI搜集汇总
数据集介绍
main_image_url
构建方式
EB-NeRD数据集通过从Ekstra Bladet报纸的用户行为日志中收集数据构建而成。该数据集涵盖了超过一百万的独特用户和超过3700万的印象日志。数据收集时间为2023年4月27日至6月8日,定义活跃用户为在此期间点击新闻次数在5到1000次之间的用户。为保护用户隐私,所有用户ID均通过一次性盐哈希进行匿名化处理。此外,数据集还包括超过125,000篇丹麦新闻文章,每篇文章包含标题、摘要、正文及元数据,如类别和实体标签。
特点
EB-NeRD数据集的显著特点在于其大规模和多样性。它不仅包含了用户的点击行为和浏览历史,还详细记录了用户的阅读时间、滚动百分比、设备类型和订阅状态等。此外,数据集中的新闻文章不仅提供了标题和摘要,还包含了完整的文章正文,这为研究新闻推荐系统提供了丰富的文本信息。数据集还通过知识感知的推荐方法,为新闻文章添加了实体、主题和情感标签,进一步增强了数据集的应用价值。
使用方法
EB-NeRD数据集可用于多种新闻推荐系统的研究和开发。研究者可以利用该数据集训练和评估基于内容的推荐模型、协同过滤模型以及混合推荐模型。此外,数据集中的丰富元数据和用户行为信息,使得研究者能够探索如何将编辑价值和社会价值纳入推荐系统的优化目标中。数据集还提供了训练集、验证集和测试集,以及一个用于超越准确性评估的隐藏测试集,这为推荐系统的全面评估提供了便利。
背景与挑战
背景概述
在数字化媒体时代,个性化内容推荐已成为提升用户体验的关键因素,从视频流媒体到社交媒体,推荐系统无处不在。然而,新闻出版领域在采用推荐系统方面仍面临诸多挑战。为了应对这些挑战,Johannes Kruse等人于2024年创建了EB-NeRD数据集,该数据集涵盖了来自Ekstra Bladet的超过百万用户的互动日志和超过3700万次的印象记录,以及125,000篇丹麦新闻文章的详细信息。EB-NeRD不仅为新闻推荐系统的研究提供了丰富的数据支持,还在RecSys ’24挑战中作为基准数据集,展示了其在解决新闻推荐系统技术与规范性挑战方面的潜力。
当前挑战
EB-NeRD数据集在构建和应用过程中面临多项挑战。首先,新闻文章的连续发布和快速过期特性导致严重的冷启动问题,传统推荐系统如协同过滤和因子分解机难以适用。其次,新闻平台缺乏显式用户评分,需基于隐式反馈如浏览行为来建模用户兴趣。此外,有效的新闻推荐系统需充分利用新闻文章的文本信息。尽管已有研究尝试通过深度学习技术解决这些挑战,但大多数新闻推荐数据集并非公开,且针对特定用例,限制了模型的广泛适用性。最后,新闻推荐系统的规模化应用需考虑其对新闻品牌编辑属性和社会功能的深远影响,需开发新的评估方法和优化目标以确保推荐系统与编辑和社会价值的一致性。
常用场景
经典使用场景
EB-NeRD数据集在新闻推荐领域中被广泛应用于解决个性化推荐的技术和规范性挑战。其经典使用场景包括利用数据集中的用户行为日志和新闻文章信息,构建和优化新闻推荐系统。通过分析用户的点击历史、阅读时间和设备类型等隐式反馈,结合新闻文章的标题、摘要和正文等文本信息,推荐系统能够更准确地捕捉用户的兴趣动态,从而提供更为精准的新闻推荐。
解决学术问题
EB-NeRD数据集解决了新闻推荐领域中的多个学术研究问题,如新闻内容的快速过期导致的冷启动问题、缺乏显式用户评分的问题以及如何有效利用新闻文本信息进行推荐等。该数据集通过提供大规模的用户行为和新闻内容数据,为研究者提供了一个丰富的实验平台,推动了新闻推荐系统在技术实现和规范性评估方面的研究进展。
衍生相关工作
EB-NeRD数据集的发布催生了一系列相关研究工作,包括基于深度学习的新闻推荐模型、考虑新闻内容多样性和用户兴趣动态变化的推荐算法等。例如,研究者们利用数据集中的文本信息和用户行为数据,开发了多种神经网络模型,如Transformer和NRMS,以提升推荐系统的性能。此外,数据集还促进了关于推荐系统规范性评估的研究,探索如何将编辑价值和社会责任融入推荐系统的优化目标中。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集