xMIND
收藏arXiv2024-03-27 更新2024-06-21 收录
下载链接:
https://github.com/andreeaiana/xMIND
下载链接
链接失效反馈官方服务:
资源简介:
xMIND是一个多语言新闻推荐数据集,由曼海姆大学创建,包含14种语言的130,379条新闻数据。数据集通过机器翻译从英文MIND数据集衍生而来,覆盖多种语言和地理区域,旨在支持多语言和跨语言新闻推荐研究。xMIND数据集可用于评估和开发在多语言环境中有效的新闻推荐系统,特别是对于资源较少的语言。
xMIND is a multilingual news recommendation dataset created by the University of Mannheim, which contains 130,379 news articles across 14 languages. Derived from the English MIND dataset via machine translation, the dataset covers diverse languages and geographical regions, aiming to support research on multilingual and cross-lingual news recommendation. The xMIND dataset can be used to evaluate and develop effective news recommendation systems in multilingual scenarios, especially for low-resource languages.
提供机构:
曼海姆大学
创建时间:
2024-03-27
搜集汇总
数据集介绍

构建方式
xMIND 数据集的构建采用了机器翻译技术,将英语新闻数据集 MIND 中的文章翻译成 14 种不同的语言,涵盖了语言学、地理学和文化上的多样性。这些语言包括高资源和低资源语言,并且跨越了五个地理区域和 13 个不同的语言家族。翻译过程使用了开源的机器翻译系统 NLLB,并针对不同语言进行了参数调优,以确保翻译质量。最终,xMIND 数据集包含了 130,379 篇独特的新闻文章,每种语言都包含标题和摘要的翻译。
使用方法
xMIND 数据集可以用于训练和评估多语言新闻推荐系统,以及研究跨语言迁移学习。用户可以结合 MIND 数据集中的点击日志和新闻注释,使用 NewsRecLib 库进行数据加载和模型训练。数据集还支持两种新闻消费模式:单语和双语,以及两种训练场景:零样本跨语言迁移(ZS-XLT)和少样本跨语言迁移(FS-XLT)。
背景与挑战
背景概述
随着数字化新闻消费的普及,新闻平台已成为互联网用户获取信息的主要媒介。然而,尽管在线社区的语言多样性日益增加,许多用户倾向于在多种语言中消费新闻,但大多数新闻推荐系统仍然集中在资源丰富的语言上,特别是英语,并且假设用户仅使用单一语言消费新闻。为了填补这一空白,研究人员创建了xMIND数据集,这是一个开放的多语言新闻推荐数据集,由英语MIND数据集通过机器翻译生成,涵盖了14种语言,包括资源丰富和资源匮乏的语言。xMIND数据集旨在促进多语言环境下新闻推荐器的发展,并为低资源语言提供有效的推荐。该数据集已在多个领域产生了重要影响,包括新闻推荐系统的评估和比较、多语言新闻消费模式的研究以及低资源语言的新闻推荐。
当前挑战
xMIND数据集面临着一些挑战。首先,现有的新闻推荐器在零样本跨语言迁移场景下表现出显著的性能下降,即使基于多语言语言模型。其次,在少样本跨语言迁移训练中包含目标语言数据的效果有限,尤其是在结合双语新闻消费模式时。此外,xMIND数据集的翻译质量也是一个挑战,因为机器翻译系统可能无法完全准确地翻译新闻内容。最后,xMIND数据集的规模和多样性也给研究人员带来了挑战,需要开发新的算法和技术来有效地处理和分析这些数据。
常用场景
经典使用场景
xMIND 数据集作为跨语言新闻推荐的基准数据集,其经典使用场景包括评估和比较跨语言新闻推荐系统的性能。研究者可以利用 xMIND 数据集在零样本 (ZS-XLT) 和少样本 (FS-XLT) 跨语言迁移场景下,对多种神经网络新闻推荐器 (NNRs) 进行系统评估,并考虑单语和双语新闻消费模式。通过分析不同模型在不同语言和文化背景下的推荐效果,研究者可以深入了解 NNRs 在跨语言环境下的性能瓶颈,并为开发更准确、鲁棒的跨语言新闻推荐方法提供数据支持。
解决学术问题
xMIND 数据集解决了现有新闻推荐研究中存在的两个主要问题:一是缺乏公开可用的多样化多语言新闻推荐数据集,这限制了多语言新闻推荐系统的发展和低资源语言的跨语言迁移;二是多语言和跨语言新闻推荐系统设计的研究不足,导致多语言新闻消费者难以获得相关、平衡和多样化的推荐。xMIND 数据集通过包含 14 种语言,涵盖不同地理区域、语言家族和资源水平的文章,为多语言新闻推荐系统的研究提供了宝贵的数据资源,并为探索多语言和跨语言新闻推荐系统设计提供了新的可能性。
实际应用
xMIND 数据集的实际应用场景包括构建和优化多语言新闻推荐系统,以满足日益增长的多语言新闻消费者的需求。新闻平台可以利用 xMIND 数据集训练和测试跨语言新闻推荐模型,从而为用户提供更加个性化、相关和多样化的新闻推荐。此外,xMIND 数据集还可以用于研究多语言新闻消费行为,以及不同语言和文化背景下新闻推荐的影响,从而为新闻媒体更好地服务多语言受众提供理论依据。
数据集最近研究
最新研究方向
在多语言新闻推荐领域,xMIND数据集的引入为跨语言和低资源语言的新闻推荐研究提供了重要的基准和推动力。该数据集涵盖了14种语言,包括高资源和低资源语言,并采用了机器翻译技术,使得研究人员能够直接比较跨语言新闻推荐系统的性能。通过使用xMIND数据集,研究人员发现现有的神经新闻推荐器在零样本跨语言迁移场景下表现不佳,即使在结合多语言语言模型的情况下。此外,研究还发现,在少量样本跨语言迁移训练中包含目标语言数据的效果有限,尤其是在双语言新闻消费模式中。这些发现强调了在多语言和跨语言新闻推荐领域进行更广泛研究的必要性,以及开发更准确和鲁棒的跨语言新闻推荐方法的紧迫性。xMIND数据集的发布为新闻推荐社区提供了宝贵的资源,并有望推动该领域的研究向前发展。
相关研究论文
- 1MIND Your Language: A Multilingual Dataset for Cross-lingual News Recommendation曼海姆大学 · 2024年
以上内容由遇见数据集搜集并总结生成



