reczoo/CiteUlikeA_m1
收藏Hugging Face2023-12-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/reczoo/CiteUlikeA_m1
下载链接
链接失效反馈官方服务:
资源简介:
# CiteUlikeA_m1
+ **Data format:**
user_id item1 item2 ...
+ **Source:** http://www.citeulike.org
+ **Download:** https://huggingface.co/datasets/reczoo/CiteUlikeA_m1/tree/main
+ **RecZoo Datasets:** https://github.com/reczoo/Datasets
+ **Used by papers:**
- Shuyi Ji, Yifan Feng, Rongrong Ji, Xibin Zhao, Wanwan Tang, Yue Gao. [Dual Channel Hypergraph Collaborative Filtering](https://dl.acm.org/doi/10.1145/3394486.3403253). In KDD 2020.
- Kelong Mao, Jieming Zhu, Jinpeng Wang, Quanyu Dai, Zhenhua Dong, Xi Xiao, Xiuqiang He. [SimpleX: A Simple and Strong Baseline for Collaborative Filterin](https://arxiv.org/abs/2109.12613). In CIKM 2021.
+ **Check the md5sum for data integrity:**
```bash
$ md5sum *.txt
c9d2de139ac69d480264b6221a567324 test.txt
f037c7ac8f9d8142bb5fd137ff61ad0c train.txt
```
# CiteUlikeA_m1
+ **数据格式:**
user_id item1 item2 ...
+ **数据来源:** http://www.citeulike.org
+ **下载地址:** https://huggingface.co/datasets/reczoo/CiteUlikeA_m1/tree/main
+ **RecZoo数据集仓库:** https://github.com/reczoo/Datasets
+ **引用该数据集的论文:**
- 季舒伊、冯逸凡、季荣荣、赵锡斌、唐婉婉、高越。[双通道超图协同过滤(Dual Channel Hypergraph Collaborative Filtering)](https://dl.acm.org/doi/10.1145/3394486.3403253),发表于KDD 2020。
- 毛克龙、朱杰明、王金鹏、戴全宇、董振华、肖希、何秀强。[SimpleX:一款简洁高效的协同过滤基准方法(SimpleX: A Simple and Strong Baseline for Collaborative Filtering)](https://arxiv.org/abs/2109.12613),发表于CIKM 2021。
+ **数据完整性MD5校验:**
bash
$ md5sum *.txt
c9d2de139ac69d480264b6221a567324 test.txt
f037c7ac8f9d8142bb5fd137ff61ad0c train.txt
提供机构:
reczoo
原始信息汇总
CiteUlikeA_m1
数据格式
- 格式描述:
user_id item1 item2 ...
数据来源
- 来源: http://www.citeulike.org
数据下载
- 下载链接: https://huggingface.co/datasets/reczoo/CiteUlikeA_m1/tree/main
相关论文
- 使用该数据集的论文:
- Shuyi Ji, Yifan Feng, Rongrong Ji, Xibin Zhao, Wanwan Tang, Yue Gao. Dual Channel Hypergraph Collaborative Filtering. In KDD 2020.
- Kelong Mao, Jieming Zhu, Jinpeng Wang, Quanyu Dai, Zhenhua Dong, Xi Xiao, Xiuqiang He. SimpleX: A Simple and Strong Baseline for Collaborative Filtering. In CIKM 2021.
数据完整性校验
- MD5校验和: bash $ md5sum *.txt c9d2de139ac69d480264b6221a567324 test.txt f037c7ac8f9d8142bb5fd137ff61ad0c train.txt
搜集汇总
数据集介绍

构建方式
在学术推荐系统领域,CiteUlikeA_m1数据集源自CiteULike平台,该平台专注于学术文献的收藏与分享。数据集的构建过程涉及从平台中提取用户对学术项目的交互记录,具体表现为用户与项目之间的隐式反馈。原始数据经过预处理,被划分为训练集与测试集,以确保模型评估的可靠性。这种划分遵循常见的推荐系统基准实践,旨在支持协同过滤等算法的性能验证。
使用方法
使用CiteUlikeA_m1数据集时,研究人员可通过HuggingFace平台直接下载train.txt和test.txt文件。数据以文本格式存储,便于加载和处理,通常用于训练和评估协同过滤模型,如矩阵分解或图神经网络。为确保数据完整性,建议使用提供的md5sum校验码进行验证。数据集适用于学术推荐任务,用户可基于训练集构建模型,并在测试集上评估推荐性能,以推动个性化学术服务的发展。
背景与挑战
背景概述
在信息过载的数字时代,个性化推荐系统成为缓解用户信息获取压力的关键技术。CiteUlikeA_m1数据集由RecZoo团队于2020年前后构建,其数据源自学术社交平台CiteULike,核心研究问题聚焦于学术文献的协同过滤推荐。该数据集通过捕捉用户对学术文章的隐式反馈,旨在模拟真实场景下的科研兴趣偏好,为推荐算法研究提供了高质量的基准数据。它在顶级学术会议如KDD和CIKM的多篇论文中被广泛采用,显著推动了推荐系统领域,特别是基于超图与协同过滤的模型发展,对学术资源个性化服务产生了深远影响。
当前挑战
CiteUlikeA_m1数据集所针对的学术推荐领域面临独特挑战:学术文章通常具有专业性强、语义复杂的特点,用户兴趣往往呈现长尾分布,这导致传统协同过滤方法难以准确捕捉稀疏交互下的深层关联。在数据构建过程中,挑战主要源于原始数据的异构性与噪声问题;CiteULike平台上的用户行为数据存在大量隐式反馈,需经过精细清洗与标准化处理以提取有效交互记录,同时确保数据完整性。此外,平衡用户与物品的稀疏性,以及维护时间动态性,都是构建过程中需要克服的关键难点。
常用场景
经典使用场景
在学术推荐系统领域,CiteUlikeA_m1数据集常被用于评估协同过滤算法的性能。该数据集源自CiteULike平台,记录了用户对学术文献的交互行为,如收藏或标记,为研究隐式反馈推荐提供了标准测试环境。通过分析用户与物品间的稀疏交互矩阵,研究者能够设计模型以预测用户潜在的文献偏好,从而优化个性化知识服务。
解决学术问题
该数据集有效解决了隐式反馈推荐中的冷启动和数据稀疏性问题。在学术信息过载的背景下,它帮助研究者探索如何从有限用户行为中挖掘深层兴趣模式,推动矩阵分解、图神经网络等方法的创新。其意义在于为推荐系统社区提供了可复现的基准,促进了跨领域知识发现与高效信息过滤理论的发展。
实际应用
实际应用中,CiteUlikeA_m1支持构建智能学术平台,如个性化文献推荐引擎。通过整合用户历史行为,系统可自动推送相关研究论文,提升科研人员的信息获取效率。此外,该数据集亦可用于教育科技领域,辅助学习者追踪前沿成果,优化知识管理体系,体现了数据驱动决策在学术生态中的实践价值。
数据集最近研究
最新研究方向
在学术推荐系统领域,CiteUlikeA_m1数据集作为用户与学术文献交互行为的关键资源,持续推动着协同过滤技术的创新。近期研究聚焦于超图协同过滤与基线模型优化,例如Dual Channel Hypergraph Collaborative Filtering工作通过超图结构捕捉用户与项目间的高阶关联,有效提升了推荐精度与可解释性;而SimpleX模型则以简洁高效的架构,在隐式反馈场景下展现了强大的性能竞争力。这些进展不仅深化了复杂关系建模的理论探索,也为实际应用中的冷启动和稀疏性问题提供了新思路,进一步巩固了该数据集在信息检索与知识发现研究中的基础地位。
以上内容由遇见数据集搜集并总结生成



