Lib-SibGMU

arXiv2023-08-12 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2208.12356v2

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于推荐系统开发的高校图书馆流通数据集，供广泛的研究社区使用，并在此数据集上基准测试主要推荐算法。

A university library circulation dataset for recommendation system development, provided for use by the broader research community and designed as a benchmark for evaluating mainstream recommendation algorithms.

创建时间：

2022-08-26

搜集汇总

数据集介绍

构建方式

在图书馆学与信息科学领域，数据驱动的推荐系统已成为提升服务效能的关键工具。Lib-SibGMU数据集的构建源于西伯利亚国立医科大学图书馆的流通历史数据库，涵盖了2013年9月至2021年12月期间的匿名化借阅记录。该数据集通过提取用户标识、图书信息、借阅日期及读者类别等结构化字段，并以XML格式整合了153,364条交互记录，涉及7,149名用户和2,664本图书，为基于隐式反馈的推荐研究提供了真实且细粒度的数据基础。

特点

该数据集展现出鲜明的领域特异性与时间动态性。其核心特征在于高度的重复性与学期依赖性，用户常因备考等需求多次借阅相同图书，且交互活动密集集中于学期末阶段。数据中约97%的交互来自学生群体，平均借阅量显著高于其他用户类型，同时约35.6%的交互涉及多版本图书，凸显了语义相似性处理的重要性。这些特征共同塑造了一个具有强时序模式与用户行为聚集性的独特场景。

使用方法

在推荐系统研究中，Lib-SibGMU适用于评估隐式反馈与序列推荐算法。典型使用流程包括数据预处理、向量化建模与推荐引擎构建。研究可借鉴论文提出的双层架构：首先利用fastText等语言模型将用户借阅历史转换为语义向量，以融合图书标题的文本信息；随后应用k近邻或聚类方法在向量空间中进行相似度计算与项目推荐。该框架在实验中实现了0.544的HitRate@10指标，为图书馆场景的个性化服务优化提供了可复现的基准方案。

背景与挑战

背景概述

随着互联网信息获取方式的变革，传统图书馆面临用户流失与专业馆员稀缺的双重困境，亟需通过技术手段重塑服务价值。Lib-SibGMU数据集由俄罗斯托木斯克国立大学高等信息技术学院、NTR实验室及西伯利亚国立医科大学图书馆的研究团队于2022年公开发布，旨在填补图书馆流通数据公开基准的空白。该数据集收录了2013年至2021年间西伯利亚国立医科大学图书馆的匿名化借阅记录，涵盖7149名用户与2664本图书的交互数据，核心研究聚焦于基于隐式反馈的图书馆推荐系统开发。作为首个公开的大学图书馆流通数据集，它为推荐算法在特定领域的性能比较提供了标准化评估基础，推动了个性化知识服务与教育资源优化分配的研究进展。

当前挑战

在图书馆推荐系统领域，核心挑战在于如何从稀疏且具有高度重复性的隐式反馈数据中精准捕捉用户的学术兴趣与阶段性需求。Lib-SibGMU数据集构建过程中，研究团队需应对数据匿名化与多版本图书归一化的复杂性，同时处理俄语文本的语义编码问题。该数据集的时序依赖性与用户行为集中性（如考试周期的高频借阅）进一步增加了建模难度，传统矩阵分解与协同过滤算法在此类场景下表现欠佳，迫使研究者探索结合语言模型的向量化方法，以提升推荐质量与可解释性。

常用场景

经典使用场景

在图书馆服务智能化转型的背景下，Lib-SibGMU数据集为推荐系统研究提供了独特的实验平台。该数据集最经典的使用场景是构建基于隐式反馈的大学图书馆图书推荐模型，通过分析学生借阅历史中的时序模式与重复行为，识别用户在特定学期或考试周期内的资源需求，从而预测其未来可能感兴趣的书籍。这种场景特别强调对用户群体学术阶段与专业方向的聚类分析，以实现精准的个性化资源推荐。

实际应用

在实际应用中，Lib-SibGMU数据集可直接支撑大学图书馆智能服务系统的开发与优化。基于该数据集训练的推荐引擎能够辅助图书馆员为读者提供个性化书目建议，提升馆藏资源的利用率与读者满意度。同时，系统可识别热门教材的不同版本流通规律，帮助图书馆进行采购决策与馆藏管理，尤其在考试季等借阅高峰时段，有效缓解资源分配压力，增强图书馆在教育支持中的核心作用。

衍生相关工作

该数据集的发布催生了一系列聚焦于图书馆推荐系统的衍生研究。早期工作如Valcarce等人提出的基于语言模型的邻域推荐架构，为后续研究奠定了方法论基础；Zubchuk等人进一步将fastText嵌入与kNN结合，显著提升了推荐精度。此外，研究还延伸至混合推荐系统设计，例如结合协同过滤与模糊兴趣向量的方法，以应对小型图书馆资源有限的挑战。这些工作共同推动了隐式反馈推荐技术在专业领域的算法演进与应用深化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集