RokomariBG

Name: RokomariBG
Creator: 东西方大学; 孟加拉国工程技术大学
Published: 2026-02-13 00:18:55
License: 暂无描述

arXiv2026-02-13 更新2026-02-15 收录

下载链接：

https://github.com/backlashblitz/Bangla-Book-Recommendation-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

RokomariBG是由孟加拉国最大在线书店Rokomari.com构建的大规模多实体异构图数据集，旨在解决低资源语言环境下个性化推荐研究的瓶颈。数据集包含12.7万本书籍、1.6万作者、209万条评论等实体，通过八种关系类型构建成知识图谱，涵盖书籍元数据、用户评论等结构化与文本信息。数据采集采用网页爬虫技术，经过去重和标准化处理，支持协同过滤、图神经网络等推荐算法的训练与评估，为孟加拉语文学推荐系统建立了首个基准资源。

RokomariBG is a large-scale multi-entity heterogeneous graph dataset constructed by Rokomari.com, the largest online bookstore in Bangladesh, aiming to address the bottleneck of personalized recommendation research in low-resource language environments. The dataset contains 127,000 books, 16,000 authors, 2.09 million reviews and other entities, and is built into a knowledge graph with eight types of relationships, covering structured and textual information such as book metadata and user reviews. The data was collected via web crawler technology, and processed through deduplication and standardization. It supports the training and evaluation of recommendation algorithms such as collaborative filtering and graph neural networks, and establishes the first benchmark resource for Bengali literary recommendation systems.

提供机构：

东西方大学; 孟加拉国工程技术大学

创建时间：

2026-02-13

原始信息汇总

Bangla Book Recommendation Dataset 概述

数据集来源

该数据集来源于论文《Towards Personalized Bangla Book Recommendation: A Large-Scale Multi-Entity Book Graph Dataset》，论文链接为：https://arxiv.org/abs/2602.12129。

数据集目的

旨在通过构建一个大规模的多实体异构图数据集，促进孟加拉语书籍推荐系统的发展，以提升孟加拉语文学的发现效率和用户体验的个性化与准确性。

数据集内容与结构

数据集集成了用户、书籍、作者、出版商和类别等多种实体，构成了一个用于孟加拉语书籍推荐的大规模多实体异构图。

引用要求

若使用代码、数据集或模型检查点，请引用提供的BibTex条目。

搜集汇总

数据集介绍

构建方式

在孟加拉语个性化推荐研究长期受限于公开数据资源匮乏的背景下，RokomariBG数据集通过系统化网络爬取与结构化处理流程构建而成。该数据集源自孟加拉国最大的在线书店Rokomari.com，利用BeautifulSoup解析公开网页内容，提取书籍、作者、类别、出版商及用户评论五大实体，并依据超链接关系构建包含八种关系类型的异质知识图谱。数据处理阶段实施了严格的去重清洗、元数据规范化与隐私保护措施，用户身份均经匿名化处理，最终形成包含40余万节点与超200万边的多关系图结构，为低资源语言场景的推荐算法研究提供了坚实基础。

特点

RokomariBG数据集的核心特征体现在其规模性、多关系性与丰富的语义信息维度。该数据集囊括12.7万书籍、6.4万用户、2.1万条评论及作者、出版商等多类实体，构成目前孟加拉语领域规模最大的图书交互图谱。其异质图结构通过书籍-作者-类别等多类型关系链路，完整刻画了出版生态系统的复杂关联网络。此外，数据集融合了书籍摘要、作者传记、评论文本等23类侧向特征，以及用户评分、验证购买等质量标识，为融合协同信号、图结构与语义理解的混合推荐模型提供了多维数据支撑。

使用方法

该数据集主要服务于个性化Top-N推荐任务的模型训练与基准评测。研究实践中可采用70%/15%/15%比例划分训练、验证与测试集，通过用户-书籍交互矩阵构建基础预测任务。模型开发可涵盖从经典协同过滤、矩阵分解到图神经网络、神经检索架构的完整方法谱系，特别适合探索多关系图卷积、侧向特征融合及冷启动缓解等前沿方向。评测体系应包含NDCG、MRR等排序指标，并可通过控制侧向特征、关系知识的消融实验，量化不同信息源对推荐性能的贡献度，推动孟加拉语推荐系统的可复现研究。

背景与挑战

背景概述

在推荐系统研究领域，大规模公开数据集如Amazon产品评论和MovieLens极大地推动了英语环境下个性化推荐算法的进展。然而，对于孟加拉语这类资源匮乏的语言，由于缺乏结构化、多实体且公开可用的基准数据，相关研究长期受到制约。RokomariBG数据集由东威大学和孟加拉国工程技术大学的研究团队于2018年构建，旨在填补这一空白。该数据集从孟加拉国最大的在线书店Rokomari.com爬取，包含127,302本书籍、63,723名用户、16,601位作者等实体，并通过八种关系类型构建为异质知识图谱。其核心研究问题聚焦于低资源语言环境下的个性化图书推荐，为融合协同信号、关系结构与文本特征的现代推荐模型提供了实证基础，对推动孟加拉语文化领域的可复现研究与算法创新具有开创性意义。

当前挑战

RokomariBG数据集致力于解决孟加拉语个性化图书推荐这一领域核心问题，其面临的主要挑战体现在数据稀疏性与冷启动问题上。用户-物品交互呈现显著的长尾分布，超过53%的用户仅贡献单条评论，而42.6%的书籍集中了五条以上评论，这种交互不平衡性使得传统协同过滤方法难以学习稳健表征。同时，构建过程中的挑战涉及多语言文本处理与实体关系整合。数据集包含孟加拉语、英语及混合语种的评论与元数据，需进行Unicode标准化与跨语言特征编码；此外，从网页中提取并链接书籍、作者、出版商等多类实体，并确保八种关系类型的结构完整性，要求精密的实体解析与图谱构建流程，以支撑异质图神经网络等复杂模型的训练与评估。

常用场景

经典使用场景

在孟加拉语个性化推荐系统研究中，RokomariBG数据集为探索低资源语言环境下的多实体图神经网络建模提供了经典范例。该数据集通过整合书籍、作者、类别、出版商和用户评论等异构节点，构建了一个包含八种关系类型的知识图谱，使得研究者能够系统评估协同过滤、矩阵分解、内容推荐及图神经网络等多元模型在Top-N推荐任务中的性能。其大规模交互数据与丰富的侧信息为深入分析用户行为模式、缓解冷启动问题奠定了坚实基础。

解决学术问题

该数据集有效解决了孟加拉语文学推荐领域长期存在的结构化数据稀缺问题，为低资源文化场景下的个性化推荐研究提供了基准测试平台。通过提供用户-物品交互记录、多实体关联结构与文本侧信息，它支持对协同信号与语义特征的联合建模，促进了图神经网络、混合矩阵分解等先进方法在非英语生态中的适应性探索。其公开可访问性推动了跨语言推荐、稀疏交互表示学习等学术方向的实证研究。

衍生相关工作

围绕该数据集衍生的经典工作主要包括基于异构图神经网络的推荐架构优化、融合多语言文本嵌入的混合模型设计以及针对冷启动场景的迁移学习策略。研究者通过引入LightGCN、HGNN等图模型捕捉高阶关联，并利用预训练语言模型编码孟加拉语评论语义，进一步提升了推荐性能。这些探索为低资源语言推荐系统建立了可扩展的技术范式，激发了跨文化数字内容分发领域的创新研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集