ITDR

github2025-08-12 更新2025-08-18 收录

下载链接：

https://github.com/hellolzk/ITDR

下载链接

链接失效反馈

官方服务：

资源简介：

ITDR是一个指令调优数据集，旨在增强大型语言模型在推荐系统中的表现。该数据集涵盖了用户-项目交互和用户-项目理解两个核心根任务的7个子任务，整合了来自13个公共推荐数据集的数据，并使用手动制作的标准化模板构建，包含约200,000个实例。实验结果表明，ITDR显著提升了主流开源大型语言模型在推荐任务上的性能。

ITDR is an instruction-tuning dataset designed to enhance the performance of large language models (LLMs) in recommendation systems. It covers 7 subtasks under two core foundational tasks: user-item interaction and user-item understanding. The dataset integrates data from 13 public recommendation datasets, is constructed using manually crafted standardized templates, and contains approximately 200,000 instances. Experimental results demonstrate that ITDR significantly improves the performance of mainstream open-source large language models on recommendation tasks.

创建时间：

2025-07-30

原始信息汇总

ITDR: 用于增强大语言模型推荐能力的指令调优数据集

数据集概述

名称: ITDR (Instruction Tuning Dataset for Recommendations)
目的: 解决大语言模型在推荐系统中因数据结构差异导致的性能受限问题
构建方法: 基于13个公开推荐数据集，使用手工制作的标准化模板构建
规模: 约200,000个实例

核心任务

用户-物品交互
用户-物品理解
- 包含7个子任务

实验验证

测试模型: GLM-4, Qwen2.5, Qwen2.5-Instruct, LLaMA-3.2
效果: 显著提升主流开源LLM在推荐任务上的性能
额外分析:
- 任务间相关性
- 任务描述的影响
- 数据规模对指令调优效果的影响
- 与闭源大参数LLM的对比实验

模型获取

平台: ModelScope
链接: https://www.modelscope.cn/profile/lzkhhh

相关论文

标题: ITDR: An Instruction Tuning Dataset for Enhancing Large Language Models in Recommendations
链接: https://arxiv.org/abs/2508.05667

搜集汇总

数据集介绍

构建方式

在推荐系统领域，为弥合大型语言模型与用户行为数据之间的语义鸿沟，ITDR数据集通过系统化整合13个公开推荐数据集构建而成。研究团队采用人工设计的标准化模板，将原始数据转化为包含用户-物品交互和理解两大核心任务的指令微调数据，最终形成约20万条高质量实例。该构建过程严格遵循多任务学习框架，涵盖7个子任务类型，确保数据结构的多样性和任务覆盖的全面性。

使用方法

使用ITDR数据集时，研究者可采用标准的指令微调流程对预训练语言模型进行优化。数据集已按任务类型进行结构化组织，支持端到端的微调训练或特定子任务的专项优化。实践表明，结合任务描述文本和数据规模分析能进一步提升微调效果，建议使用者参考原始论文中的分层训练策略。对于模型部署，可通过ModelScope平台获取经过ITDR微调后的预训练模型。

背景与挑战

背景概述

随着大语言模型（LLMs）在自然语言处理任务中的卓越表现，其在推荐系统领域的应用潜力逐渐显现。然而，用户行为数据与自然语言之间的结构性差异，使得LLMs难以有效建模用户偏好与物品之间的关联。尽管基于提示的方法能够生成推荐结果，但由于对推荐任务理解的不足，其性能受到限制。为填补这一空白，研究人员构建了ITDR数据集，该数据集专注于指令微调，涵盖用户-物品交互和用户-物品理解两大核心任务的7个子任务。ITDR整合了13个公开推荐数据集的数据，通过人工设计的标准化模板构建，包含约20万条实例。实验表明，ITDR显著提升了GLM-4、Qwen2.5、Qwen2.5-Instruct和LLaMA-3.2等主流开源LLMs在推荐任务上的性能。

当前挑战

ITDR数据集面临的挑战主要体现在两个方面。在领域问题层面，推荐系统需要处理用户行为数据与自然语言之间的结构性差异，这使得LLMs难以直接建模用户偏好与物品的关联。此外，基于提示的方法虽然能够生成推荐结果，但对推荐任务的理解不足，导致性能受限。在构建过程中，研究人员需要整合来自13个公开推荐数据集的数据，并设计标准化模板以确保数据的一致性和可扩展性。同时，如何平衡不同子任务之间的数据分布，以及如何优化指令微调的效果，也是构建过程中需要解决的关键问题。

常用场景

经典使用场景

在推荐系统领域，ITDR数据集通过其丰富的指令调优数据，为大语言模型在用户-物品交互和用户-物品理解两大核心任务上的表现提供了显著提升。该数据集整合了13个公开推荐数据集的数据，并采用标准化模板构建，涵盖了约20万条实例，使其成为评估和优化大语言模型在推荐任务中性能的黄金标准。研究人员可以利用ITDR数据集进行多任务学习，探索模型在不同推荐子任务上的泛化能力。

解决学术问题

ITDR数据集有效解决了大语言模型在推荐系统中面临的关键挑战，即如何弥合用户行为数据与自然语言之间的结构性差异。通过精心设计的指令调优数据，该数据集增强了模型对推荐任务本质的理解，显著提升了GLM-4、Qwen2.5等主流开源大语言模型在推荐任务上的表现。同时，数据集还支持研究任务相关性、任务描述和数据规模对指令调优效果的影响，为推荐系统的算法优化提供了重要参考。

实际应用

在实际应用层面，ITDR数据集为电子商务、内容平台等需要个性化推荐的场景提供了强有力的技术支持。基于该数据集优化的模型能够更准确地捕捉用户偏好，生成高质量的推荐结果。数据集涵盖的多样化推荐子任务使其能够适应不同领域的推荐需求，从商品推荐到内容推荐，为产业界提供了可落地的解决方案。

数据集最近研究