Qilin

github2025-03-05 更新2025-02-24 收录

下载链接：

https://github.com/RED-Search/Qilin

下载链接

链接失效反馈

官方服务：

资源简介：

Qilin是一个大规模的多模态数据集，旨在推进搜索、推荐和检索增强生成(RAG)系统的研究。

Qilin is a large-scale multimodal dataset aimed at advancing research on search, recommendation, and retrieval-augmented generation (RAG) systems.

创建时间：

2025-02-05

原始信息汇总

Qilin数据集概述

基本信息

名称: Qilin
类型: 大规模多模态数据集
应用领域: 搜索、推荐系统、检索增强生成(RAG)系统
论文状态: 已被SIGIR 2025接收
下载量: 超过1,000次(HuggingFace平台)

数据集构成

搜索数据集

训练集: 44,024样本
测试集: 6,192样本
特征:
- 丰富的查询元数据
- 用户交互日志
- 真实点击标签

关键特性

多内容模态(文本、图像、视频缩略图)
丰富的用户交互数据
全面的评估指标
支持RAG系统开发

数据获取方式

主数据集: Hugging Face
图像资源: Tsinghua Cloud
示例数据: 仓库中包含toy_data/用于快速探索

模型依赖

Qwen/Qwen2-VL-2B-Instruct
Qwen/Qwen2-VL-7B-Instruct
google-bert/bert-base-chinese

引用格式

bibtex @misc{chen2025qilinmultimodalinformationretrieval, title={Qilin: A Multimodal Information Retrieval Dataset with APP-level User Sessions}, author={Jia Chen and Qian Dong and Haitao Li and Xiaohui He and Yan Gao and Shaosheng Cao and Yi Wu and Ping Yang and Chen Xu and Yao Hu and Qingyao Ai and Yiqun Liu}, year={2025}, eprint={2503.00501}, archivePrefix={arXiv}, primaryClass={cs.IR}, url={https://arxiv.org/abs/2503.00501}, }

许可证

MIT License

搜集汇总

数据集介绍

构建方式

Qilin数据集的构建旨在推进搜索、推荐以及检索增强生成(RAG)系统的研究。该数据集的构建整合了丰富的查询元数据、用户交互日志以及点击标签，涵盖了搜索、推荐两种主要场景，并提供了三种内容模态（文本、图像、视频缩略图）的多模态数据。

特点

Qilin数据集的特点在于其多模态内容形式，包含文本、图像和视频缩略图，同时具备丰富的用户交互数据。数据集支持全面评估指标，为检索增强生成系统的开发提供了坚实的基础。其涵盖了大规模的训练集和测试集，确保了模型的训练和评估质量。

使用方法

使用Qilin数据集首先需要安装相关依赖，从Hugging Face下载数据集并解压到指定目录。随后，下载所需的预训练模型并将它们放置在模型目录中。数据集的官方实现、基线模型和评估工具均已在该项目的代码库中提供，便于研究者快速上手和开展实验。

背景与挑战

背景概述

Qilin数据集是一项旨在推动搜索、推荐以及检索增强生成（RAG）系统研究的大型多模态数据集。该数据集由THUIR团队研发，汇集了多种内容模态（文本、图像、视频缩略图）以及丰富的用户交互数据，为相关领域的研究者提供了全面的研究资源。自发布以来，Qilin数据集以其全面性和实用性，在搜索推荐系统和内容生成领域产生了显著影响。

当前挑战

尽管Qilin数据集为相关领域的研究提供了强有力的支撑，但在使用过程中也面临诸多挑战。首先，多模态数据的整合与处理需要克服技术上的难题，如何有效结合文本、图像和视频信息是一大挑战。其次，数据集的标注质量直接关系到模型训练的效果，确保标注的准确性和一致性是构建过程中的关键。再者，针对检索增强生成系统的研究仍处于发展阶段，如何设计有效的实验来评估模型性能，也是当前研究面临的重要问题。

常用场景

经典使用场景

在搜索、推荐以及检索增强生成(RAG)系统的研究领域，Qilin数据集提供了丰富多元模态的数据资源。其经典的使用场景包括对大规模搜索数据集的训练与测试，通过丰富的查询元数据和用户交互日志来优化搜索结果的相关性，以及利用标注的点击数据来提升搜索系统的效果。同时，数据集亦支持构建和评估推荐系统，通过详细用户交互历史和上下文特征，实现精准内容推荐。

衍生相关工作

基于Qilin数据集，研究者已开展了一系列相关工作，包括但不限于开发新的基线模型、提出更高效的检索算法、以及探索多模态内容理解的深度学习模型。这些衍生工作进一步扩展了数据集的应用范围，推动了搜索和推荐系统领域的学术研究和工业应用的发展。

数据集最近研究