Qilin

Hugging Face2025-03-09 更新2025-03-10 收录

下载链接：

https://huggingface.co/datasets/THUIR/Qilin

下载链接

链接失效反馈

官方服务：

资源简介：

Qilin是一个大规模的多模态数据集，旨在推进搜索、推荐和检索增强生成系统的研究。数据集包含丰富的用户会话数据，支持多种NLP任务，包括问答、文本分类、句子相似度和文本检索等。

Qilin is a large-scale multimodal dataset designed to advance research on search, recommendation, and retrieval-augmented generation systems. This dataset contains rich user session data and supports a variety of NLP tasks, including question answering, text classification, sentence similarity, text retrieval, and more.

创建时间：

2025-02-23

搜集汇总

数据集介绍

构建方式

Qilin数据集的构建汇集了多模态信息检索、推荐系统及检索增强生成系统等多个场景下的用户会话数据。该数据集通过整合文本、图像、视频缩略图等多种内容模态，辅以丰富的用户交互日志和点击标签，形成了对搜索、推荐等任务具有高度实用价值的数据集。

特点

Qilin数据集的特点在于其多模态数据的综合运用，涵盖了丰富的用户交互数据，包括用户的点击、收藏、评论、分享等行为，以及详细的用户特征信息。数据集支持多种任务类别，如问答、文本分类、句子相似度、文本检索和图像文本到文本生成等，且提供了全面的评估指标，为研究者和开发者提供了极大的便利。

使用方法

使用Qilin数据集首先需要从Hugging Face官方渠道下载相应配置的数据文件。随后，用户需根据官方文档提供的指引，准备所需的基础模型，并将数据集解压至指定目录。在数据准备好之后，用户可以依据数据集的特性和任务需求，进行模型训练、验证和测试等操作。

背景与挑战

背景概述

Qilin数据集是一款大规模的多模态数据集，旨在推动搜索、推荐以及检索增强生成（Retrieval-Augmented Generation, RAG）系统的研究进展。该数据集由THUIR团队创建，并在2023年推出，其研究成果发表在同年的论文《Qilin: A Multimodal Information Retrieval Dataset with APP-level User Sessions》中。Qilin数据集涵盖了丰富的查询元数据、用户交互日志以及地面点击标签，支持文本、图像、视频缩略图等多种内容模态，为研究人员提供了综合性的评价指标和RAG系统开发的支撑。

当前挑战

在构建Qilin数据集的过程中，研究人员面临了多个挑战。首先，如何有效地整合多模态数据，确保不同类型数据的一致性和可用性是一个关键问题。其次，数据集的多样性和规模要求在数据收集和标注过程中采取严谨的质量控制措施。此外，为了满足检索增强生成系统的需求，数据集需要包含详细的用户交互历史和上下文特征，这对数据集的设计和构建提出了更高的要求。在研究领域问题方面，Qilin数据集需要解决如何提高搜索和推荐系统的准确性和效率，以及如何更好地理解用户意图和提供个性化服务的问题。

常用场景

经典使用场景

Qilin数据集在搜索、推荐以及检索增强生成（RAG）系统中具有重要应用价值，其经典使用场景主要涉及对用户查询的理解、搜索结果的排序、以及基于用户历史行为进行内容推荐。该数据集通过提供丰富的用户交互日志和详细的查询元数据，为研究人员构建和评估复杂的信息检索模型提供了坚实基础。

衍生相关工作

基于Qilin数据集，研究者已经开展了一系列相关工作，包括构建基准模型、提出新的评价指标、以及探索多模态信息检索和检索增强生成的新方法。这些工作进一步推动了信息检索领域的发展，并为实际应用提供了新的视角和技术路径。

数据集最近研究