five

Qilin

收藏
arXiv2025-03-01 更新2025-03-06 收录
下载链接:
https://github.com/RED-Search/Qilin
下载链接
链接失效反馈
官方服务:
资源简介:
Qilin数据集是由清华大学和小红书公司合作创建的多模态信息检索数据集。该数据集包含来自小红书平台上超过3000万月活跃用户的APP级信息发现会话,涵盖了搜索、DQA(深度查询回答)和推荐等多种场景。Qilin特色在于收集了丰富的APP级上下文信号和真实用户反馈,有助于深入分析用户状态转换、回访和查询重构等行为,以建模用户满意度和长期留存。数据集中的用户会话包含文本和图像内容,适用于多种检索场景下的复杂查询意图理解和会话级跨模态匹配任务。

The Qilin Dataset is a multimodal information retrieval dataset co-created by Tsinghua University and Xiaohongshu. This dataset contains app-level information discovery sessions from over 30 million monthly active users on the Xiaohongshu platform, covering multiple scenarios including search, Deep Query Answering (DQA), and recommendation. A distinctive feature of the Qilin Dataset is its collection of rich app-level contextual signals and real user feedback, which supports in-depth analysis of user behaviors such as state transitions, revisit behaviors, and query reformulation, enabling the modeling of user satisfaction and long-term retention. The user sessions in the dataset include both text and image content, making it applicable for complex query intent understanding and session-level cross-modal matching tasks across various retrieval scenarios.
提供机构:
清华大学
创建时间:
2025-03-01
搜集汇总
数据集介绍
main_image_url
构建方式
Qilin数据集的构建过程首先从小红书平台收集用户数据,该平台拥有超过3亿月活跃用户和超过70%的搜索渗透率。数据集的构建分为几个关键步骤:用户抽样、前端日志合并、特征收集和数据过滤。首先,从展示核心交互行为的用户中随机抽样用户ID。然后,将这些用户ID与前端日志合并,以获取请求级别信息和用户反馈。接下来,从各种数据库中收集请求、用户和笔记的特征。最后,所有内容特征都经过大型语言模型(LLM)和人工专家的严格过滤。
特点
Qilin数据集的特点在于其包含了来自小红书平台的用户生成内容(UGC),这些内容涵盖了多种模态,如文本、图像和视频。此外,数据集还包含了丰富的APP级上下文信号,如查询来源、请求历史、时间戳、位置等,以及用户对整个系统的多方面反馈。为了更好地评估检索增强生成(RAG)模块对用户体验的影响,Qilin还收集了触发深度查询回答(DQA)模块的搜索请求,以及用户偏好的答案和其引用的结果。这使得Qilin不仅能够用于训练和评估RAG模块,还可以用于探索该模块对用户行为的影响。
使用方法
使用Qilin数据集的方法包括但不限于:基于内容的检索和重新排序,多模态搜索和推荐,无偏学习排名,上下文感知排名,会话搜索,检索增强生成,查询性能预测等。此外,由于数据集包含了丰富的上下文信号和用户反馈,研究人员还可以利用这些数据来探索多任务学习和多场景学习框架,以及分析异构用户行为模式。Qilin数据集还可以作为半成品基准,通过添加精确的人工注释来支持更多任务,如用户满意度建模、实体增强搜索、多模态RAG评估等。
背景与挑战
背景概述
随着用户生成内容(UGC)社区的发展,特别是那些具有多媒体内容的社区,通过将视觉和文本信息整合到结果中,极大地提升了用户体验。近年来,学术界和工业界都对提高复杂系统中的搜索和推荐(S&R)服务以改善用户体验的问题给予了广泛关注。然而,高质量数据集的缺乏限制了多媒体S&R研究的发展。为了解决这一日益增长的需求,本文提出了一种名为Qilin的新型多媒体信息检索数据集。该数据集从拥有超过3亿月活跃用户和平均搜索渗透率超过70%的流行社交平台小红书收集而来。与现有数据集相比,Qilin提供了一个全面的用户会话集合,包括图像-文本笔记、视频笔记、商业笔记和直接答案等异构结果,从而促进了在各种任务设置中开发先进的神经网络检索模型。为了更好地模拟用户满意度并支持对异构用户行为进行分析,我们还收集了大量的APP级上下文信号和真实用户反馈。值得一提的是,Qilin包含了用户偏好的答案及其引用结果,用于触发深度查询回答(DQA)模块的搜索请求。这不仅允许训练和评估检索增强生成(RAG)管道,还可以探索此类模块如何影响用户的搜索行为。通过综合分析和实验,我们提供了有关如何进一步改进S&R系统的有趣发现和见解。我们希望Qilin将在未来为具有S&R服务的多媒体内容平台的进步做出重大贡献。
当前挑战
Qilin数据集面临的挑战包括:1)所解决的领域问题:Qilin旨在提高多媒体S&R系统的性能,尤其是在用户会话和异构结果方面。这要求模型能够处理复杂的用户意图和多样化的内容形式。2)构建过程中所遇到的挑战:在构建过程中,需要从大量的用户行为数据中筛选出高质量的数据,并进行有效的清洗和预处理。同时,还需要收集大量的APP级上下文信号和用户反馈,以支持对用户行为的深入分析。此外,为了保护用户隐私,还需要对数据进行脱敏处理。
常用场景
经典使用场景
Qilin数据集主要用于多模态信息检索任务,特别是针对用户在APP级别的会话信息进行研究和分析。数据集包含了丰富的用户行为数据,如搜索、推荐和深度问答等场景下的用户行为轨迹,以及用户对结果的反馈。这使得Qilin数据集成为研究多模态信息检索模型和用户行为分析的重要资源。
解决学术问题
Qilin数据集解决了多模态信息检索领域中缺乏高质量数据集的问题。现有的数据集往往只包含文本信息或统计特征,而Qilin数据集提供了丰富的多模态内容,如图文笔记、视频笔记、商业笔记和直接答案等。此外,Qilin数据集还包含了APP级别的上下文信号和用户反馈,为研究用户满意度、用户行为模式和长期留存等问题提供了重要的数据基础。
衍生相关工作
基于Qilin数据集的研究成果已经衍生出许多相关的经典工作。例如,研究人员利用Qilin数据集训练和评估了检索增强生成(RAG)模型,探索了RAG模块对用户行为的影响。此外,Qilin数据集还促进了多模态内容平台中搜索和推荐服务的改进,为相关领域的研究提供了重要的参考和启示。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作