five

Qilin|多模态数据数据集|检索增强生成数据集

收藏
github2025-03-05 更新2025-02-24 收录
多模态数据
检索增强生成
下载链接:
https://github.com/RED-Search/Qilin
下载链接
链接失效反馈
资源简介:
Qilin是一个大规模的多模态数据集,旨在推进搜索、推荐和检索增强生成(RAG)系统的研究。
创建时间:
2025-02-05
原始信息汇总

Qilin数据集概述

基本信息

  • 名称: Qilin
  • 类型: 大规模多模态数据集
  • 应用领域: 搜索、推荐系统、检索增强生成(RAG)系统
  • 论文状态: 已被SIGIR 2025接收
  • 下载量: 超过1,000次(HuggingFace平台)

数据集构成

搜索数据集

  • 训练集: 44,024样本
  • 测试集: 6,192样本
  • 特征:
    • 丰富的查询元数据
    • 用户交互日志
    • 真实点击标签

推荐数据集

  • 训练集: 83,437样本
  • 测试集: 11,115样本
  • 特征:
    • 详细用户交互历史
    • 候选笔记池
    • 上下文特征
    • 真实点击标签

关键特性

  • 多内容模态(文本、图像、视频缩略图)
  • 丰富的用户交互数据
  • 全面的评估指标
  • 支持RAG系统开发

数据获取方式

模型依赖

  • Qwen/Qwen2-VL-2B-Instruct
  • Qwen/Qwen2-VL-7B-Instruct
  • google-bert/bert-base-chinese

引用格式

bibtex @misc{chen2025qilinmultimodalinformationretrieval, title={Qilin: A Multimodal Information Retrieval Dataset with APP-level User Sessions}, author={Jia Chen and Qian Dong and Haitao Li and Xiaohui He and Yan Gao and Shaosheng Cao and Yi Wu and Ping Yang and Chen Xu and Yao Hu and Qingyao Ai and Yiqun Liu}, year={2025}, eprint={2503.00501}, archivePrefix={arXiv}, primaryClass={cs.IR}, url={https://arxiv.org/abs/2503.00501}, }

许可证

  • MIT License
AI搜集汇总
数据集介绍
main_image_url
构建方式
Qilin数据集的构建旨在推进搜索、推荐以及检索增强生成(RAG)系统的研究。该数据集的构建整合了丰富的查询元数据、用户交互日志以及点击标签,涵盖了搜索、推荐两种主要场景,并提供了三种内容模态(文本、图像、视频缩略图)的多模态数据。
特点
Qilin数据集的特点在于其多模态内容形式,包含文本、图像和视频缩略图,同时具备丰富的用户交互数据。数据集支持全面评估指标,为检索增强生成系统的开发提供了坚实的基础。其涵盖了大规模的训练集和测试集,确保了模型的训练和评估质量。
使用方法
使用Qilin数据集首先需要安装相关依赖,从Hugging Face下载数据集并解压到指定目录。随后,下载所需的预训练模型并将它们放置在模型目录中。数据集的官方实现、基线模型和评估工具均已在该项目的代码库中提供,便于研究者快速上手和开展实验。
背景与挑战
背景概述
Qilin数据集是一项旨在推动搜索、推荐以及检索增强生成(RAG)系统研究的大型多模态数据集。该数据集由THUIR团队研发,汇集了多种内容模态(文本、图像、视频缩略图)以及丰富的用户交互数据,为相关领域的研究者提供了全面的研究资源。自发布以来,Qilin数据集以其全面性和实用性,在搜索推荐系统和内容生成领域产生了显著影响。
当前挑战
尽管Qilin数据集为相关领域的研究提供了强有力的支撑,但在使用过程中也面临诸多挑战。首先,多模态数据的整合与处理需要克服技术上的难题,如何有效结合文本、图像和视频信息是一大挑战。其次,数据集的标注质量直接关系到模型训练的效果,确保标注的准确性和一致性是构建过程中的关键。再者,针对检索增强生成系统的研究仍处于发展阶段,如何设计有效的实验来评估模型性能,也是当前研究面临的重要问题。
常用场景
经典使用场景
在搜索、推荐以及检索增强生成(RAG)系统的研究领域,Qilin数据集提供了丰富多元模态的数据资源。其经典的使用场景包括对大规模搜索数据集的训练与测试,通过丰富的查询元数据和用户交互日志来优化搜索结果的相关性,以及利用标注的点击数据来提升搜索系统的效果。同时,数据集亦支持构建和评估推荐系统,通过详细用户交互历史和上下文特征,实现精准内容推荐。
衍生相关工作
基于Qilin数据集,研究者已开展了一系列相关工作,包括但不限于开发新的基线模型、提出更高效的检索算法、以及探索多模态内容理解的深度学习模型。这些衍生工作进一步扩展了数据集的应用范围,推动了搜索和推荐系统领域的学术研究和工业应用的发展。
数据集最近研究
最新研究方向
在搜索、推荐以及检索增强生成系统(RAG)研究领域,Qilin数据集以其大规模多模态特性,为推进相关技术提供了坚实基础。近期研究集中于如何利用该数据集丰富的查询元数据、用户交互日志以及点击标签等特征,以提升搜索和推荐算法的准确性和效率。此外,该数据集支持RAG系统开发,使得研究者能够探索如何将检索与生成相结合,以创造出更加智能的信息检索与生成模型。这些研究不仅拓宽了多模态数据处理的应用范围,也为信息检索领域带来了新的视角和突破。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录