Qilin|多模态数据数据集|检索增强生成数据集
收藏Qilin数据集概述
基本信息
- 名称: Qilin
- 类型: 大规模多模态数据集
- 应用领域: 搜索、推荐系统、检索增强生成(RAG)系统
- 论文状态: 已被SIGIR 2025接收
- 下载量: 超过1,000次(HuggingFace平台)
数据集构成
搜索数据集
- 训练集: 44,024样本
- 测试集: 6,192样本
- 特征:
- 丰富的查询元数据
- 用户交互日志
- 真实点击标签
推荐数据集
- 训练集: 83,437样本
- 测试集: 11,115样本
- 特征:
- 详细用户交互历史
- 候选笔记池
- 上下文特征
- 真实点击标签
关键特性
- 多内容模态(文本、图像、视频缩略图)
- 丰富的用户交互数据
- 全面的评估指标
- 支持RAG系统开发
数据获取方式
- 主数据集: Hugging Face
- 图像资源: Tsinghua Cloud
- 示例数据: 仓库中包含
toy_data/
用于快速探索
模型依赖
- Qwen/Qwen2-VL-2B-Instruct
- Qwen/Qwen2-VL-7B-Instruct
- google-bert/bert-base-chinese
引用格式
bibtex @misc{chen2025qilinmultimodalinformationretrieval, title={Qilin: A Multimodal Information Retrieval Dataset with APP-level User Sessions}, author={Jia Chen and Qian Dong and Haitao Li and Xiaohui He and Yan Gao and Shaosheng Cao and Yi Wu and Ping Yang and Chen Xu and Yao Hu and Qingyao Ai and Yiqun Liu}, year={2025}, eprint={2503.00501}, archivePrefix={arXiv}, primaryClass={cs.IR}, url={https://arxiv.org/abs/2503.00501}, }
许可证
- MIT License

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录
典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
MedChain
MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。
arXiv 收录