five

Qilin|自然语言处理数据集|用户行为分析数据集

收藏
huggingface2025-03-09 更新2025-03-10 收录
自然语言处理
用户行为分析
下载链接:
https://huggingface.co/datasets/THUIR/Qilin
下载链接
链接失效反馈
资源简介:
Qilin是一个大规模的多模态数据集,旨在推进搜索、推荐和检索增强生成系统的研究。数据集包含丰富的用户会话数据,支持多种NLP任务,包括问答、文本分类、句子相似度和文本检索等。
创建时间:
2025-02-23
AI搜集汇总
数据集介绍
main_image_url
构建方式
Qilin数据集的构建汇集了多模态信息检索、推荐系统及检索增强生成系统等多个场景下的用户会话数据。该数据集通过整合文本、图像、视频缩略图等多种内容模态,辅以丰富的用户交互日志和点击标签,形成了对搜索、推荐等任务具有高度实用价值的数据集。
特点
Qilin数据集的特点在于其多模态数据的综合运用,涵盖了丰富的用户交互数据,包括用户的点击、收藏、评论、分享等行为,以及详细的用户特征信息。数据集支持多种任务类别,如问答、文本分类、句子相似度、文本检索和图像文本到文本生成等,且提供了全面的评估指标,为研究者和开发者提供了极大的便利。
使用方法
使用Qilin数据集首先需要从Hugging Face官方渠道下载相应配置的数据文件。随后,用户需根据官方文档提供的指引,准备所需的基础模型,并将数据集解压至指定目录。在数据准备好之后,用户可以依据数据集的特性和任务需求,进行模型训练、验证和测试等操作。
背景与挑战
背景概述
Qilin数据集是一款大规模的多模态数据集,旨在推动搜索、推荐以及检索增强生成(Retrieval-Augmented Generation, RAG)系统的研究进展。该数据集由THUIR团队创建,并在2023年推出,其研究成果发表在同年的论文《Qilin: A Multimodal Information Retrieval Dataset with APP-level User Sessions》中。Qilin数据集涵盖了丰富的查询元数据、用户交互日志以及地面点击标签,支持文本、图像、视频缩略图等多种内容模态,为研究人员提供了综合性的评价指标和RAG系统开发的支撑。
当前挑战
在构建Qilin数据集的过程中,研究人员面临了多个挑战。首先,如何有效地整合多模态数据,确保不同类型数据的一致性和可用性是一个关键问题。其次,数据集的多样性和规模要求在数据收集和标注过程中采取严谨的质量控制措施。此外,为了满足检索增强生成系统的需求,数据集需要包含详细的用户交互历史和上下文特征,这对数据集的设计和构建提出了更高的要求。在研究领域问题方面,Qilin数据集需要解决如何提高搜索和推荐系统的准确性和效率,以及如何更好地理解用户意图和提供个性化服务的问题。
常用场景
经典使用场景
Qilin数据集在搜索、推荐以及检索增强生成(RAG)系统中具有重要应用价值,其经典使用场景主要涉及对用户查询的理解、搜索结果的排序、以及基于用户历史行为进行内容推荐。该数据集通过提供丰富的用户交互日志和详细的查询元数据,为研究人员构建和评估复杂的信息检索模型提供了坚实基础。
衍生相关工作
基于Qilin数据集,研究者已经开展了一系列相关工作,包括构建基准模型、提出新的评价指标、以及探索多模态信息检索和检索增强生成的新方法。这些工作进一步推动了信息检索领域的发展,并为实际应用提供了新的视角和技术路径。
数据集最近研究
最新研究方向
Qilin数据集作为一款大规模的多模态信息检索数据集,近期研究方向主要聚焦于搜索、推荐以及检索增强生成(RAG)系统。该数据集以其丰富的查询元数据、用户互动日志和点击标签等特征,为研究人员提供了深入探索用户行为模式、内容分发机制以及多模态交互的宝贵资源。目前,研究者们正致力于开发能够充分利用这些多模态信息的先进模型,以提升信息检索系统的智能化水平,满足用户个性化需求,推动相关领域的学术发展和应用创新。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录