five

ChatSearch|图像检索数据集|多模态对话数据集

收藏
arXiv2024-10-24 更新2024-10-26 收录
图像检索
多模态对话
下载链接:
https://github.com/joez17/ChatSearch
下载链接
链接失效反馈
资源简介:
ChatSearch是由中国科学院自动化研究所复杂系统认知与决策智能实验室创建的一个用于通用对话图像检索的数据集。该数据集包含多轮多模态对话上下文查询,旨在通过人机交互检索目标图像。数据集大小为25000条,涵盖了多轮对话中的文本和视觉信息。创建过程包括自动生成管道和领域专家的手动审查。ChatSearch主要应用于智能检索系统的直观交互界面构建,旨在解决复杂的多模态对话理解与图像检索问题。
提供机构:
中国科学院自动化研究所复杂系统认知与决策智能实验室
创建时间:
2024-10-24
原始信息汇总

ChatSearch 数据集概述

数据集名称

  • ChatSearch

数据集描述

  • ChatSearch 是一个用于通用对话式图像检索的数据集和生成检索模型。

数据集状态

  • 数据集即将发布。
AI搜集汇总
数据集介绍
main_image_url
构建方式
ChatSearch数据集的构建过程融合了自动化与人工审查的精妙结合。首先,研究团队设计了一套自动化的数据生成管道,借助大规模预训练模型如GPT-4、CLIP-H和BLIP-2-OPT2.7b,从MSCOCO数据集中提取图像与文本对,生成多轮多模态对话。随后,通过上下文合并方法,进一步复杂化对话内容,以模拟真实世界的交互情境。最后,领域专家对生成的数据进行手动审查,确保图像质量与对话内容的逻辑相关性,从而构建出一个高质量的评估数据集。
特点
ChatSearch数据集的独特之处在于其强调多模态推理与多轮对话的结合,这为构建直观的智能检索系统提供了必要的基础。该数据集不仅包含了多轮纯文本对话,还涵盖了单轮与多轮的图像-文本混合对话,使得检索任务更加复杂且贴近实际应用。此外,数据集中的对话内容并非显式地描述检索需求,而是隐含在对话的上下文中,这要求检索模型具备强大的多模态理解与复杂推理能力。
使用方法
ChatSearch数据集适用于训练和评估多模态对话检索模型,特别是那些需要处理复杂对话上下文和隐含检索意图的模型。研究者可以使用该数据集进行模型的端到端训练,通过多轮对话中的文本与图像信息,训练模型理解用户意图并准确检索目标图像。此外,数据集的多样性与复杂性也使其成为测试模型泛化能力与鲁棒性的理想平台,有助于推动多模态对话检索领域的研究进展。
背景与挑战
背景概述
ChatSearch数据集由Zijia Zhao等人于2024年创建,旨在推动开放领域图像的通用对话式图像检索任务。该数据集的核心研究问题是如何通过人机交互对话来检索图像,强调多轮多模态对话上下文的重要性。ChatSearch的构建不仅依赖于大规模预训练模型,还经过领域专家的手动审查,确保数据质量。该数据集的推出标志着图像检索领域从传统的单轮交互向更复杂的多模态对话交互的转变,为智能检索系统的直观交互界面提供了新的研究方向。
当前挑战
ChatSearch数据集面临的挑战主要集中在两个方面。首先,通用对话式图像检索任务本身具有复杂性,要求检索系统能够理解多模态内容并从多轮对话中提取检索意图,这需要模型具备强大的多模态理解和复杂推理能力。其次,数据集的构建过程中,如何确保自动生成对话的准确性和相关性,以及如何通过手动审查来提升数据质量,都是构建过程中必须克服的难题。此外,ChatSearch的成功应用还依赖于能够处理多模态输入输出的生成检索模型的开发,这对模型的设计和训练提出了更高的要求。
常用场景
经典使用场景
在多模态对话图像检索领域,ChatSearch数据集的经典应用场景在于其能够支持基于多轮对话的图像检索任务。该数据集通过包含多轮多模态对话上下文查询,要求检索系统从数据库中准确地检索出目标图像。这种场景特别适用于需要通过逐步对话来精炼检索结果的应用,如智能客服和增强现实交互系统。
实际应用
在实际应用中,ChatSearch数据集可以广泛应用于需要高度交互性和多模态输入的场景,如智能助手、虚拟试衣间和智能家居系统。通过模拟真实的人机对话,这些系统能够更好地理解用户的意图,提供更加个性化和精准的服务,从而提升用户满意度和系统效率。
衍生相关工作
基于ChatSearch数据集,研究者们开发了多种生成式检索模型,如ChatSearcher,这些模型不仅在多模态对话图像检索任务中表现出色,还展示了在其他图像检索任务和视觉对话任务中的强大泛化能力。此外,该数据集还激发了对交互式多模态检索系统更深入的研究,推动了多模态大语言模型在图像检索领域的应用和发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域地面气象要素驱动数据集 v2.0(1951-2024)

中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 74 年(1951~2024 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。

国家青藏高原科学数据中心 收录

giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9

该数据集包含了用户与助手之间的对话,其中包含两个字段:用户发言和助手回应,均为字符串类型。训练集大小为38646852字节,共有44096条对话记录。

huggingface 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

猫狗分类

## 数据集描述 ### 数据集简介 本数据集是简单的猫狗二分类数据集,共2个类别,其中训练集包含275张带注释的图像,验证集包含70张带注释的图像。整个数据集共10.3MB,可用于快速模型验证、性能评估、小数据集训练等。 ### 数据集支持的任务 可用于快速模型验证、性能评估、小数据集训练等。 ## 数据集的格式和结构 ### 数据格式 数据集包括训练集train和验证集val,train和val文件夹之下按文件夹进行分类,共有2个子文件夹,同类别标签的图片在同一个文件夹下,图片格式为JPG。同时包含与标注文件中label id相对应的类名文件classname.txt。 ### 数据集加载方式 ```python from modelscope.msdatasets import MsDataset from modelscope.utils.constant import DownloadMode ms_train_dataset = MsDataset.load( 'cats_and_dogs', namespace='tany0699', subset_name='default', split='train') # 加载训练集 print(next(iter(ms_train_dataset))) ms_val_dataset = MsDataset.load( 'cats_and_dogs', namespace='tany0699', subset_name='default', split='validation') # 加载验证集 print(next(iter(ms_val_dataset))) ``` ### 数据分片 本数据集包含train和val数据集。 | 子数据集 | train | val | test | |---------|-------------:|-----------:|---------:| | default | 训练集 | 验证集 | / | ### Clone with HTTP ```bash git clone https://www.modelscope.cn/datasets/tany0699/cats_and_dogs.git ```

魔搭社区 收录

DiseaseKG

DiseaseKG数据集包含了疾病、药品、食物、检查项目、科目、在售药品、疾病症状、治疗方法等8类实体,以及相应的属性和11类关系,用于构建医疗领域的知识图谱。

github 收录