five

passing2961/photochat_plus

收藏
Hugging Face2024-06-30 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/passing2961/photochat_plus
下载链接
链接失效反馈
官方服务:
资源简介:
PhotoChat++是一个公开的多模态对话数据集,是PhotoChat数据集的扩展版本。该数据集包含六种意图标签、触发句子、图像描述和显著信息(如“单词”或“短语”)等内容,旨在全面评估基于人类内部操作系统的LLM的图像共享能力。数据集通过众包方式创建,语言为英语,包含968个训练样本。

PhotoChat++ is a publicly available multi-modal dialogue dataset, an extended version of PhotoChat. The dataset contains six intent labels, a triggering sentence, an image description, and salient information (e.g., “words” or “phrases”) to invoke the image-sharing behavior. The purpose of this dataset is to thoroughly assess the image-sharing capability of LLMs based on humans internal operating systems. The dataset is created via crowd-sourcing, in English, and contains 968 training examples.
提供机构:
passing2961
原始信息汇总

数据集概述

数据集描述

  • 数据集名称: PhotoChat++
  • 数据集类型: 多模态对话数据集
  • 扩展自: PhotoChat
  • 语言: 英语
  • 数据集大小: 968条对话
  • 标签: 包含六个意图标签、触发句、图片描述和显著信息(如“单词”或“短语”)
  • 目的: 评估基于人类内部操作系统的大型语言模型(LLMs)的图像共享能力

数据集结构

字段 类型 描述
dialogue_id str 对话标识符,包含PhotoChat中的原始对话标识符
dialogue list of dict 对话内容,每个字典条目包括{message, share_photo, user_id}(来自PhotoChat)
photo_id str 图片标识符(来自PhotoChat)
photo_url str 图片URL(来自PhotoChat)
photo_description str 图片描述(来自PhotoChat)
intents list of str 从众包中注释的所有意图
trigger_sentences list of str 触发图像共享行为的触发句,从众包中注释
image_descriptions list of str 从众包中注释的所有图像描述,不同于photo_description字段
salient_information list of str 从众包中注释的所有显著信息(如单词或短语)

数据集创建

  • 创建方式: 通过众包创建
  • 许可证: CC BY 4.0 International
  • 推荐用途: 推荐用于学术和研究目的
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作