passing2961/photochat_plus
收藏Hugging Face2024-06-30 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/passing2961/photochat_plus
下载链接
链接失效反馈官方服务:
资源简介:
PhotoChat++是一个公开的多模态对话数据集,是PhotoChat数据集的扩展版本。该数据集包含六种意图标签、触发句子、图像描述和显著信息(如“单词”或“短语”)等内容,旨在全面评估基于人类内部操作系统的LLM的图像共享能力。数据集通过众包方式创建,语言为英语,包含968个训练样本。
PhotoChat++ is a publicly available multi-modal dialogue dataset, an extended version of PhotoChat. The dataset contains six intent labels, a triggering sentence, an image description, and salient information (e.g., “words” or “phrases”) to invoke the image-sharing behavior. The purpose of this dataset is to thoroughly assess the image-sharing capability of LLMs based on humans internal operating systems. The dataset is created via crowd-sourcing, in English, and contains 968 training examples.
提供机构:
passing2961
原始信息汇总
数据集概述
数据集描述
- 数据集名称: PhotoChat++
- 数据集类型: 多模态对话数据集
- 扩展自: PhotoChat
- 语言: 英语
- 数据集大小: 968条对话
- 标签: 包含六个意图标签、触发句、图片描述和显著信息(如“单词”或“短语”)
- 目的: 评估基于人类内部操作系统的大型语言模型(LLMs)的图像共享能力
数据集结构
| 字段 | 类型 | 描述 |
|---|---|---|
dialogue_id |
str | 对话标识符,包含PhotoChat中的原始对话标识符 |
dialogue |
list of dict | 对话内容,每个字典条目包括{message, share_photo, user_id}(来自PhotoChat) |
photo_id |
str | 图片标识符(来自PhotoChat) |
photo_url |
str | 图片URL(来自PhotoChat) |
photo_description |
str | 图片描述(来自PhotoChat) |
intents |
list of str | 从众包中注释的所有意图 |
trigger_sentences |
list of str | 触发图像共享行为的触发句,从众包中注释 |
image_descriptions |
list of str | 从众包中注释的所有图像描述,不同于photo_description字段 |
salient_information |
list of str | 从众包中注释的所有显著信息(如单词或短语) |
数据集创建
- 创建方式: 通过众包创建
- 许可证: CC BY 4.0 International
- 推荐用途: 推荐用于学术和研究目的



