five

VityaVitalich/IMAD

收藏
Hugging Face2023-05-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/VityaVitalich/IMAD
下载链接
链接失效反馈
官方服务:
资源简介:
IMAD数据集包含来自论文《IMage Augmented multi-modal Dialogue: IMAD》的数据,主要特点是任务的新颖性,专门为对话上下文中的图像解释而生成。部分对话语句被替换为图像,允许训练生成模型以恢复初始语句。对话来源于多个对话数据集(DailyDialog、Commonsense、PersonaChat、MuTual、Empathetic Dialogues、Dream),并经过论文中描述的技术筛选。大部分数据由评估者标注,具有高可靠性。这些方法的结合导致了一个经过良好筛选的数据集,从而获得了高BLEU分数。我们希望这个数据集对多模态深度学习的发展有益。

IMAD数据集包含来自论文《IMage Augmented multi-modal Dialogue: IMAD》的数据,主要特点是任务的新颖性,专门为对话上下文中的图像解释而生成。部分对话语句被替换为图像,允许训练生成模型以恢复初始语句。对话来源于多个对话数据集(DailyDialog、Commonsense、PersonaChat、MuTual、Empathetic Dialogues、Dream),并经过论文中描述的技术筛选。大部分数据由评估者标注,具有高可靠性。这些方法的结合导致了一个经过良好筛选的数据集,从而获得了高BLEU分数。我们希望这个数据集对多模态深度学习的发展有益。
提供机构:
VityaVitalich
原始信息汇总

数据集概述

  • 名称: IMAD
  • 语言: 英语
  • 多语言性: 单语种
  • 任务类别:
    • 文本生成
    • 图像到文本
  • 标签:
    • 多模态
    • 对话
  • 大小: 1K<n<10K
  • 许可证: CC BY-NC-4.0

数据集详情

  • 主要功能: 该数据集专为图像在对话环境中的解释生成而设计。部分对话中的语音已被图像替换,允许训练生成模型以恢复原始语音。
  • 数据来源: 数据来源于多个对话数据集,包括DailyDialog、Commonsense、PersonaChat、MuTual、Empathetic Dialogues、Dream,并采用论文中描述的技术进行过滤。
  • 数据质量: 大部分数据由评估者标记,具有高内部可靠性评分,导致高BLEU分数。

数据字段

  • image_id: 字符串,包含Unsplash数据集中图像的ID。
  • source_data: 字符串,包含源数据集的名称。
  • utter: 字符串,包含对话中被图像替换的语音。
  • context: 字符串列表,包含替换语音前对话中的语音序列。
  • image_like: 整数,显示数据是通过评估者收集还是通过过滤技术收集。

许可证信息

  • 文本部分: CC BY-NC-SA 4.0
  • 完整数据集(含图像): 可直接联系作者请求或通过匹配Unsplash完整数据集的图像ID获取。

联系方式

  • 邮箱: vvmoskvoretskiy@yandex.ru
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作