zhongshsh/CLoT-Oogiri-GO

Name: zhongshsh/CLoT-Oogiri-GO
Creator: zhongshsh
Published: 2024-03-19 08:55:53
License: 暂无描述

Hugging Face2024-03-19 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/zhongshsh/CLoT-Oogiri-GO

下载链接

链接失效反馈

官方服务：

资源简介：

Oogiri-GO是一个多模态和多语言的幽默数据集，包含超过130,000个Oogiri样本，涵盖英语、中文和日语。特别地，Oogiri-GO中77.95%的样本标注了人类偏好，即点赞数，表示响应的受欢迎程度。数据集包含三种类型的Oogiri游戏，根据输入可以是图像、文本或两者，分别称为Text to Text (T2T)、Image to Text (I2T)和Image & Text to Text (IT2T)。每个样本在`jsonl`文件中以特定格式表示，包括类型、问题、图像、文本和人类偏好。数据集的95%用于训练，5%用于测试。

提供机构：

zhongshsh

原始信息汇总

Oogiri-GO 数据集概述

数据集基本信息

名称: Oogiri-GO
许可证: MIT
任务类别:
- 视觉问答
- 问答
语言:
- 英语
- 中文
- 日语
规模: 100K<n<1M

数据集描述

内容: Oogiri-GO 是一个多模态和多语言的幽默数据集，包含超过130,000个英语、中文和日语的Oogiri样本。数据集中77.95%的样本有人类偏好标注，即点赞数，用以表示回复的受欢迎程度。
类型: 数据集根据输入类型分为三种游戏类型："文本到文本"（T2T）、"图像到文本"（I2T）和"图像与文本到文本"（IT2T）。
格式: 每个样本以JSONL格式存储，包含类型、问题、图像、文本和星级（人类偏好）等字段。

数据分布

游戏类型分布:

类别英语中文日语

I2T 17336 32130 40278

T2T 6433 15797 11842

IT2T -- 912 9420

使用许可

主要许可: Creative Commons Attribution 4.0 International
附加条款: 遵循数据源如Bokete和Zhihu的使用条款。

联系方式

问题反馈: 如有任何关于数据集的疑问或侵权问题，请通过项目页面联系我们。

搜集汇总

数据集介绍

构建方式

Oogiri-GO数据集的构建基于多模态和多语言的幽默生成任务，涵盖了超过13万条样本，分别以英语、中文和日语呈现。数据集通过三种类型的Oogiri游戏（T2T、I2T、IT2T）进行分类，每种类型对应不同的输入形式，包括文本、图像或两者的结合。数据集的构建过程中，77.95%的样本被标注了人类偏好，即点赞数，以反映响应的受欢迎程度。训练集和测试集的划分遵循95%和5%的比例，确保了数据集的多样性和实用性。

特点

Oogiri-GO数据集的显著特点在于其多模态和多语言的特性，涵盖了英语、中文和日语三种语言，且每种语言的样本分布均衡。数据集中的样本不仅包含文本和图像的结合，还通过点赞数标注了人类偏好，为研究幽默生成和多模态理解提供了丰富的资源。此外，数据集的多样性体现在其三种不同的Oogiri游戏类型，分别对应不同的输入形式，增强了数据集在多模态任务中的应用潜力。

使用方法

Oogiri-GO数据集适用于视觉问答和问答任务，尤其在多模态幽默生成领域具有广泛的应用前景。用户可以通过读取jsonl文件中的每条样本，利用`type`字段区分不同的Oogiri游戏类型，`question`和`image`字段获取输入信息，`text`字段获取响应内容，`star`字段获取人类偏好。数据集的多样性和标注的详细性使其成为研究多模态理解和幽默生成模型的理想选择，尤其适用于训练和验证相关模型。

背景与挑战

背景概述

Oogiri-GO数据集是由Zhong, Shanshan等人于2023年创建的多模态多语言幽默数据集，旨在探索大型语言模型在创造性幽默生成中的应用。该数据集包含超过13万条样本，涵盖英语、中文和日语三种语言，其中77.95%的样本通过‘点赞’数标注了人类偏好，反映了响应的受欢迎程度。Oogiri-GO数据集通过三种类型的Oogiri游戏（T2T、I2T、IT2T）展示了多模态信息（图像、文本或两者结合）与幽默响应之间的关系，为研究幽默生成和多模态理解提供了丰富的资源。

当前挑战

Oogiri-GO数据集面临的挑战主要集中在多模态幽默生成的复杂性和跨语言理解的难度。首先，如何有效整合图像和文本信息以生成既幽默又符合语境的响应是一个技术难题。其次，不同语言和文化背景下的幽默表达差异显著，确保模型在跨语言环境中的泛化能力是一大挑战。此外，数据集的构建过程中，如何确保样本的多样性和代表性，以及如何准确标注人类偏好，也是需要克服的难题。

常用场景

经典使用场景

Oogiri-GO数据集在多模态幽默生成领域展现了其独特的应用价值。该数据集通过包含图像、文本或两者结合的输入形式，提供了三种类型的Oogiri游戏：'Text to Text'（T2T）、'Image to Text'（I2T）和'Image & Text to Text'（IT2T）。这些游戏要求参与者根据给定的多模态信息生成富有创意和幽默感的回应，从而在视觉问答和问答任务中提供了丰富的训练和测试数据。

解决学术问题

Oogiri-GO数据集解决了多模态幽默生成中的关键学术问题，如如何有效地结合图像和文本信息以生成高质量的幽默回应。通过提供超过130,000个样本，并包含人类偏好标注（如点赞数），该数据集为研究者提供了一个评估和改进多模态模型在幽默生成任务中表现的平台。这不仅推动了多模态学习的发展，也为幽默理论的研究提供了新的视角。

衍生相关工作

Oogiri-GO数据集的发布激发了一系列相关研究工作，特别是在多模态学习和幽默生成领域。例如，研究者们利用该数据集开发了新的模型和算法，以提高多模态信息处理的效率和效果。此外，该数据集还促进了跨语言幽默生成研究，通过比较不同语言（如英语、中文和日语）的幽默表达，揭示了文化差异对幽默理解的影响。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

类别	英语	中文	日语
I2T	17336	32130	40278
T2T	6433	15797	11842
IT2T	--	912	9420