REILX/text-description-of-the-meme
收藏Hugging Face2024-06-28 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/REILX/text-description-of-the-meme
下载链接
链接失效反馈官方服务:
资源简介:
该数据集主要用于表情包(meme)图像的描述生成,包含英文和中文两种语言。数据集的大小在1K到10K之间,任务类别包括文本生成和摘要生成。数据集的来源包括emo-visual-data和ChineseBQB两个项目。
This dataset is primarily used for generating descriptions of meme images, including both English and Chinese languages. The size of the dataset ranges between 1K and 10K, with task categories including text generation and summarization. The dataset sources include the emo-visual-data and ChineseBQB projects.
提供机构:
REILX
原始信息汇总
数据集概述
基本信息
- 许可证: Apache 2.0
- 任务类别:
- 摘要生成
- 文本生成
- 语言:
- 英语
- 中文
- 数据规模: 1K<n<10K
- 标签:
- emo
- meme
- ChineseBQB
数据集描述
该数据集包含表情包(emoji)和网络迷因(meme),主要用于图像描述生成任务。数据集中的图像通过Gemini和Yi-Vision模型进行处理,生成详细的中文描述。
数据处理流程
-
Gemini模型处理:
- 使用Gemini-1.5-pro、Gemini-1.5-flash、Gemini-1.0-pro-vision等模型生成图像描述。
- 处理后的图像描述存储在
image_descriptions.jsonl文件中。 - 处理失败的图像移动到
/emo_error文件夹,成功处理的图像移动到/emo_processed文件夹。
-
Yi-Vision模型处理:
- 使用Yi-Vision模型生成图像描述,结合图像名称中的主题和文字信息,生成更准确的描述。
- 处理后的图像描述存储在
pickedImages.jsonl文件中。 - 处理失败的图像移动到
/yi/pickedImages_error文件夹,成功处理的图像移动到/yi/pickedImages_processed文件夹。
数据来源
- 原始图像数据集可从以下链接下载:
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个包含39.1k条记录的中文表情包描述数据集,每张表情包图片都配有详细的文字描述,涵盖了多种网络流行文化和情感表达。数据集适用于文本生成和摘要任务,支持中英文,格式为json,大小在10K到100K之间。
以上内容由遇见数据集搜集并总结生成



