REILX/text-description-of-the-meme

Name: REILX/text-description-of-the-meme
Creator: REILX
Published: 2024-06-28 11:18:37
License: 暂无描述

Hugging Face2024-06-28 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/REILX/text-description-of-the-meme

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集主要用于表情包（meme）图像的描述生成，包含英文和中文两种语言。数据集的大小在1K到10K之间，任务类别包括文本生成和摘要生成。数据集的来源包括emo-visual-data和ChineseBQB两个项目。

This dataset is primarily used for generating descriptions of meme images, including both English and Chinese languages. The size of the dataset ranges between 1K and 10K, with task categories including text generation and summarization. The dataset sources include the emo-visual-data and ChineseBQB projects.

提供机构：

REILX

原始信息汇总

数据集概述

基本信息

许可证: Apache 2.0
任务类别:
- 摘要生成
- 文本生成
语言:
- 英语
- 中文
数据规模: 1K<n<10K
标签:
- emo
- meme
- ChineseBQB

数据集描述

该数据集包含表情包（emoji）和网络迷因（meme），主要用于图像描述生成任务。数据集中的图像通过Gemini和Yi-Vision模型进行处理，生成详细的中文描述。

数据处理流程

Gemini模型处理:
- 使用Gemini-1.5-pro、Gemini-1.5-flash、Gemini-1.0-pro-vision等模型生成图像描述。
- 处理后的图像描述存储在image_descriptions.jsonl文件中。
- 处理失败的图像移动到/emo_error文件夹，成功处理的图像移动到/emo_processed文件夹。
Yi-Vision模型处理:
- 使用Yi-Vision模型生成图像描述，结合图像名称中的主题和文字信息，生成更准确的描述。
- 处理后的图像描述存储在pickedImages.jsonl文件中。
- 处理失败的图像移动到/yi/pickedImages_error文件夹，成功处理的图像移动到/yi/pickedImages_processed文件夹。

数据来源

原始图像数据集可从以下链接下载：
- emo-visual-data
- ChineseBQB

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是一个包含39.1k条记录的中文表情包描述数据集，每张表情包图片都配有详细的文字描述，涵盖了多种网络流行文化和情感表达。数据集适用于文本生成和摘要任务，支持中英文，格式为json，大小在10K到100K之间。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集