five

REILX/text-description-of-the-meme

收藏
Hugging Face2024-06-28 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/REILX/text-description-of-the-meme
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集主要用于表情包(meme)图像的描述生成,包含英文和中文两种语言。数据集的大小在1K到10K之间,任务类别包括文本生成和摘要生成。数据集的来源包括emo-visual-data和ChineseBQB两个项目。

This dataset is primarily used for generating descriptions of meme images, including both English and Chinese languages. The size of the dataset ranges between 1K and 10K, with task categories including text generation and summarization. The dataset sources include the emo-visual-data and ChineseBQB projects.
提供机构:
REILX
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache 2.0
  • 任务类别:
    • 摘要生成
    • 文本生成
  • 语言:
    • 英语
    • 中文
  • 数据规模: 1K<n<10K
  • 标签:
    • emo
    • meme
    • ChineseBQB

数据集描述

该数据集包含表情包(emoji)和网络迷因(meme),主要用于图像描述生成任务。数据集中的图像通过Gemini和Yi-Vision模型进行处理,生成详细的中文描述。

数据处理流程

  1. Gemini模型处理:

    • 使用Gemini-1.5-pro、Gemini-1.5-flash、Gemini-1.0-pro-vision等模型生成图像描述。
    • 处理后的图像描述存储在image_descriptions.jsonl文件中。
    • 处理失败的图像移动到/emo_error文件夹,成功处理的图像移动到/emo_processed文件夹。
  2. Yi-Vision模型处理:

    • 使用Yi-Vision模型生成图像描述,结合图像名称中的主题和文字信息,生成更准确的描述。
    • 处理后的图像描述存储在pickedImages.jsonl文件中。
    • 处理失败的图像移动到/yi/pickedImages_error文件夹,成功处理的图像移动到/yi/pickedImages_processed文件夹。

数据来源

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个包含39.1k条记录的中文表情包描述数据集,每张表情包图片都配有详细的文字描述,涵盖了多种网络流行文化和情感表达。数据集适用于文本生成和摘要任务,支持中英文,格式为json,大小在10K到100K之间。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作