five

MemeCMD

收藏
arXiv2025-07-01 更新2025-07-04 收录
下载链接:
https://github.com/Nahtreom/MemeCMD
下载链接
链接失效反馈
官方服务:
资源简介:
MemeCMD是一个自动生成的中文多轮对话数据集,它结合了大规模的、由多语言大型语言模型(MLLM)标注的Meme库和由双代理在多种场景下自动生成的对话。数据集包含6023张图像,每张图像都伴随着高质量的详细标注。数据集旨在解决现有对话数据集缺乏表达力和上下文细微差别的问题,通过引入Meme来增强对话的丰富性和自然性。

MemeCMD is an automatically generated Chinese multi-turn dialogue dataset that combines a large-scale Meme library annotated by multilingual large language models (MLLMs) and dialogues automatically generated by dual agents across various scenarios. The dataset contains 6023 images, each paired with high-quality detailed annotations. It aims to address the lack of expressiveness and contextual subtleties in existing dialogue datasets, and enhances the richness and naturalness of dialogues by introducing Memes.
提供机构:
武汉大学
创建时间:
2025-07-01
原始信息汇总

MemeCMD数据集概述

数据集简介

  • 名称:MemeCMD
  • 类型:基于Python的智能表情包检索与匹配工具
  • 功能:基于角色嵌入和相似性评分的表情包检索匹配

核心特征

  1. 角色嵌入处理
  2. 加权余弦相似度计算
  3. 前3相似表情包检索
  4. 相似度分布可视化
  5. 批处理支持

数据结构

. ├── find_figures.py # 索引到图像文件名的映射 ├── retrieve.py # 核心检索和相似度计算 ├── imgs/ # 图像目录 ├── Meme Warehouse/ # 包含表情包嵌入和图形 ├── Summary/ # 输出摘要 └── Dialogs/ # 对话数据

使用要求

  • Python 3.x
  • NumPy
  • Matplotlib
  • Seaborn

使用方法

  1. roles-dialog-embedding目录准备角色嵌入

  2. 确保基础嵌入位于Meme_Warehouse/embeddings.npy

  3. 运行检索过程: bash python retrieve.py

  4. 将结果映射到实际图像文件: bash python find_figures.py

工作原理

  1. 计算角色嵌入和基础嵌入间的余弦相似度
  2. 对不同相似度组件应用权重
  3. 基于组合相似度分数检索前3匹配项
  4. 生成相似度分布可视化
  5. 将数字索引映射到实际图像文件

输出内容

  1. 包含前3索引和相似度分数的NPZ文件
  2. 索引到实际图像文件名的JSON映射文件
  3. 相似度分布图
  4. 详细处理日志

技术说明

  1. 使用加权评分系统(权重:0.3, -0.2, 0.2, 0.7)
  2. 实现批处理以高效处理大型数据集
  3. 所有嵌入在相似度计算前均经过标准化
搜集汇总
数据集介绍
main_image_url
构建方式
MemeCMD数据集的构建采用了多阶段自动化流程,首先通过爬取GitHub高星中文表情包仓库获得6,023张无标注图像,随后运用多模态大语言模型(MLLM)对每张表情包进行四维度语义标注:适用场景、禁忌场景、隐含情感及用户心理动机。对话生成模块采用双代理框架,通过新闻事件或角色扮演两种模式初始化对话,结合摘要代理提取对话语义特征,最终基于场景匹配度、情感契合度和动机对齐度三维度计算检索分数,采用贪婪策略或Top-K采样策略进行表情包选择。
特点
该数据集的核心特点体现在其多模态对话的语境敏感性设计:1) 构建了首个包含6,023张精细标注的中文表情包库,每张图像标注涵盖场景适用性、情感语义和沟通动机等多维度信息;2) 对话生成采用自适应阈值衰减机制模拟真实人类对话中表情包的使用间隔,通过动态调整插入阈值避免过度使用;3) 支持新闻话题和角色扮演两种对话初始化模式,覆盖从日常闲聊到特定社会关系的多样化交互场景。
使用方法
使用该数据集时,研究者可通过两种路径开展实验:基于检索的路径可直接调用预构建的表情包语义索引,利用场景-情感-动机的三元匹配分数进行上下文感知的表情包推荐;基于生成的路径则可复用其双代理对话框架,通过修改初始化模块适配特定领域对话生成任务。评估阶段建议采用论文提出的LLM-as-Judge范式与跨模态嵌入一致性评分双指标体系,其中前者评估表情包与对话的语义连贯性等主观维度,后者通过向量空间相似度计算提供客观量化指标。
背景与挑战
背景概述
MemeCMD是由武汉大学的研究团队于2025年提出的一个中文多轮对话数据集,专注于在对话中上下文相关的表情包(meme)检索与生成。该数据集由Yuheng Wang、Xianhe Tang和Pufeng Huang等人共同构建,旨在解决现有对话数据集中缺乏多模态交互表达的问题。MemeCMD通过结合大规模多模态大语言模型(MLLM)标注的表情包库和双代理生成的多样化对话场景,为多模态对话AI研究提供了可扩展且隐私保护的资源。其核心研究问题包括如何自动生成上下文相关的表情包回复,以及如何在多轮对话中自然嵌入表情包以增强交互的生动性和情感表达。该数据集的发布填补了中文多轮对话数据集中表情包交互的空白,并对社交媒体分析、情感计算和对话系统等领域具有重要影响力。
当前挑战
MemeCMD在构建和应用过程中面临多重挑战。首先,在领域问题层面,表情包的语义理解与检索需同时考虑视觉内容、情感隐含和上下文关联性,而现有方法往往仅依赖当前对话片段,难以捕捉多轮对话中的复杂意图。其次,构建过程中需解决未标注表情包的自动化标注问题,包括场景适用性、情感隐含和用户心理动机等多维度标签的生成。此外,对话生成需平衡表情包的使用频率与自然度,避免过度插入导致的对话不连贯。数据集的自动化生成还需确保多样性和隐私保护,避免真实用户数据的潜在风险。这些挑战要求研究团队在标注策略、对话建模和检索算法上进行创新,以实现高质量的多模态对话数据生成。
常用场景
经典使用场景
MemeCMD数据集在自然语言处理和计算机视觉的交叉领域中具有重要应用,特别是在多模态对话系统的研究中。该数据集通过结合大规模的多模态标注和自动生成的对话,为研究者提供了一个丰富的资源,用于探索多模态对话中的情感表达和语境理解。其经典使用场景包括多模态对话生成、情感分析以及语境相关的表情包检索。
实际应用
MemeCMD数据集在实际应用中具有广泛的前景,特别是在社交媒体和在线聊天平台中。通过该数据集,开发者可以构建更智能的多模态对话系统,提升用户在社交互动中的体验。例如,系统可以根据对话的语境自动推荐合适的表情包,增强对话的趣味性和情感表达。此外,该数据集还可以用于教育领域,帮助学生更好地理解和运用多模态表达。
衍生相关工作
MemeCMD数据集衍生了许多相关的研究工作,特别是在多模态对话生成和表情包检索领域。例如,基于该数据集的研究可以探索如何更有效地结合文本和视觉信息,生成更具表现力的多模态对话。此外,该数据集还启发了关于语境感知的表情包推荐系统的研究,为多模态对话系统的进一步发展提供了新的思路。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作