KOM-Euph

Name: KOM-Euph
Creator: 华中农业大学信息学院
Published: 2025-03-27 21:45:35
License: 暂无描述

arXiv2025-03-27 更新2025-04-01 收录

下载链接：

http://arxiv.org/abs/2503.21504v1

下载链接

链接失效反馈

官方服务：

资源简介：

KOM-Euph是一个 keyword-oriented的多模态数据集，由华中农业大学信息学院创建。该数据集基于文本数据集Euph构建，增加了图像和语音模态，包含文本-图像-语音三元组，共86K条数据，覆盖Drug、Weapon和Sexuality三个领域。数据集通过自监督学习框架构建，使用掩码的目标关键词句子及其相关的图像和语音进行训练和验证。该数据集旨在解决多模态数据在隐语识别任务中的应用问题，为研究提供了丰富的多模态资源。

KOM-Euph is a keyword-oriented multimodal dataset developed by the School of Information, Huazhong Agricultural University. It is built upon the original text-only dataset Euph by supplementing with image and speech modalities. The dataset consists of 86K text-image-speech triplets, covering three domains: Drug, Weapon, and Sexuality. Constructed via a self-supervised learning framework, it uses masked target keyword sentences along with their associated images and speech for training and validation. This dataset aims to address the application challenges of multimodal data in implicit language recognition tasks, providing abundant multimodal resources for related research.

提供机构：

华中农业大学信息学院

创建时间：

2025-03-27

搜集汇总

数据集介绍

构建方式

KOM-Euph数据集作为首个面向关键词的多模态委婉语识别语料库，其构建过程融合了文本、视觉与听觉模态的协同创新。研究团队基于Euph单模态文本数据集，通过三阶段流程实现多模态扩展：在视觉模态构建中，采用混合数据采集策略从Google、Wikipedia和Kandinsky 2.2模型获取每个关键词的25幅候选图像，经语言学专家指导的多人筛选保留最具代表性的4幅；听觉模态则通过Bark模型生成标准化发音片段，确保音频质量的一致性。该数据集涵盖毒品、武器和性健康三大敏感领域，最终形成包含86,000个文本-图像-语音三元组的跨模态资源，其中毒品和武器领域包含完整的三模态数据，性健康领域因法律限制仅包含文本-语音双模态数据。

使用方法

该数据集支持端到端的多模态委婉语识别研究，具体使用包含三个关键环节：模型训练阶段采用三模态联合学习策略，将掩码目标关键词的句子与对应图像、语音作为输入，通过对比损失函数实现跨模态特征对齐；特征融合阶段建议采用论文提出的KOM-EI方法，利用交叉注意力机制动态整合文本CLS标记、视觉CLIP特征及Wav2Vec 2.0语音嵌入；评估验证阶段使用Top-k准确率指标（k=1,2,3），在保留的测试集上评估模型将掩码委婉语映射到正确目标关键词的能力。为保障研究伦理性，所有敏感内容均经过匿名化处理，且提供标准化的数据访问协议。

背景与挑战

背景概述

KOM-Euph数据集由华中农业大学信息学院的研究团队于2025年创建，旨在解决委婉语识别领域的关键问题。该数据集首次引入了面向关键词的多模态语料库，涵盖毒品、武器和性相关三大领域，包含86K文本-图像-语音三元组。委婉语作为语言交流中的重要现象，在社交媒体和暗网市场中被广泛用于规避监管，其识别对于内容审核和打击非法交易具有重要意义。传统方法主要依赖文本分析，而KOM-Euph通过整合视觉和听觉模态，为研究委婉语的跨模态语义演化提供了全新视角。该数据集的创新性体现在将关键词作为多模态对齐的锚点，推动了自然语言处理领域从单模态到多模态分析的范式转变。

当前挑战

KOM-Euph数据集面临的核心挑战包括两个方面：在领域问题层面，委婉语识别需要解决语义模糊性（如'weed'既指杂草也指大麻）、语境依赖性（相同委婉语在不同句子中含义不同）以及动态演化性（新委婉语不断涌现）等难题；在构建过程层面，研究者需克服多模态数据对齐（文本与图像/语音的语义匹配）、跨模态噪声过滤（剔除无关视觉/听觉特征）以及敏感内容处理（如性相关数据的法律限制）等技术障碍。特别是数据集中存在训练集（掩码目标关键词）与测试集（掩码委婉语）的分布差异，这对模型泛化能力提出了更高要求。此外，多模态特征的动态融合和模态间语义鸿沟的消除也是实现高效识别的关键挑战。

常用场景

经典使用场景

KOM-Euph数据集在委婉语识别领域具有广泛的应用场景，尤其在社交媒体和暗网市场的文本分析中表现突出。该数据集通过整合文本、图像和语音三种模态数据，为研究者提供了丰富的多模态信息，从而能够更准确地识别委婉语的真实含义。例如，在识别毒品、武器和性相关内容的委婉表达时，KOM-Euph能够通过视觉和听觉特征辅助文本分析，显著提升识别效果。

解决学术问题

KOM-Euph数据集解决了委婉语识别中单一文本模态信息不足的学术问题。传统方法仅依赖文本上下文，难以应对委婉语的多样性和动态变化。而KOM-Euph通过引入多模态数据，填补了这一研究空白，使得模型能够结合视觉和听觉特征，更全面地理解委婉语的语义。此外，该数据集还支持自监督学习框架，为无标签数据的利用提供了新思路。

实际应用

在实际应用中，KOM-Euph数据集被广泛用于内容审核和非法交易监控。例如，社交媒体平台可以利用该数据集训练模型，自动识别用户发布的隐含毒品或武器交易的委婉表达，从而及时屏蔽违规内容。此外，执法机构也可借助该数据集分析暗网市场的交易记录，追踪非法活动的真实意图。

数据集最近研究