PCLMM

arXiv2024-09-10 更新2024-09-11 收录

下载链接：

https://github.com/dut-laowang/PCLMM

下载链接

链接失效反馈

资源简介：

PCLMM数据集是由大连理工大学创建的，旨在识别和分析中文视频中的居高临下和轻蔑语言（PCL）。该数据集包含715个从Bilibili平台收集并标注的视频，总时长超过21小时，涵盖了六个主要的中国弱势群体。数据集的创建过程包括定义PCL的语义标准、关键词列表的构建、视频的收集和手动标注。PCLMM数据集的应用领域主要集中在自动检测视频平台上的微攻击行为，旨在保护弱势群体免受歧视性语言的伤害。

The PCLMM Dataset was developed by Dalian University of Technology for the purpose of identifying and analyzing condescending and contemptuous language (PCL) in Chinese videos. This dataset comprises 715 annotated videos collected from the Bilibili platform, with an overall duration of over 21 hours, covering six primary vulnerable groups in China. The construction workflow of the PCLMM dataset includes defining the semantic standards for PCL, compiling a keyword list, collecting target videos, and performing manual annotation. The primary application scope of the PCLMM dataset lies in the automatic detection of microaggressive behaviors on video platforms, with the goal of safeguarding vulnerable groups from discriminatory language-related harm.

提供机构：

大连理工大学

创建时间：

2024-09-08

原始信息汇总

PCLMM 数据集概述

数据集信息

名称: PCLMM
描述: 该数据集用于文章 "Towards Patronizing and Condescending Language in Chinese Videos: A Multimodal Dataset and Framework"，目前正在审稿中，计划发表于 ICASSP 2025。
来源: 数据集包含从中国平台 Bilibili 获取的 715 个标注视频。
下载链接: PCLMM 数据集下载
详细标注文件: 可通过下载 Annotation.csv 文件获取详细标注信息。

代码实现

视频特征提取: 代码位于 video_extract 文件夹。
音频特征提取: 代码位于 audio_extract 文件夹。
面部表情特征提取: 代码位于 face_extract 文件夹。
文本特征提取: 代码位于 text_extract 文件夹。
多模态融合: 使用 MHCA 方法，代码位于 model 文件夹。

更新信息

状态: 代码仍在改进中，请等待未来的更新以确保成功执行。

AI搜集汇总

数据集介绍

构建方式

PCLMM数据集的构建方法是首先制定针对中国语境的PCL综合定义，以此作为标注指南。研究团队基于六个主要的中国互联网弱势群体类别，扩展出各自的关键词列表，并通过针对性搜索收集视频。数据集由三位 annotators 手动标注，并进行了情感和毒性分析。

使用方法

使用PCLMM数据集时，研究者可以利用其中丰富的多模态信息，采用视频、音频、文本和面部表情等多种特征进行融合，以提升PCL检测的准确性。数据集和相应的检测器MultiPCL为微侵略性语言的自动检测提供了有效的工具。

背景与挑战

背景概述

PCLMM数据集是首个针对体中文视频的贬低和傲慢语言的多模态数据集，由大连理工大学和日本筑波大学的研究人员共同创建。该数据集包含715个经过标注的视频，总时长超过21小时，涵盖了中国互联网上的六大弱势群体类别。该数据集的创建旨在推进对微歧视现象的研究，尤其是针对视频内容中的贬低和傲慢语言。PCLMM数据集的发布对于相关领域的研究具有重要的推动作用，为微歧视检测提供了新的数据资源和检测方法。

当前挑战

在构建PCLMM数据集的过程中，研究人员面临着多项挑战：1) 如何准确定义和标注贬低和傲慢语言，特别是在中文语境下；2) 如何从大量视频数据中筛选出符合研究需求的样本；3) 如何处理多模态数据，包括视频、音频和文本的融合；4) 如何设计有效的检测模型，以准确识别视频中的贬低和傲慢语言。这些挑战不仅涉及到数据集的构建，还包括后续的模型训练和优化。

常用场景

经典使用场景

PCLMM数据集最经典的使用场景在于检测视频中的Patronizing and Condescending Language (PCL)。该数据集包含715个经过标注的视频，总时长超过21小时，涵盖了中国互联网上的六大主要弱势群体。通过结合视频、面部表情、音频和文本等多模态信息，PCLMM能够有效地识别出针对这些群体的歧视性语言，为相关研究提供了有力的数据支持。

解决学术问题

PCLMM数据集解决了学术界在微侵略性语言检测领域的一个关键问题，即缺乏针对中文环境中弱势群体的歧视性语言数据集。现有的研究多集中于显性的毒性语言，如仇恨言论，而忽略了微妙的PCL。PCLMM的发布填补了这一空白，有助于推动中文环境中微侵略性语言检测的研究。

实际应用

在实际应用中，PCLMM数据集可用于社交媒体平台的内容审核，自动检测并过滤出对弱势群体进行歧视和贬低的言论，保护这些群体的在线安全。此外，它还可以用于教育和培训，提高公众对微侵略性语言的认知和敏感度。

数据集最近研究