five

ICM-Instruct

收藏
arXiv2024-12-24 更新2024-12-26 收录
下载链接:
https://github.com/zhaoyuzhi/ICM-Assistant
下载链接
链接失效反馈
官方服务:
资源简介:
ICM-Instruct数据集是一个用于图像内容审核的大规模指令调优数据集,由香港中文大学、华为香港研究中心等机构联合创建。该数据集通过分解人类定义的规则,并利用多阶段提示生成详细的审核解释和问答对,涵盖了多种文化规范和儿童保护标准。数据集的内容包括丰富的图像注释、审核解释和问答对,旨在提升多模态大语言模型在图像内容审核中的分类和解释能力。数据集的创建过程涉及规则分解、图像下载和多阶段提示生成,最终应用于训练ICM-Assistant模型,显著提升了审核分类和解释的准确性。该数据集的应用领域主要是图像内容审核,旨在解决现有审核模型在分类和解释上与人类审核员不一致的问题,提供灵活、可解释且准确的审核结果。

The ICM-Instruct dataset is a large-scale instruction-tuning dataset for image content moderation, jointly created by institutions including The Chinese University of Hong Kong and Huawei Hong Kong Research Center, and other relevant organizations. This dataset decomposes human-defined rules and utilizes multi-stage prompting to generate detailed moderation explanations and question-answer pairs, covering a wide range of cultural norms and child protection standards. The dataset contains rich image annotations, moderation explanations and question-answer pairs, aiming to improve the classification and explanation capabilities of multimodal large language models in image content moderation. The development process of the dataset involves rule decomposition, image downloading and multi-stage prompting generation, and is ultimately applied to train the ICM-Assistant model, which significantly enhances the accuracy of moderation classification and explanation. The main application scenario of this dataset is image content moderation, which aims to address the inconsistency between existing moderation models and human moderators in terms of classification and explanation, and provide flexible, interpretable and accurate moderation results.
提供机构:
香港中文大学, 华为香港研究中心, 香港科技大学, 华为, 上海交通大学, 新加坡国立大学, 西安电子科技大学, 广州理工学院, ICTT和ISN实验室
创建时间:
2024-12-24
原始信息汇总

ICM-Assistant 数据集概述

数据集结构

  • assets: 包含与ICM-Assistant相关的内容。
  • data: 包含用于数据生成管道的工具。
  • eval: 包含用于性能评估管道的工具。
  • inference: 包含用于推理管道的工具。
  • training: 包含用于训练管道的工具。

数据集用途

该数据集主要用于支持ICM-Assistant项目的各个流程,包括数据生成、性能评估、推理和训练。每个目录下包含的工具和内容分别对应不同的任务流程,帮助用户完成从数据准备到模型训练和评估的全过程。

搜集汇总
数据集介绍
main_image_url
构建方式
ICM-Instruct数据集的构建基于一种新颖的规则驱动数据生成流程。首先,研究人员将预定义的审核规则分解为多个子类别,称为属性产品。通过这种方式,能够灵活适应不同的审核规则。接着,采用多阶段提示策略,基于‘思维链’(Chain-of-Thought)方法,逐步生成并丰富审核解释和问答对。这一过程不仅确保了审核结果的准确性,还增强了审核过程的解释性。最终,构建了一个大规模的指令调优数据集,用于训练多模态大语言模型(MLLMs),使其能够根据特定规则进行图像内容审核。
使用方法
ICM-Instruct数据集的使用方法主要围绕多模态大语言模型(MLLMs)的指令调优展开。研究人员首先将数据集用于训练MLLMs,使其能够根据特定规则进行图像内容审核。训练过程中,模型不仅学习如何进行分类,还学习如何生成审核解释和回答相关问题。通过这种方式,模型能够在实际应用中提供灵活的、解释性强的审核结果。此外,数据集还可用于评估不同MLLMs在审核任务中的表现,帮助研究人员进一步优化模型性能。
背景与挑战
背景概述
ICM-Instruct数据集由香港中文大学、华为香港研究中心等机构的研究团队于2024年创建,旨在解决基于规则的可解释图像内容审核(ICM)问题。随着用户生成和AI生成图像内容的激增,传统的ICM模型在处理多样化的审核标准时表现不佳,尤其是在跨文化和年龄群体的审核规则上存在显著差异。ICM-Instruct数据集通过设计一个基于规则的数据生成管道,结合多阶段提示,生成了包含详细审核解释和问答对的丰富数据集。该数据集不仅提升了多模态大语言模型(MLLMs)在审核分类和解释上的表现,还为实际应用中的灵活、可解释和准确的图像内容审核提供了重要支持。
当前挑战
ICM-Instruct数据集在构建和应用过程中面临多重挑战。首先,图像内容审核的规则因文化和年龄差异而多样化,要求模型能够灵活适应不同的审核标准。其次,传统的ICM模型通常将审核任务简化为分类问题,难以捕捉图像中隐含的违规线索,导致分类准确率较低。此外,现有的多模态大语言模型在审核任务中常出现分类和解释不一致的问题,无法与人类审核员的决策保持一致。在数据集构建过程中,如何将复杂的审核规则分解为可操作的属性,并通过多阶段提示生成高质量的审核解释和问答对,也是一个技术难点。这些挑战促使研究团队设计了一个灵活的数据生成管道,以提升模型的审核能力和解释质量。
常用场景
经典使用场景
ICM-Instruct数据集在图像内容审核领域具有广泛的应用,尤其是在处理涉及文化规范和儿童保护标准的复杂场景时。该数据集通过结合多模态大语言模型(MLLMs),能够生成详细的审核解释和问答对,帮助模型更好地理解图像内容并做出准确的审核决策。其经典使用场景包括社交媒体平台的内容审核、广告图像过滤以及AI生成图像的合规性检查。
解决学术问题
ICM-Instruct数据集解决了传统图像内容审核模型在处理多样化标准时的不足,尤其是分类和解释结果与人类审核者不一致的问题。通过引入基于规则的审核解释生成机制,该数据集显著提升了审核分类的准确性(平均提升36.8%)和解释质量(平均提升26.6%)。此外,它还为多模态大语言模型的指令微调提供了高质量的数据支持,推动了图像内容审核领域的学术研究进展。
实际应用
在实际应用中,ICM-Instruct数据集被广泛用于社交媒体平台、广告平台和AI生成图像的内容审核。例如,在社交媒体平台上,该数据集可以帮助自动识别和过滤违反文化规范或儿童保护标准的图像内容。在广告平台中,它可以用于检测广告图像是否符合特定地区的文化规范。此外,该数据集还被用于AI生成图像的合规性检查,确保生成内容符合平台规则。
数据集最近研究
最新研究方向
随着互联网内容的爆炸式增长,图像内容审核(ICM)在保护文化规范和儿童安全方面的重要性日益凸显。传统的ICM模型在处理多样化的审核标准时表现不佳,而现有的多模态大语言模型(MLLMs)在应用于基于规则的ICM任务时,往往产生与人类审核员不一致的分类和解释结果。为此,ICM-Instruct数据集应运而生,旨在通过设计灵活的基于规则的数据生成管道,结合多阶段提示,生成丰富的图像注释,从而提升审核的准确性和可解释性。该数据集不仅包含详细的审核解释,还提供了审核问答对,为MLLMs的指令微调提供了强有力的支持。通过ICM-Instruct数据集微调的ICM-Assistant模型在多个审核任务中表现出色,显著提升了审核分类和解释的质量,为实际应用提供了可靠的解决方案。这一研究不仅推动了ICM领域的技术进步,也为多模态大语言模型在内容审核中的应用开辟了新的方向。
相关研究论文
  • 1
    ICM-Assistant: Instruction-tuning Multimodal Large Language Models for Rule-based Explainable Image Content Moderation香港中文大学, 华为香港研究中心, 香港科技大学, 华为, 上海交通大学, 新加坡国立大学, 西安电子科技大学, 广州理工学院, ICTT和ISN实验室 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作