LOKI
收藏arXiv2024-10-13 更新2024-10-16 收录
下载链接:
https://opendatalab.github.io/LOKI/
下载链接
链接失效反馈官方服务:
资源简介:
LOKI数据集由中山大学和上海人工智能实验室等机构联合创建,旨在评估大型多模态模型在检测合成数据方面的能力。该数据集包含视频、图像、3D、文本和音频五种模态,共计18,000条问题,覆盖26个详细子类别。数据集的创建过程包括使用多种合成模型生成高质量数据,并通过精细的异常标注进行分级。LOKI数据集主要应用于合成数据检测领域,旨在解决未来互联网中合成数据泛滥带来的真实性鉴别难题。
The LOKI Dataset, co-developed by Sun Yat-sen University, Shanghai AI Laboratory and other institutions, aims to evaluate the capability of large multimodal models in detecting synthetic data. This dataset covers five modalities including video, image, 3D, text and audio, with a total of 18,000 questions spanning 26 detailed subcategories. The development process of the LOKI Dataset entails generating high-quality data via multiple synthetic models, followed by hierarchical grading through fine-grained anomaly annotation. Primarily applied in the field of synthetic data detection, the LOKI Dataset is designed to tackle the challenge of authenticity verification caused by the widespread proliferation of synthetic data in the future Internet.
提供机构:
中山大学, 上海人工智能实验室, 商汤科技研究院, 香港中文大学, 香港中文大学(深圳)
创建时间:
2024-10-13
搜集汇总
数据集介绍

构建方式
LOKI 数据集的构建采用了多种合成数据生成方法,包括基于深度学习的模型和传统的合成方法,以覆盖视频、图像、3D、文本和音频等多种模态。数据集的构建过程中,使用了包括 SORA、Midjourney、Stable Diffusion 等流行合成模型生成高质量的多模态数据。同时,为了确保数据的真实性和多样性,还从互联网上收集了大量真实数据,并与合成数据进行配对。数据集的标注过程采用了多层次标注策略,包括基本标签、异常细节标注和异常解释标注,以全面评估大型多模态模型在合成数据检测任务中的能力。
特点
LOKI 数据集的特点在于其多模态性和多样性。数据集涵盖了视频、图像、3D、文本和音频等多种模态,并且包含了 26 个详细的子类别,例如卫星图像、医学图像、哲学文本、环境声音等。此外,数据集还采用了多层次标注策略,包括基本标签、异常细节标注和异常解释标注,以全面评估大型多模态模型在合成数据检测任务中的能力。最后,数据集还提出了一个多模态合成数据评估框架,支持各种数据格式的输入和超过 25 种主流多模态模型。
使用方法
LOKI 数据集的使用方法主要包括以下几个方面:首先,可以用于评估大型多模态模型在合成数据检测任务中的性能。通过对模型在 LOKI 数据集上的表现进行评估,可以了解模型在不同模态、不同类别和不同难度级别上的检测能力。其次,数据集还可以用于训练和改进合成数据检测模型。通过对模型进行训练,可以提高模型在合成数据检测任务上的性能。最后,数据集还可以用于研究合成数据检测的相关理论和方法。通过对数据集的分析和研究,可以深入了解合成数据检测的原理和方法,并提出新的检测技术和算法。
背景与挑战
背景概述
在人工智能生成内容(AIGC)技术飞速发展的背景下,合成数据检测成为了一个重要课题。LOKI数据集应运而生,旨在全面评估大型多模态模型(LMMs)在多模态合成数据检测方面的能力。该数据集由中山大学、上海人工智能实验室、商汤科技研究院等机构的研究人员共同创建,于2024年发布。LOKI数据集涵盖了视频、图像、3D、文本和音频五种模态,包含18K个精心策划的问题,跨越26个子类别,并具有明确的难度级别。该数据集的引入为相关领域的研究提供了有力支持,有助于推动合成数据检测技术的发展。
当前挑战
LOKI数据集面临的挑战主要包括:1) 所解决的领域问题:随着AIGC技术的普及,合成数据充斥网络,使得鉴别真实与可信的多模态数据变得日益困难。2) 构建过程中所遇到的挑战:构建一个全面、多样化的合成数据检测基准需要解决数据收集、标注、评估框架等多个方面的问题。此外,LMMs在合成数据检测任务中表现出一定的局限性,如模型偏差、缺乏专家领域知识、多模态能力不平衡等,这些都需要进一步研究和改进。
常用场景
经典使用场景
LOKI 数据集主要用于评估大型多模态模型(LMMs)在检测合成数据方面的能力。通过包含视频、图像、3D、文本和音频等多模态数据,LOKI 提供了一个全面的评估框架,涵盖了 26 个子类别,并包含了粗粒度判断、多选题、细粒度异常选择和解释任务。这允许对 LMMs 进行全面的分析,以评估它们在合成数据检测方面的潜力。
解决学术问题
LOKI 数据集解决了当前合成数据检测方法在可解释性方面的局限性。大多数现有的方法主要关注真实性评估,但缺乏对预测结果的人类可解释性。LOKI 通过提供细粒度的异常注释和自然语言解释,提高了合成内容检测的可解释性。此外,LOKI 的多模态特性使其成为评估 LMMs 能力的理想平台,这些模型可以检测到人类用户无法察觉的特征。
衍生相关工作
LOKI 数据集的发布推动了合成数据检测领域的研究进展,并促进了相关技术的开发。基于 LOKI 的评估结果,研究人员可以改进 LMMs 的训练和设计,以提高它们在合成数据检测方面的性能和可解释性。此外,LOKI 的多模态特性为跨模态学习和推理提供了新的研究方向,这可能有助于开发更全面和智能的人工智能系统。
以上内容由遇见数据集搜集并总结生成



