five

LOKI|多模态数据数据集|合成数据检测数据集

收藏
arXiv2024-10-13 更新2024-10-16 收录
多模态数据
合成数据检测
下载链接:
https://opendatalab.github.io/LOKI/
下载链接
链接失效反馈
资源简介:
LOKI数据集由中山大学和上海人工智能实验室等机构联合创建,旨在评估大型多模态模型在检测合成数据方面的能力。该数据集包含视频、图像、3D、文本和音频五种模态,共计18,000条问题,覆盖26个详细子类别。数据集的创建过程包括使用多种合成模型生成高质量数据,并通过精细的异常标注进行分级。LOKI数据集主要应用于合成数据检测领域,旨在解决未来互联网中合成数据泛滥带来的真实性鉴别难题。
提供机构:
中山大学, 上海人工智能实验室, 商汤科技研究院, 香港中文大学, 香港中文大学(深圳)
创建时间:
2024-10-13
AI搜集汇总
数据集介绍
main_image_url
构建方式
LOKI 数据集的构建采用了多种合成数据生成方法,包括基于深度学习的模型和传统的合成方法,以覆盖视频、图像、3D、文本和音频等多种模态。数据集的构建过程中,使用了包括 SORA、Midjourney、Stable Diffusion 等流行合成模型生成高质量的多模态数据。同时,为了确保数据的真实性和多样性,还从互联网上收集了大量真实数据,并与合成数据进行配对。数据集的标注过程采用了多层次标注策略,包括基本标签、异常细节标注和异常解释标注,以全面评估大型多模态模型在合成数据检测任务中的能力。
特点
LOKI 数据集的特点在于其多模态性和多样性。数据集涵盖了视频、图像、3D、文本和音频等多种模态,并且包含了 26 个详细的子类别,例如卫星图像、医学图像、哲学文本、环境声音等。此外,数据集还采用了多层次标注策略,包括基本标签、异常细节标注和异常解释标注,以全面评估大型多模态模型在合成数据检测任务中的能力。最后,数据集还提出了一个多模态合成数据评估框架,支持各种数据格式的输入和超过 25 种主流多模态模型。
使用方法
LOKI 数据集的使用方法主要包括以下几个方面:首先,可以用于评估大型多模态模型在合成数据检测任务中的性能。通过对模型在 LOKI 数据集上的表现进行评估,可以了解模型在不同模态、不同类别和不同难度级别上的检测能力。其次,数据集还可以用于训练和改进合成数据检测模型。通过对模型进行训练,可以提高模型在合成数据检测任务上的性能。最后,数据集还可以用于研究合成数据检测的相关理论和方法。通过对数据集的分析和研究,可以深入了解合成数据检测的原理和方法,并提出新的检测技术和算法。
背景与挑战
背景概述
在人工智能生成内容(AIGC)技术飞速发展的背景下,合成数据检测成为了一个重要课题。LOKI数据集应运而生,旨在全面评估大型多模态模型(LMMs)在多模态合成数据检测方面的能力。该数据集由中山大学、上海人工智能实验室、商汤科技研究院等机构的研究人员共同创建,于2024年发布。LOKI数据集涵盖了视频、图像、3D、文本和音频五种模态,包含18K个精心策划的问题,跨越26个子类别,并具有明确的难度级别。该数据集的引入为相关领域的研究提供了有力支持,有助于推动合成数据检测技术的发展。
当前挑战
LOKI数据集面临的挑战主要包括:1) 所解决的领域问题:随着AIGC技术的普及,合成数据充斥网络,使得鉴别真实与可信的多模态数据变得日益困难。2) 构建过程中所遇到的挑战:构建一个全面、多样化的合成数据检测基准需要解决数据收集、标注、评估框架等多个方面的问题。此外,LMMs在合成数据检测任务中表现出一定的局限性,如模型偏差、缺乏专家领域知识、多模态能力不平衡等,这些都需要进一步研究和改进。
常用场景
经典使用场景
LOKI 数据集主要用于评估大型多模态模型(LMMs)在检测合成数据方面的能力。通过包含视频、图像、3D、文本和音频等多模态数据,LOKI 提供了一个全面的评估框架,涵盖了 26 个子类别,并包含了粗粒度判断、多选题、细粒度异常选择和解释任务。这允许对 LMMs 进行全面的分析,以评估它们在合成数据检测方面的潜力。
解决学术问题
LOKI 数据集解决了当前合成数据检测方法在可解释性方面的局限性。大多数现有的方法主要关注真实性评估,但缺乏对预测结果的人类可解释性。LOKI 通过提供细粒度的异常注释和自然语言解释,提高了合成内容检测的可解释性。此外,LOKI 的多模态特性使其成为评估 LMMs 能力的理想平台,这些模型可以检测到人类用户无法察觉的特征。
衍生相关工作
LOKI 数据集的发布推动了合成数据检测领域的研究进展,并促进了相关技术的开发。基于 LOKI 的评估结果,研究人员可以改进 LMMs 的训练和设计,以提高它们在合成数据检测方面的性能和可解释性。此外,LOKI 的多模态特性为跨模态学习和推理提供了新的研究方向,这可能有助于开发更全面和智能的人工智能系统。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

Global Volcano Database

全球火山数据库包含有关全球火山的信息,包括火山的位置、类型、历史喷发记录、海拔高度等详细数据。该数据集旨在为地质学家、环境科学家和应急管理机构提供有关火山活动的全面信息。

volcano.si.edu 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

Titanic Dataset

Titanic Data Analysis: A Journey into Passenger Profiles and Survival Dynamics

kaggle 收录