RU-AI
收藏RU-AI 数据集概述
数据集描述
RU-AI 是一个用于机器生成内容检测的大型多模态数据集。
数据集下载
数据集可在 Zenodo 上公开获取: url https://zenodo.org/records/11406538
下载完整数据集需要至少 500GB 的磁盘空间。
数据集大小
整个数据集压缩后超过 157GB,解压后可能占用高达 500GB 的空间。
数据结构
数据集包含以下目录结构:
├── audio │ ├── coco │ ├── flickr8k │ └── place ├── image │ ├── coco │ ├── flickr8k │ └── place └── text ├── coco ├── flickr8k └── place
数据样本下载
可以通过以下命令下载样本数据: bash python ./download_flickr.py
或下载全部数据: bash python ./download_all.py
模型推理
在进行模型推理前,需要在 infer_imagebind_model.py 和 infer_languagebind_model.py 文件中替换实际的数据路径。
运行基于 imagebind 的模型: bash python infer_imagebind_model.py
运行基于 languagebind 的模型: bash python infer_languagebind_model.py
引用
如果使用该数据集或研究成果,请引用以下论文: text @misc{huang2024ruai, title={RU-AI: A Large Multimodal Dataset for Machine Generated Content Detection}, author={Liting Huang and Zhihao Zhang and Yiran Zhang and Xiyue Zhou and Shoujin Wang}, year={2024}, eprint={2406.04906}, archivePrefix={arXiv}, primaryClass={cs.CV} }




