Fake Video Corpus|视频验证数据集|虚假内容检测数据集
收藏数据集概述
数据集名称
- fake-video-corpus
数据集内容
- 视频类型:包含200个独特的被揭穿的(假)视频和180个独特的被验证的(真)视频。
- 视频分类:
- 假视频:包括演员表演、错误背景信息、旧视频冒充新事件、内容编辑修改、计算机生成图像等。
- 真视频:未具体说明。
数据集扩展过程
- 原始视频标题:用于搜索。
- 事件标题:将视频标题转换为更通用的形式。
- 多语言翻译:将事件标题翻译成俄语、阿拉伯语、法语和德语。
- 平台搜索:在YouTube、Facebook、Twitter上使用标题和翻译进行搜索。
- 近似重复视频检索:使用算法在搜索结果中查找近似重复视频。
- 手动验证:移除错误结果,保留实际近似重复视频。
数据集规模
- 总计:包含3957个标记为假和2458个标记为真的视频。
数据集文件
- FVC.csv:包含初始的200个假视频和180个真视频。
- FVC_dup.csv:包含近似重复视频。
- FVC_text_queries.csv:包含用于检索近似重复视频的文本查询。
许可和致谢
- 许可:数据集根据CC BY-NC-SA 4.0许可提供。
- 支持项目:由InVID项目支持,该项目由欧洲委员会资助。
引用信息
- 参考文献:Papadopoulou, O., Zampoglou, M., Papadopoulos, S., & Kompatsiaris, Y. (2018). A Corpus of Debunked and Verified User-Generated Videos. Online Information Review.
- DOI:10.1108/OIR-03-2018-0101
联系信息
- 联系人:Olga Papadopoulou (olgapapa@iti.gr)

LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录
鄱阳湖流域主要水文站实时日水位观测数据集(2017-2024年)
该数据集为鄱阳湖流域主要水文站的逐日实时水位数据集。包含了外洲站、李家渡站、湖口站、星子站、万家埠站、都昌等10个主要水文站的日水位数据,观测时间为每日8:00。共享政策为一次可共享3000条数据,一个站点的一日数据为一条记录,一年可申请一次。 数据集包含1个excel表格文件,日水位.xlsx。
国家地球系统科学数据中心 收录
Obstacle-dataset OD
该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。
github 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录
ImageNet-1K(ILSVRC2012)
ImageNet-1K(ILSVRC2012)是一个大规模的图像分类数据集,包含1000个类别的图像,用于训练和验证图像分类模型。
github 收录