多模态谣言数据集|多模态数据数据集|谣言检测数据集
收藏多模态谣言二分类模型数据集
数据集概述
本数据集用于多模态谣言二分类模型的训练与评估,包含以下模态:
- 谣言文本:谣言的核心文本信息。
- 配图:与谣言文本相关的图像数据。
- OCR 文本:通过 PaddleOCR 从配图中提取的文字信息。
数据集结构
数据集应整合成指定格式,并放入 data
目录,确保文件结构符合预期:
- 图像数据整理到
/data/images
中。 - 表格整理成
train.xlsx
和test.xlsx
置于/data
中。
数据集使用
- 数据准备:将数据集整合成指定格式后放入
data
目录。 - 训练模型:进入
train/scheme
目录,运行main.ipynb
完成训练。 - 模型评估:通过保存的
best_model.pth
进行推理测试。
数据集特点
- 结合文本、图像和 OCR 文本进行多模态特征融合。
- 通过交叉注意力机制融合插图与 OCR 文本特征。
- 使用 XLNet 处理谣言文本和 OCR 提取的插图文本,使用 ResNet50 提取图像特征。
数据集性能
- F1 Score: 0.9554
- 排名: 第 1 名

CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
RadDet
RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。
github 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录