strongrejectPlusPlus|语言模型数据集|越狱检测数据集
收藏
OpenPose
OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。
github.com 收录
UniMed
UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。
github 收录
中国裁判文书网
中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。
wenshu.court.gov.cn 收录
MultiTalk
MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。
arXiv 收录
SARDet-100K
SARDet-100K数据集是由南开大学计算机科学与技术学院的研究团队开发的,旨在解决SAR目标检测领域数据集有限和代码不可访问的问题。该数据集通过整合和标准化10个公开的SAR检测数据集,提供了约116,598张图像和245,653个目标实例,覆盖了飞机、船只、汽车、桥梁、坦克和港口等6个类别。SARDet-100K不仅是首个COCO级别的大规模多类别SAR目标检测数据集,而且通过其大规模和多样性,为SAR目标检测算法的研究和评估提供了强有力的支持。数据集的标准化处理确保了图像分辨率和标注格式的统一,便于与流行的开源检测代码框架兼容,极大地促进了SAR目标检测技术的发展和创新。
arXiv 收录