Capture probe sequences
收藏Materials Project 在线材料数据库
Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。
超神经 收录
MultiResSAR
MultiResSAR数据集是由武汉大学构建并发布的,包含超过10k对多源、多分辨率、多场景的SAR和光学遥感图像。该数据集旨在为多分辨率SAR与光学遥感图像配准研究提供基准数据,以评估和比较不同配准算法的性能。数据集涵盖了从低分辨率到高分辨率的图像,能够帮助研究者更好地理解和克服高分辨率图像配准中的挑战,如噪声抑制、三维几何信息的融合、跨视角几何变换建模以及深度学习模型的优化等。
arXiv 收录
DFDC(Deepfake Detection Challenge)
DFDC (Deepfake检测挑战) 是一个用于deepface检测的数据集,由100,000多个视频组成。 DFDC数据集由两个版本组成: 预览数据集。有5k视频。具有两种面部修饰算法。 完整数据集,包含124k个视频。具有八种面部修饰算法
OpenDataLab 收录
SATIR
SATIR是由北京航空航天大学创建的大规模热红外图像分割数据集,包含超过100,000张带有像素级标注的图像。该数据集涵盖了城市、室内外、航空等多种场景,旨在通过利用Segment Anything Model (SAM) 生成的伪标签进行预训练,提高特定类别的热红外图像分割精度。数据集的创建过程涉及使用SAM模型对未标记的热红外图像进行分割,生成高质量的分割掩码,进而构建伪标签。SATIR数据集的应用领域主要集中在热红外图像的分割任务,特别是在标注困难的情况下,提供了一种有效的预训练解决方案。
arXiv 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录