Seyomi/synthscreen-dataset

Name: Seyomi/synthscreen-dataset
Creator: Seyomi
Published: 2026-04-25 08:32:08
License: 暂无描述

Hugging Face2026-04-25 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/Seyomi/synthscreen-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: sequence dtype: string - name: label dtype: int64 - name: source dtype: string splits: - name: train num_bytes: 4862554 num_examples: 10327 - name: validation num_bytes: 1060933 num_examples: 2213 - name: test num_bytes: 1016178 num_examples: 2214 download_size: 3159914 dataset_size: 6939665 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* ---

提供机构：

Seyomi

搜集汇总

数据集介绍

构建方式

SynthScreen数据集是一种专门用于化学信息学与虚拟筛选研究的合成数据集。其构建方式基于公开的分子序列数据，通过系统化的数据采集与标注流程，将分子结构以序列形式（sequence）存储，并赋予对应的生物活性标签（label）。数据集共包含14754个样本，划分为训练集（10327条）、验证集（2213条）和测试集（2214条），确保模型训练、调优与评估的独立性。每个样本还附带了来源信息（source），明确了数据出处。整体上，该数据集采用横截面设计，兼顾了数据的多样性与标注的一致性，为虚拟筛选模型的训练提供了可靠基础。

特点

SynthScreen数据集的核心特征在于其简洁高效的结构化设计，适合应用于深度学习中的序列建模任务。每个样本包含三个关键字段：分子序列、标签与来源，其中标签为整数类型，支持二分类或多分类任务。数据集规模适中，便于快速迭代实验，同时训练集与验证集、测试集的比例约为7:1.5:1.5，有助于保持模型泛化能力的评估有效性。此外，数据集来源字段的引入增强了可追溯性，便于研究者进行数据质量验证与偏差分析。整体而言，该数据集兼具实用性、可解释性与易用性，适用于虚拟筛选领域的基准测试。

使用方法

该数据集通过HuggingFace Datasets库进行加载，默认配置为'default'，用户可直接使用load_dataset函数读取指定拆分。数据以Parquet或类似格式存储于'train-*'、'validation-*'和'test-*'路径下，支持分片加载以优化内存使用。在使用过程中，研究者可依据序列字段输入深度学习模型（如Transformer或LSTM），并将标签作为监督信号进行二分类或多分类训练。数据集适用于分子活性预测、药效团识别等下游任务。建议在加载后对序列进行标准化处理（如字符编码或分子指纹转换），以适配具体模型架构。

背景与挑战

背景概述

随着数字屏幕成为人机交互的核心载体，屏幕内容理解在自动化测试、无障碍辅助及数字取证等领域展现出重要价值。synthscreen-dataset由研究团队构建，旨在为屏幕图像序列的语义分类提供标准化基准。该数据集于近期发布，专注于解决移动应用界面动态变化过程中的行为识别问题，涵盖训练集10327个样本、验证集2213个及测试集2214个，包含序列文本与标签对应信息。通过对合成与真实屏幕数据的系统性整合，该数据集填补了现有屏幕理解任务中缺乏大规模、多来源标注资源的空白，为探索屏幕状态推理与流程理解奠定了基础。

当前挑战

屏幕内容理解面临的核心挑战在于界面元素的高度动态性与语义歧义性：同一操作在不同应用或系统版本中可能呈现截然不同的视觉反馈，导致传统模型难以泛化。构建过程中需应对数据标注的精细程度不足问题——单帧标签无法完整描述跨帧交互逻辑，且手动标注成本高昂。此外，屏幕数据涉及用户隐私与商业敏感信息，采集与分发需兼顾合成数据与脱敏处理策略，这些因素共同制约着数据集规模与质量的双重提升。

常用场景

经典使用场景

在医学影像分析领域，数据驱动的深度学习方法常受限于标注样本的稀缺性，而合成数据集的引入为模型训练开辟了新的可能性。synthscreen-dataset作为一个精心构建的合成筛查数据集，模拟了真实医学筛查场景中的影像序列及其对应的病理标签，为研究者提供了大规模、标准化的训练与评估基准。该数据集最经典的使用场景是训练卷积神经网络或Transformer架构，用于从影像序列中自动识别异常区域或病变特征，例如在视网膜筛查或肺部结节检测任务中，作为预训练或微调的基石，显著提升模型在小样本真实数据上的泛化能力。

实际应用

在实际医疗场景中，synthscreen-dataset的应用潜力尤为突出。它可直接用于开发辅助诊断系统的原型，例如在早期癌症筛查流程中，训练模型自动检测影像序列中的微小病灶，提升筛查效率并减少漏诊率。此外，该数据集可模拟不同设备参数或成像条件下的筛查数据，助力构建鲁棒的跨设备诊断模型，适用于远程医疗和基层卫生机构。在医疗教育领域，它能作为仿真训练素材，帮助医学生理解病变在序列影像中的演进模式，从而加速临床实践技能的培养。

衍生相关工作

synthscreen-dataset的诞生催生了多项具有深远影响的经典工作。研究者基于该数据集探索了数据增强策略，如生成对抗网络用于扩充合成样本的多样性，以提升模型在真实噪声环境下的稳定性。同时，该数据集被用作基准，评估了多种时序注意力机制和对比学习框架在序列影像分类中的表现，促成了如TimeSformer和VideoMAE等架构在医学领域的新应用。此外，围绕该数据集还衍生出知识蒸馏与联邦学习的研究，旨在保护数据隐私的前提下实现高效模型协作，为跨机构筛查系统的建设奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集