five

rootsautomation/RICO-ScreenQA-Short

收藏
Hugging Face2024-04-16 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/rootsautomation/RICO-ScreenQA-Short
下载链接
链接失效反馈
官方服务:
资源简介:
ScreenQA Short数据集是一个用于问答任务的数据集,主要针对RICO屏幕上的问题。该数据集包含机器生成的简短回答。数据集的特征包括屏幕ID、问题、真实答案、文件名和图像。数据集分为训练集、验证集和测试集,分别包含68980、8618和8427个样本。数据集的下载大小为3319750090字节,总大小为10161007643.481998字节。
提供机构:
rootsautomation
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 许可证: CC-BY-4.0
  • 大小类别: 10K<n<100K
  • 任务类别: 问答
  • 美观名称: ScreenQA Short
  • 标签: 屏幕, 合成

数据集特征

  • screen_id: 字符串类型
  • question: 字符串类型
  • ground_truth: 字符串序列类型
  • file_name: 字符串类型
  • image: 图像类型

数据集分割

  • 训练集:
    • 示例数量: 68980
    • 字节数: 8157134566.98
  • 验证集:
    • 示例数量: 8618
    • 字节数: 1054849538.778
  • 测试集:
    • 示例数量: 8427
    • 字节数: 949023537.724

数据集大小

  • 下载大小: 3319750090
  • 数据集大小: 10161007643.481998

配置

  • 配置名称: default
  • 数据文件:
    • 训练集: data/train-*
    • 验证集: data/validation-*
    • 测试集: data/test-*
搜集汇总
数据集介绍
main_image_url
构建方式
在移动应用界面理解领域,RICO-ScreenQA-Short数据集通过自动化流程精心构建。该数据集基于RICO屏幕图像集合,利用先进的机器生成技术,针对每个界面生成简短的问答对。构建过程中,系统首先解析屏幕的视觉与结构信息,随后自动产生相关问题及其对应的简短答案,确保答案长度精简且内容直接相关。数据集严格划分为训练、验证与测试三个子集,共包含超过八万五千个样本,为视觉问答任务提供了规模化的合成数据基础。
特点
该数据集的核心特点在于其专注于移动应用屏幕的简短问答任务。每个样本均包含屏幕图像、对应问题以及一组简短的真实答案,答案设计为简洁的响应形式,便于模型进行精确理解与生成。数据覆盖多样化的应用界面,涉及丰富的视觉元素与交互场景,具有较强的现实代表性。此外,数据集遵循CC-BY-4.0许可,支持开放研究使用,其结构化特征与清晰的划分有助于推动视觉语言模型在用户界面理解方面的进展。
使用方法
使用该数据集时,研究人员可将其应用于训练与评估视觉问答模型,特别是在移动应用屏幕理解任务中。数据集已预分为训练、验证与测试集,用户可直接加载相应文件进行模型训练与性能验证。典型流程包括读取屏幕图像与对应问答对,构建多模态输入管道,以支持端到端的视觉语言建模。该数据集与ScreenAI等先进模型的研究紧密关联,为探索界面信息提取与交互推理提供了标准化基准。
背景与挑战
背景概述
随着移动应用界面的普及,屏幕理解成为人机交互研究的关键领域。rootsautomation/RICO-ScreenQA-Short数据集于2024年由Google Research团队发布,基于RICO屏幕数据集构建,专注于短答案形式的视觉问答任务。该数据集旨在推动界面元素与自然语言问题的关联理解,为屏幕内容解析提供结构化基准,对提升自动化测试、无障碍访问及智能助手性能具有显著影响。
当前挑战
该数据集致力于解决移动应用屏幕的视觉问答挑战,其核心难点在于准确解析界面元素的语义功能与布局关系,并生成简洁的文本答案。在构建过程中,研究人员面临合成数据质量控制的挑战,需确保机器生成的答案既保持语言自然性,又与屏幕视觉内容严格对齐,同时避免引入语义偏差或冗余信息。
常用场景
经典使用场景
在移动应用界面理解领域,ScreenQA-Short数据集以其合成生成的短答案形式,为视觉-语言模型提供了精准的训练与评估基准。该数据集基于RICO屏幕图像构建,通过问答对形式模拟用户与界面元素的交互,典型应用于模型对屏幕内容的理解能力测试,例如识别按钮功能、解析信息布局或推断用户操作意图,从而推动界面智能分析技术的发展。
实际应用
在实际应用中,该数据集支持移动应用无障碍功能的开发,例如为视障用户提供屏幕内容的语音描述;同时,它可用于自动化测试工具中,通过问答机制验证界面设计的合规性与用户体验。在智能助手领域,数据集帮助训练模型理解并响应用户对屏幕元素的查询,提升人机交互的自然性与实用性。
衍生相关工作
ScreenQA-Short数据集衍生了多项经典研究工作,其中ScreenAI模型作为代表性成果,利用该数据训练出强大的视觉-语言模型,专注于UI和信息图表理解。后续研究在此基础上扩展了界面导航、代码生成等任务,推动了移动计算与人工智能的交叉创新,为自动化界面分析开辟了新路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作