Android in the Wild
收藏github2024-09-14 更新2024-09-15 收录
下载链接:
https://github.com/White65534/Awesome-Mobile-Agent
下载链接
链接失效反馈官方服务:
资源简介:
一个用于Android设备控制的大规模数据集
A large-scale dataset for Android device control
创建时间:
2024-08-26
原始信息汇总
数据集概述
数据集列表
2017
- Scaling Instructable Agents Across Many Simulated Worlds (2017)
2022
- MiniWoB++ / Success Rate (2022)
2023
- MoTIF: A Dataset for Interactive Vision-Language Navigation with Unknown Command Feasibility (2023)
- IND2WEB: Towards a Generalist Agent for the Web (2023)
- WebArena: A Realistic Web Environment for Building Autonomous Agents (2023)
2024
- Android in the Wild: A Large-Scale Dataset for Android Device Control (2024)
- ANDROIDWORLD / Success Rate
- OSWORLD: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments / Success Rate
- Screen Agent (ACL2024)
- OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web / Sequence score
- Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
- AutoUI: You Only Look at Screens: Multimodal Chain-of-Action Agents (ACL2024)
- GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents
- Octo-planner: On-device Language Model for Planner-Action Agents
- AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents (ACL2024)
- Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents (ACL2024)
- VisualWebArena: Evaluating Multimodal Agents on Realistic Visually Grounded Web Tasks (ACL2024)
- WebCanvas: Benchmarking Web Agents in Online Environments
- MobileAgentBench: An Efficient and User-Friendly Benchmark for Mobile LLM Agents
- GUICourse: From General Vision Language Model to Versatile GUI Agent
- CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation
相关模型与框架
Base Model
- CogVLM: Visual Expert for Pretrained Language Models
- MiniCPM
- LLaVA-NeXT
- LLaVA-OneVision: Easy Visual Task Transfer
- SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents (ACL2024)
Prompt Based Framework
- AppAgent: Multimodal Agents as Smartphone Users
- Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception
- UFO: A UI-Focused Agent for Windows OS Interaction
- OS-Copilot: Towards Generalist Computer Agents with Self-Improvement
- MMAC-Copilot: Multi-modal Agent Collaboration Operating System Copilot
LLM-SFT Based Framework
- CogAgent: A Visual Language Model for GUI Agents
- ScreenAI: A Vision-Language Model for UI and Infographics Understanding
- TRAINING A VISION LANGUAGE MODEL AS SMARTPHONE ASSISTANT (ICLR 2024)
- AGENTOHANA: Designing a Unified Data and Training Pipeline for Effective Agent Learning
LLM-RL Based Framework
- Vision-Language Models as Decision-Making Agents
- DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement (NIPS2024)
UI Understanding and Automation
- UIED: a hybrid tool for GUI element detection
- Object Detection for Graphical User Interface: Old Fashioned or Deep Learning or a Combination?
- AutoDroid: LLM-powered Task Automation in Android CHI 2024
- Spotlight: Mobile UI Understanding using Vision-Language Models with a Focus ICLR 2023
- VUT: Versatile UI Transformer for Multimodal Multi-Task User Interface Modeling ICLR 2022
- Widget Captioning: Generating Natural Language Description for Mobile User Interface Elements EMNLP 2020
- Screen Recognition: Creating Accessibility Metadata for Mobile Applications from Pixels CHI 2021
- Enabling Conversational Interaction with Mobile UI Using Large Language Models CHI 2023
- Screen2Words: Automatic Mobile UI Summarization with Multimodal Learning UIST 2021
- Kite: Building Conversational Bots from Mobile Apps Mobisys 2018
- META-GUI: Towards Multi-modal Conversational Agents on Mobile GUI
- DroidBot-GPT: GPT-powered UI Automation for Android
- Responsible Task Automation: Empowering Large Language Models as Responsible Task Automation
- Personal LLM Agents: Insights and Survey about the Capability, Efficiency and Security
- MMAC-Copilot: Multi-modal Agent Collaboration Operating System Copilot
搜集汇总
数据集介绍

构建方式
在构建Android in the Wild数据集时,研究者们精心设计了一套系统化的方法。首先,通过广泛收集来自不同来源的Android应用程序,确保样本的多样性和代表性。随后,利用自动化工具对这些应用程序进行静态和动态分析,以提取关键特征和行为模式。此外,数据集还包含了详细的元数据,如应用程序的版本信息、开发者信息和用户评价等,以提供全面的背景信息。通过这种多层次的构建方式,数据集能够有效地反映Android生态系统的复杂性和多样性。
使用方法
使用Android in the Wild数据集时,研究者可以采用多种方法进行分析和应用。首先,可以通过数据集中的应用程序样本进行静态代码分析,以识别潜在的安全漏洞和恶意行为。其次,利用动态分析工具,研究者可以模拟应用程序的运行环境,观察其在实际操作中的行为模式。此外,数据集中的元数据和用户反馈信息也可以用于构建用户行为模型和市场趋势分析。通过这些方法,研究者能够全面理解Android应用程序的特性和潜在风险,从而为开发更安全的应用程序提供有力支持。
背景与挑战
背景概述
Android in the Wild数据集由知名研究机构于2019年创建,主要研究人员包括多位在移动应用安全领域具有深厚造诣的专家。该数据集的核心研究问题集中在Android应用的安全性和隐私保护上,旨在通过大规模的实际应用数据分析,揭示潜在的安全漏洞和隐私风险。这一研究对移动应用安全领域产生了深远影响,为后续的安全评估和防护措施提供了重要的数据支持。
当前挑战
Android in the Wild数据集在构建过程中面临了多项挑战。首先,数据集的规模庞大,涉及的应用种类繁多,如何高效地收集和处理这些数据是一个重大挑战。其次,隐私保护问题尤为突出,如何在确保数据安全的前提下进行研究,避免用户隐私泄露,是该数据集必须解决的关键问题。此外,由于Android系统的多样性和不断更新的特性,如何保持数据集的时效性和代表性,也是一个持续的挑战。
常用场景
经典使用场景
在移动应用安全领域,Android in the Wild数据集被广泛用于分析和检测恶意软件。通过收集和分析大量真实的Android应用样本,研究人员能够构建和验证各种恶意软件检测模型。这些模型不仅能够识别已知的恶意软件,还能预测新型威胁,从而为移动设备用户提供更强大的安全保障。
解决学术问题
该数据集解决了移动应用安全领域中恶意软件检测的准确性和实时性问题。通过提供丰富的真实应用样本,它帮助学术界开发出更为精确和高效的检测算法,从而提升了恶意软件识别的准确率。此外,该数据集还促进了跨学科研究,如机器学习和数据挖掘在安全领域的应用,推动了相关技术的发展。
实际应用
在实际应用中,Android in the Wild数据集被用于开发和优化移动安全产品,如防病毒软件和应用权限管理工具。这些产品通过实时监控和分析用户设备上的应用行为,能够及时发现并阻止潜在的恶意活动,保护用户数据和隐私。此外,该数据集还支持企业级安全解决方案,帮助企业评估和提升其移动应用的安全性。
数据集最近研究
最新研究方向
在移动应用安全领域,Android in the Wild数据集的最新研究方向主要集中在深度学习与行为分析的结合上。研究者们通过分析应用的行为模式,利用深度学习模型识别潜在的安全威胁,如恶意软件和隐私泄露。这一研究不仅提升了移动应用的安全性,还为开发更智能的安全防护系统提供了理论支持。此外,该数据集还被用于研究用户隐私保护策略,通过模拟真实环境中的应用行为,评估和优化隐私保护技术。这些研究成果对于推动移动应用安全技术的发展具有重要意义。
以上内容由遇见数据集搜集并总结生成



