mobile-actions

Name: mobile-actions
Creator: Google
Published: 2025-12-19 05:10:12
License: 暂无描述

Hugging Face2025-12-19 更新2025-12-20 收录

下载链接：

https://huggingface.co/datasets/google/mobile-actions

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含对话轨迹，旨在训练轻量级模型（如FunctionGemma 270M）将自然语言指令转换为Android操作系统系统工具的可执行函数调用。数据集以JSONL格式提供，每个样本包含元数据（用于区分训练集和评估集）、可用工具列表（描述可调用的函数及其参数）和消息列表（包含用户输入和预期的函数调用）。

This dataset comprises dialogue trajectories, designed for training lightweight models (e.g., FunctionGemma 270M) to convert natural language instructions into executable function calls for Android system tools. The dataset is provided in JSONL format, with each sample including metadata (for distinguishing training and evaluation sets), a list of available tools describing callable functions and their parameters, and a message list containing user inputs and expected function calls.

提供机构：

Google

创建时间：

2025-12-18

原始信息汇总

Mobile Actions 数据集概述

数据集基本信息

数据集名称: Mobile Actions: A Dataset for On-Device Function Calling
发布者: Google
许可证: CC BY 4.0
主要标签: gemma3, gemma, google, functiongemma, mobile-actions, function-calling
语言: 英语 (en)
数据规模: 介于 10M 到 100M 条样本之间

数据集目的与内容

该数据集包含对话轨迹，旨在训练轻量级模型（例如 FunctionGemma 270M），以将自然语言指令转换为 Android 操作系统工具的可执行函数调用。

数据集格式与结构

数据集以 JSONL 格式提供，每行代表一个数据样本。数据集已预先划分为训练集和评估集，此区分由每个样本内的 metadata 字段表示。

每个 JSON 对象包含以下字段：

metadata: 包含用于划分的数据样本元数据，值为 "train" 或 "eval"。
tools: 模型可以调用的可用工具（函数）列表。每个工具包含：
- function: 描述函数的对象：
  - name: 函数名称。
  - description: 函数功能的描述。
  - parameters: 描述函数所接受参数的对象，遵循类似 JSON Schema 的结构。
messages: 消息列表，通常包含用户输入和预期的函数调用。
- role: 通常用户输入命令为 "user"，函数调用为 "assistant"。
- content: 用户的自然语言输入。
- tool_calls: （针对助理角色）模型应预测的工具调用列表。每个工具调用包含：
  - id: 工具调用的唯一标识符。
  - type: 始终为 "function"。
  - function: 指定要调用的函数的对象：
    - name: 函数名称。
    - arguments: 包含函数参数的字符串化 JSON 对象。

搜集汇总

数据集介绍

构建方式

在移动计算与自然语言处理交叉领域，Mobile Actions数据集通过系统化采集与标注流程构建而成。其核心数据来源于模拟真实场景的对话轨迹，专门针对Android操作系统工具的自然语言指令与可执行函数调用之间的映射关系进行设计。数据样本以JSONL格式组织，每条记录均包含元数据、可用工具列表及多轮对话消息，确保了数据结构的一致性与可扩展性。数据采集过程注重指令的多样性与工具调用的准确性，为轻量级模型训练提供了高质量、任务导向的语料基础。

使用方法

使用本数据集时，研究人员可加载JSONL文件并按元数据字段区分训练与评估样本。每条数据中的`tools`字段定义了当前上下文可调用的函数集合，`messages`字段则提供了用户指令及对应的期望函数调用响应。模型训练旨在学习根据用户自然语言内容，从给定工具列表中准确选择并生成符合规范的`tool_calls`。评估阶段可通过对比模型预测的函数调用与标注的真实调用来衡量性能。该数据集适用于端侧轻量模型在移动设备函数调用任务上的监督微调与能力评估。

背景与挑战

背景概述

在移动计算与自然语言处理交叉领域，实现用户自然语言指令到设备系统功能调用的精准映射，是提升人机交互智能化的核心课题。Mobile Actions数据集由Google研究团队于2024年创建，旨在为轻量化模型（如FunctionGemma 270M）提供训练资源，专门解决Android操作系统环境下，将口语化指令转化为可执行系统工具调用的研究问题。该数据集通过结构化对话轨迹，推动了设备端函数调用技术的发展，对边缘智能与隐私保护场景下的语言模型应用产生了显著影响。

当前挑战

该数据集致力于解决移动设备端自然语言函数调用的复杂挑战，包括对多样化、模糊性用户指令的准确解析，以及在严格资源约束下保持模型预测的实时性与低功耗。在构建过程中，研究人员需克服高质量对话轨迹的规模化采集与标注困难，确保工具描述与参数结构的规范性，同时维持训练与评估数据在真实场景下的代表性与平衡性，以支撑轻量模型的稳健泛化能力。

常用场景

经典使用场景

在移动计算与自然语言处理交叉领域，Mobile Actions数据集为轻量级模型训练提供了核心资源。其经典使用场景聚焦于模型指令微调，旨在将用户自然语言指令精准映射为Android操作系统工具的可执行函数调用。通过模拟真实对话轨迹，数据集支持模型学习复杂意图解析与结构化参数生成，为设备端智能助理的响应机制奠定数据基础。

解决学术问题

该数据集有效应对了边缘智能场景下的关键学术挑战，包括受限计算资源中的高效函数调用建模、自然语言到结构化API的端到端转换，以及对话上下文中的工具选择与参数推理。其意义在于推动轻量级语言模型在设备端执行复杂任务的能力研究，降低了云端依赖，为隐私保护与低延迟交互提供了新的解决方案，深刻影响了移动人工智能的算法发展与系统设计范式。

实际应用

在实际应用层面，Mobile Actions数据集直接赋能于智能移动设备的功能自动化。基于该数据集训练的模型可集成至手机助理或系统服务中，实现用户通过自然语音或文本直接操作设备设置、管理应用、查询信息或控制硬件功能。这种技术提升了人机交互的直观性与效率，为无障碍访问、快捷操作及个性化服务创造了可能，推动了消费电子产品的智能化演进。

数据集最近研究