AI新工具
banner

AgentCPM-GUI


介绍:

AgentCPM-GUI是由THUNLP和ModelBest联合开发的,能操作中英文App的GUI智能体模型。









AgentCPM-GUI

AgentCPM-GUI 是一个由 THUNLP 和 ModelBest 联合开发的开源设备端大型语言模型(LLM)智能体。它基于拥有 80 亿参数的 MiniCPM-V 构建,以智能手机屏幕截图作为输入,能够自主执行用户指定的任务,尤其擅长操作中文应用程序。

主要特点包括:

  • 高质量的GUI理解: 通过大规模双语 Android 数据集上的预训练,显著提高了对常见 GUI 部件(按钮、输入框、标签、图标等)的定位和理解能力。
  • 中文App操作: 它是首个针对中文应用程序进行微调的开源 GUI 智能体,涵盖了 30 多个流行的应用程序,如高德地图、大众点评、哔哩哔哩和小红书等。
  • 增强的规划和推理能力: 通过强化微调 (RFT),模型在输出操作之前能够“思考”,从而大大提高了复杂任务的成功率。
  • 紧凑的动作空间设计: 优化的动作空间和简洁的 JSON 格式将平均动作长度缩短到 9.7 个 token,从而提高了设备端的推理效率。

AgentCPM-GUI 的使用场景:

  • 自动化移动App任务: 可以根据用户指令自动完成App中的各种操作,例如:
    • 在高德地图上搜索特定地点并导航。
    • 在大众点评上搜索餐厅并预定座位。
    • 在哔哩哔哩上搜索视频并播放。
    • 在小红书上浏览特定类型的帖子。
  • 辅助功能: 可以为残疾人士或老年人提供辅助,帮助他们更方便地使用移动设备。
  • 自动化测试: 可以用于移动应用程序的自动化测试,提高测试效率和覆盖率。
  • 智能助手: 可以集成到智能助手中,作为助手的一部分,负责执行移动应用程序相关的任务。