AI现场发了2万红包，打开了大模型Act时代-龙跃AI

机器之心原创
编辑：泽南、杜伟
我们需要的是「真正解放双手的智能体」。最近一段时间，大模型领域正在经历智能体（AI Agent）引发的革命。Anthropic 推出的升级版 Claude 3.5 Sonnet，一经推出即引爆了 AI 圈。
作为新一代 AI 智能体，它跨过了大模型的次元壁，能够像人一样直接操纵电子设备，根据你给出的自然语音指令移动光标、点击相应位置以及通过虚拟键盘输入信息，模仿人类与计算机的交互方式。大家都在自发探索智能体的使用方法，比如有人已经在用智能体自动代肝崩铁每日任务了。

除了打游戏，在工作环境中智能体还可以接管很多日常事务，比如撰写邮件、安排会议、整理文件等等，据说从科研到写代码样样都行。
有人表示，智能体工具的出现标志着全新人机交互范式踏出了新的一步。
没过多久，国内公司就拿出了对标的产品，而且还更进一步，一次性实现了手机、PC、AI 原生硬件的覆盖。
今天上午，智谱 Agent 宣布升级，开放「百万内测」申请，翻开了人机交互体验的新一页。
AI现场发了2万红包，打开了大模型Act时代插图
这是智谱第一个产品化的智能体 Agent，可以做到让 AI 通过语音直接操纵硬件设备，还能跨不同 App 全局操作。
在发布会现场，智谱 CEO 张鹏展示了一番智能体的能力。让 Agent 与现场观众建面对面群聊。
AI现场发了2万红包，打开了大模型Act时代插图1
发一个总计两万块钱的红包。
AI现场发了2万红包，打开了大模型Act时代插图2
AI 发的红包瞬间就抢空了。不得不说谢谢张总，谢谢 AI Agent。‍

深入手机、PC，能自己做主
智谱智能体的手机版 AutoGLM 与电脑版 GLM-PC，内测阶段覆盖部分常用的 App 及应用。AutoGLM 支持包括微信、抖音、小红书、微博等社交平台、美团、饿了么、等美食平台、淘宝、京东、拼多多等购物平台、高德和百度地图等出行平台、以及 12306、去哪儿、携程等旅游订票平台。

用户打开 AutoGLM 后，只需要动动嘴（当然也支持文字输入），就能让智能体接管自己的手机，并在上面这些 App 上自动执行任何指令任务，比如在微信上对某个公众号的文章进行摘要总结、在高德地图上为你规划出行路线，等等。

此次，智谱给 AutoGLM 进行了一系列能力升级。基于这些新能力，我们看到了一些新玩法。

一是「更长」，即 AutoGLM 可以理解、遵循并自主完成超长、复杂的指令，支持超过 50 步的无打断连贯操作。在长任务上执行的速度比人类实操还要快。

AI现场发了2万红包，打开了大模型Act时代插图3
二是「跨 App」，即 AutoGLM 在更强大泛化能力和思维链的加持下，支持复杂任务的跨 App 操作。有了这个智能体，用户与应用之间多了一个可以自动执行的调度层，省去了在不同 App 之间来回切换的麻烦，实现了这些 App 之间的协同操作。
我们以不同 App 之间的信息分享为例，命令 AutoGLM「在小红书上种草几款单反相机，然后分享到微信的『编辑部之插科打诨』群」，操作很丝滑。
AI现场发了2万红包，打开了大模型Act时代插图4
再比如跨不同 App 购物，AutoGLM 也能一气呵成。
AI现场发了2万红包，打开了大模型Act时代插图5 ‍
更多新玩法进一步拓展了 AutoGLM 的功能，包括「短口令」，类似于手机上的快捷指令。在这种模式下，AutoGLM 可以一键存储用户自定义的快捷短口令，在触发该指令后自动发起并执行关联长任务。
更有意思的还有「开盲盒」，AutoGLM 会默认跳过对话步骤，对于用户发出的模糊指令，让 AI 主动帮你完成选择。过程中只有在涉及重要操作（比如支付）时才会进行二次确认。
AI现场发了2万红包，打开了大模型Act时代插图6 ‍

AutoGLM 的自主执行能力还扩展到了网页端。智谱在浏览器（Google Chrome 和 Microsoft Edge）的智谱清言插件上提供了 AutoGLM-Web 功能。该功能适配了知乎、微博、X 和豆瓣等社媒网站，百度、谷歌和必应等搜索引擎，百度学术、谷歌学术和 arXiv 等学术网站，以及 GitHub 代码托管网站和资讯类网站。
在这些网站上，智能体遵循用户指令，可以自动执行站内搜索、内容总结、生成 arXiv 日报、搭建 GitHub 仓库、在微博超话签到等个性化功能，可玩性不错。如下所示，我们可以让它自动帮我们在微博分享新鲜事。
AI现场发了2万红包，打开了大模型Act时代插图7
在桌面端，智谱同样推出了像人一样操作计算机软件的应用 GLM-PC，它基于通用视觉大模型 CogAgent 的理解与任务规划能力，让用户通过简单的一句话指令执行复杂任务。
AI现场发了2万红包，打开了大模型Act时代插图8
比如查询并总结网页上的信息，并通过微信发送给别人：
AI现场发了2万红包，打开了大模型Act时代插图9
在淘宝上买 XL 码的羽绒服并购买：
AI现场发了2万红包，打开了大模型Act时代插图10
即将上线的隐形屏幕功能更加科幻。AI 可以在不打扰你的情况下提供帮助，解放屏幕使用权给人，自己在另外一个隐形屏幕上完成工作。
AI现场发了2万红包，打开了大模型Act时代插图11
从实现原理来讲，GLM-PC 在充分理解用户指令后对任务进行规划，然后识别电脑界面中的窗口、图形、文字等信息，然后自动操作电脑。另外，这个 AI 助手在使用过程中可以根据页面信息更改计划并自我纠错，从而更好地完成任务。
据介绍，GLM-PC 尤为擅长处理办公场景，可以在微信、飞书、钉钉、腾讯会议等平台执行多样性任务，比如发送信息、预定和参与会议。同时支持浏览器网页搜索以及网页内容的阅读总结、翻译，还能进行多种文档处理，包括下载、发送和总结。
AI现场发了2万红包，打开了大模型Act时代插图12 打开并加入飞书会议。
AI现场发了2万红包，打开了大模型Act时代插图13 邮件发送会议纪要。
不仅如此，智谱还实现了 GLM-PC 与手机端的联动。用户现在可以在手机上远程向 GLM-PC 发消息，让它自动进行电脑端操作。
AI现场发了2万红包，打开了大模型Act时代插图14
最后，智谱在发布会现场表示，要对十个亿级 App 进行免费 Auto 升级。荣耀、华硕、小鹏汽车等大厂，高通、英特尔等硬件、芯片厂商也纷纷站台，介绍了与智谱的合作。
随着端到端、多模态、视频等新能力的大模型出现，大模型已经初步具备了和物理世界互动的能力。
我们能够逐渐想象出山姆·奥特曼口中「前所未有的自然交互」的样子，但眼前能够接触到的很多落地产品，却似乎总是差点意思。这可能是因为想要构建颠覆性的产品，需要的不止是大模型能力，还有对于技术方向的提前预判，以及完整系统的优化。
其实在发展大模型基础技术之外，智谱最近还一直在推进另一件事：构建体系。
AI现场发了2万红包，打开了大模型Act时代插图15
我们能够逐渐想象出山姆・奥特曼口中「前所未有的自然交互」的样子，但眼前能够接触到的很多落地产品，却似乎总是差点意思。这可能是因为想要构建颠覆性的产品，需要的不止是大模型能力，还有对于技术方向的提前预判，以及完整系统的优化。
智谱在大模型 Agent 方向上的研究由来已久。自 2023 年 4 月，智谱就陆续提出了 AgentTuning、AgentBench、CogAgent 等大模型智能体工作，今年智谱又连续发布了AutoWebGLM、AutoGLM 等成果。智谱针对 AutoGLM、GLM-PC 的研发工作也经历了一年半以上的时间。
在探索大模型智能体能力边界的过程中，智谱逐渐获得了两个重要的观察。

首先，智能体和推理本质上服从着同大模型训练类似的 Scaling Law。智能体通过和环境交互，模型获得来自环境的反馈监督信号，具有类似的规模扩展效应。这说明，通过扩展计算规模，我们可以持续地提升大模型智能体的表现水平。

在新的 Scaling Law 背后，智谱设计了 WebRL，一个自进化在线课程强化学习算法框架。通过引入大模型特有的自进化演化策略，并利用课程学习实现智能体由易到难进行泛化，并最终借助在线 off-policy 强化学习，AutoGLM 实现了在在线环境中的智能体扩展规律。

其次，智谱进一步的探索发现了 Agent 存在 Emergent Ability，即能力涌现。

10 月发布之初，AutoGLM 尚只能在单个应用、短距离任务上展现能力。然而，随着工程师们进一步训练和规模的扩展，最新版本的 AutoGLM 已初步具备跨应用、长距离任务的胜任水平，甚至能够能遵从复杂指令在从未见过的 App 应用中操作。
其实在发展大模型基础技术之外，智谱最近还一直在推进另一件事：构建体系。

由于多模态大模型的出现，现在的 AI 已经具备了语义理解、屏幕内容解析和行为语义理解等能力。接下来要做的似乎就是找到一种机制，让大模型能够一步一步地解题。
智能体（AI Agent）就是用来执行这样复杂的任务的。它既具有自主性，又能进行环境交互，可以分解复杂任务进行规划，使用专业的模型或外部工具来提升自身能力，还拥有远超大模型本身的记忆能力。
这意味着加入智能体之后，手机这样的设备可以利用相对轻量级的模型，承载起更加复杂的自动化任务。
此前在业内，一些科技大厂、创业公司和手机厂商已在 PC、AI 手机上构建了智能体能力，并获得了不错的效果。但从技术发展的角度来看，这往往是各自产品路线的延伸。智谱提供的解决方案在此基础上还会覆盖汽车、智能眼镜、智能音箱，甚至具身智能的机器人等 AI 原生硬件，体现出了另一种思路。

智谱认为，将来不同的硬件设备都可能由统一体系的 AI 智能体来操作，这样才能实现人机交互的提升。为此，他们也在芯片、应用 App、操作系统 OS 和模型侧进行了提前布局。

包括与芯片、终端厂商持续合作，从硬件底层进行优化，持续优化端侧大模型的能力。在 10 月高通骁龙 8 至尊版发布时，智谱就宣布已联合高通对最新一代端侧视觉大模型 GLM-4V 进行了深度适配和推理优化。在端侧部署后，今年的新一代旗舰手机已经可以支持丰富的多模态交互方式，让人们获得更加情境化、个性化的终端侧智能体验。

智谱也和众多手机、电脑厂商合作，在 AI PC、手机端智能助手领域给大模型进行落地。率先亮出 AI 智能体操作手机的荣耀，就在九月份与智谱达成了 AI 大模型技术的战略合作。

本周，智谱还与英特尔、机械革命联合发布了专为程序员设计的 CODE AI 程序员笔记本，预装了基于端侧的智能编程助手。

通过端侧芯片性能优化和端云一体架构，智谱的大模型智能体技术，不久后将出现在越来越多的设备上。

Agent 的尽头是什么？
尽管目前的技术还在初期，但 AI 智能体已经展现出了前景。
再往更深的层次想，过去键盘鼠标、触控屏幕这样物理交互的形式，从 DOS、Windows 再到 iOS、安卓等操作系统，都是为了让人更好地与机器沟通。
大模型正在走一条相反的路，让我们无需花费大量时间去理解各种应用的复杂界面，减少机械的劳动，反过来让机器适应人类。
智谱 CEO 张鹏在发布会上表示：「目前的 Agent 能力更像是在用户和应用、设备之间增加一个智能的调度层。可以看做是大模型通用操作系统 LLM-OS 的一种雏形。这已经对人机交互形式产生极大的影响。更重要的是，我们看到了一种大模型操作系统 LLM-OS 的可能，基于大模型智能能力，有机会实现原生的人机交互。」

文章版权归作者所有，未经允许请勿转载。

THE END