3月31日,智谱宣布发布最新Agent产品AutoGLM沉思。AutoGLM沉思能一边进行复杂思考,一边执行操作,像人类一样打开并浏览网页,完成从数据检索、分析到生成报告。
此前,Manus开放给部分用户内测,把通用Agent概念推向高潮,甚至有超百万人排队等待。近日,Manus上线了海外版APP,并公布了两种收费方案:每月39美元/199美元。
而智谱AutoGLM沉思上线后,免费不限量。智谱CEO张鹏在接受媒体采访时,谈到Agent应用形态的未来表示,最终还是会回归到模型上,“我们一直倡导模型即场景的概念,未来很多应用以模型为核心,包上一个很浅或者很薄的产品化或应用性的壳,就会变成一个产品。”
同日,金沙江创投管理合伙人朱啸虎在一场投资论坛上直指,所有的AI应用都是套壳应用,并建议创业公司不要浪费一分钱去训练底层模型,全力拥抱开源模型。
在业内类似的说法此消彼长,零一万物CEO李开复也公开表明放弃超大参数基础模型的竞争。预训练大模型的声量,正逐渐下降,但是张鹏提了一个反共识的观点:预训练仍然很重要,且会继续投入。
在他看来,RL(强化学习)或者其他各种方法,本质上还是依赖预训练所带来的基座模型天花板,“包括Manus这种产品化、工程化的方法,它只是权宜之计,我们折中式的解决方案,永远是模型进,工程退。”
除了技术发展路线备受关注外,近一月来,智谱连续获得三轮融资并完成股改,引发“IPO”猜想。对此张鹏表示,股改肯定是朝着IPO目标前进的,在这个过程中仍会继续去推进融资工作。
他强调相比1到10的复制,0到1的试错成本完全不可同日而语,“不管融了多少钱,拿了多少收益,其实都是AGI道路上盘缠。”
以下为主要对话内容:
模型进、工程退
预训练仍然很重要
Q:现在大家很少提预训练大模型的能力,您怎么看预训练大模型基础的能力?另外推理模型能力逐渐提升,而且提升的性价比从用户端感知可能是比较好的,您觉得推理模型的天花板在哪里?主要使用场景在哪里?
张鹏:对于预训练这件事情,大家反共识的点在于什么呢?预训练仍然很重要。为什么仍然很重要?预训练虽然现在关注度不那么高,但是后面的RL或者各种方法,本质上还是依赖预训练所带来的基座模型天花板,都是在深度的、更大程度挖掘、逼近这个天花板。
当然预训练里面的问题非常多,或者待研究的点非常多,预训练的架构、数据使用效率甚至是训练计划怎么去优化?就像我们说的智能体学习一样,是不是需要由易到难的过程,还是无序地进行预训练?这里面还有很多问题需要去研究。
目前来看,推理模型或者推理能力在更多的泛用性任务上表现上并不及预期,也是随着我们研究进展改变的。最早的推理模型只能解数学、物理这种明确标准答案的一些任务。后来RL也证明,当你RL的奖励方式或者优化策略有一定调整之后,它也可以在其他的开放问题上,表现非常不错。
所以每一个技术上的改进,在原来的路径上会产生新的可能性。我们就是在不断地探索这个可能性,不断地在原有的数据上长出新的枝叶去完成演进的过程。当然作为基座模型厂商,预训练是我们一定会坚持的事情。
Q:Pleias联合创始人Alexander Doria前段时间说未来AI智能体的发展方向还得是模型本身,而不是工作流。他还举了Munas的例子,说是它的效果不好,提示驱动无法完成复杂的任务,您怎么理解?
张鹏:我非常同意Alexander Doria的总结。确实未来的新应用形态,尤其是智能体的应用形态,还是会回归到模型上。我们一直倡导模型即场景的概念,未来很多应用会以模型为核心,包上一个很浅的或者很薄的产品化、应用性的壳就会变成一个产品。
当然非常简单,模型能力一旦提升,产品能力就得到提升,这是很典型的新应用范式的变化。但是也不可否认的是,当下AGI之路刚刚开始,模型的能力还无法达到完全类比人的水平。当下我们怎么把这些能力落到实际的应用当中去,这是工程上要解决的问题,因为技术研究需要时间,还要遵循研究的规律。
我理解中间的所有方法,包括Munas这种产品化、工程化的方法,只是权宜之计,我们折中式的解决方案,永远是模型进,工程退。你的技术越先进,需要工程化的事情越简单,永远是这样。
所以终极的目标是当我造出一个像人一样聪明的脑子之后,工程上的事情就比较少,我只需要给它装上手和眼睛就像人一样可以完成很多工作,这是AGI的终极目标。
Q:Agent的底座一定是大语言模型?
对于Agent来讲它的底座模型是什么呢?你可以理解为就是类比人的大脑,但是脑子的能力是很多样化的,除了思考和推理的能力以外,还会有感知、视觉、听觉和其他能力,这些能力都具备一定水平线以上它才会完成一些基本的任务。
所以未来的底座是什么?我们看到AutoGLM是一个产品,背后的模型,今天我们强调的是推理模型。但实际上已经包含了智能体的模型,包含了视觉理解。所有的这些东西都已经在这里了。
反过头来讲,这是我们智谱的优势,不需要东拉西借各种能力,再把它缝合起来。我们本身的体系就是完备的,而且都在水平线以上,这是我们比较早地把Agent能力爆发出来的原因。
Agent要有价值,不能有明显短板
Q:智谱在处理搜集、整理、纯文本的任务还比较好用,但是带有复杂的浏览器操作的时候会卡住。是不是因为国内网页网站可能设计得并不够好,限制了AI的能力增长?
张鹏:首先第一个并不是因为网页本身设计不好,我们叫点儿背不能怪社会。大部分人都可以用,为什么Agent不能用呢?我们更多思考的是这个问题。大家仔细体会可以体会到一个问题,当前通用Agent的产品,想要落地,有一个“木桶原理”不能有明显的缺项。
为什么(Agent)会找不到输入框?有几个可能,第一个可能视觉理解能力不如人,如果有弹窗遮住这些问题,可能是处理意外情况的这种能力不够,再深度推理的话,泛化能力不够,最终归结为它基础能力上的某一个缺项。
Agent真正产生实用价值,文本处理、思考、操作、环境感知和理解、应用工具和调用工具、反复尝试等能力,不能有明显的短板。有明显的短板存在,就会导致应用成功率急剧下降。所以我们一直坚持所有的模型都会做,包括语言、多模态的Agent。
Q:在专业的工作场景中,Agent要达到可用有一个问题是需要打通一些公域和私域之间的数据壁垒,以及不同平台之间的壁垒,否则就像Munas一样,登录网盘会被系统拦截,智谱在这个方面有什么好的解决方法?
张鹏:针对专业领域或者企业用户,或者有一些限制条件的用户,其实有一套功能化的解决方案。这一套方案会更多地把它沉淀在未来的maas平台或者智能体的开发平台上,这是工程上的事情,不是模型层面的问题。
接入更多的数据源,这个是工程技术问题,我们应该把这两个问题分开来看,但是就像第一个问题回答的一样,模型能力进,工程能力退,有这样一个平衡的过程,它是动态变化的。
Q:现在大多数的Agent都是在桌面端调用,未来会不会有更多的入口?如果要调用其他入口的话有哪些挑战?
张鹏:其实这个事情我们已经在做了,只不过今天这个场合突出重点,我们拿了通用场景来说。AutoGLM更早是手机端,今天只不过是把它移到PC上。其他智能上的硬件,眼镜、车上、平板上等等的端侧都类似,都可以接。
但是里面确实有一些问题,不同类型的设备,最终的交互方式不一样,比如说眼镜不可能有键盘,就得用语音交互,语音就引入了全新的模态。如果说产品里面有明显的短板,这个事情就成不了,链条上缺了一环你就做不了,好在整体的能力是齐的,包括硬件本身也要适配新的技术。
因为是一种全新的交互方式,整个体系的技术架构完全是不一样的,是要重新做整合的。所以,大家也不能忽视这个问题,接入Agent并不是很简单地插入芯片、接入现成的SDK就可以了,这是未来的事情,现在做不到。
Q:下一代Agent的核心能力是什么?
张鹏:关于Agent的核心能力无非是两种,第一个还是模型本身能力,这个能力包括底层的语言能力、多模态能力和推理能力。
第二点就是感知环境和环境智能交互,也就是Agent强调的沟通交流的能力。这两点我认为是智能体能够在应用层面爆发,能够落地产生实际效果的两个核心价值。
融资、收益都是AGI道路上的盘缠
Q:年初的时候智谱融了很多钱,继续拿钱主要投在哪个方向?
张鹏:融资问题和AGI目标也有关系,我们判断实现AGI这个路程还有点长,过程当中需要很多技术探索和研究的投入,成本是非常可观的。到了今天,我们发布的Agent等等这些技术是一直走在前面,大家知道0到1的开拓和1到10的复制,这两个之间的成本完全不可同日而语。
要做越来越多的0到1的开拓和创新的探索,试错成本相对会增高,这是不可避免的。我们现在已经走在前面,走在前面的这部分需要加大投入。
我们对外一直有一句话,不管融了多少钱,拿了多少收益,其实都是AGI道路上盘缠。盘缠是为什么?是为了前进,这个钱不是说我们拿到手里要干什么,是为了我们的目标要花的,这一点我们认识很清楚,未来的路上还需要更多的盘缠。
Q:年内还有没有什么投融资的计划?
张鹏:投融资我们比较少对外介绍相关的信息,但是其实大家有心的话也可以观察到,最近顺利完成了公司的股改,其实目的肯定是朝着我们的IPO目标去的。
具体的进程我觉得可能并不完全取决于我们自己的一些设计,跟外部大环境有关,所以在这个过程当中,我们还是持续地去推进我们的融资工作,这个是在持续有效的进展过程当中。
Q:现阶段公司从战略层面来讲,技术和商业化战略层次和人员、资源的分配大概是什么样的情况?
张鹏:我们把自己的定位成技术驱动的公司,另外一条腿是我们的商业化路径。这两条腿并不是互相矛盾的,也不是互相争抢资源,我们是动态调整的过程。
我们觉得技术的推进和演进,到了一个必须深入到产业和应用当中去,吸取营养回馈我们技术研发,才会从去年开始大力推进产业化、商业化落地这件事情。从整体的核心任务和资源投入角度来讲,我们更多的资源还是投入在技术研发、创新这一块更高一些。
Q:DeepSeek今年好像在生态上改变挺大的,下一步我们在争夺生态方面有一些什么动作呢?
张鹏:开源是必须做的一件事情,而且是我们一直坚持做的事情。它可能还有其他的一些影响,DeepSeek主要是在商业化市场上有一些影响,比如说市场可能认为开源免费的模型就可以节省投入。
但是过去历史的经验表明,包括像MySQL也好还有RedHat,其实已经证明了开源并不等于完全免费,还有自己后期技术人员的投入、维护的成本,包括探索怎么把DeepSeek做内部的本地化等等,你要找专业的团队帮助你来解决这些问题,这些成本一点不低。
Q:出海方面有没有比较重点关注的领域还有应用场景?
确实我们从去年开始布局出海业务,现在我们在海外具体的某一个领域或者重点某个行业落地,暂时还没有。因为我们观察到全球范围之内,除了中美之外,海外对于大模型新一轮AI技术的接受、落地、研究、应用等等方面还是处于非常早的阶段。
大家的需求还是在国内大约两年前的状态,希望构建自己AI的所有技术能力,包括基础设施。在这方面,我们把一些成功经验,走过的一些路向大家进行技术和产品的输出,帮助他们去构建自己的能力,这个是我们全球战略上和竞争对手不太一样的地方。