下载APP | 繁體版 | 发布广告 |常用工具

炒到10万,一夜爆火的Manus却不好用

京港台:2025-3-9 08:55| 来源:盐财经 | 评论( 6 )  | 我来说几句


炒到10万,一夜爆火的Manus却不好用

来源:倍可亲(backchina.com)

  近日,自称“全球第一款通用AI Agent产品”的Manus一夜之间爆火。

  其宣称性能“吊打”Open AI同款,邀请码被炒至天价,甚至能卖到9万、10万元一个。

  Manus火得突如其来,但不算莫名其妙。

  火的原因有两点,一是多家造势,风很大,但实测的人少,神秘感强,叠加“本土团队”光环,又是一个后来居上的案例;二是大模型的好,大家都见识了,但一直停留在聊天上。现在急需趁手的聚合式工具,把脑子里的想法变变现。

  忽然,说曹操曹操就到,正中下怀。

  聚合式工具也没那么玄妙,相当于“高德打车”吧。

  Manus是什么?行内叫智能体(Agent),通俗点可以叫“工具人”。这个工具人就是以大模型为“大脑”,自己“动手”使用工具来完成任务。Manus英文就是“手”的意思。

  有代表性的工具人当属OpenAI的深度研究(Deep Research)和Anthropic的计算机应用(Computer Use)。以实测结果来看,Manus达不到宣传片里的效果:幻觉较多,任务基本以失败告终。

  

  在二手平台上,Manus邀请码最贵已被炒至10万元级别

  

  产品官网显示,在GAIA基准测试(评估通用AI助手解决真实世界问题的能力)中,Manus在所有三个难度级别上,都取得了新的最先进(SOTA)表现关键,是不是“工具人”,要看它是不是真的能自行决定怎么完成任务、挑什么工具,而不是靠编好的代码。

  Manus目前未有任何信息能证明自己是真正的智能体——没有人为设计的工作流程。因此,只能说它在宣传里呈现出“智能体”或通用人工智能(AGI)的样子,并围绕这一概念作文章。

  而Manus也绝非一无是处。作为一款应用,界面简洁友好;大脑(思考)、手(操作)、交付的层次非常清晰,组合起来也是相对合格的当代“牛马”,还是能帮你提高一点生产力。

  下文将举例说明Manus如何完成工作任务、优势和局限以及技术逻辑是什么。省流版:别花好几万买什么邀请码,一个“毛坯房”不值得。

  使用工具是大学问

  “工具人”绝不能纯聊天,不干活儿,专业工具人都是一边聊一边干:左面对话框,右面操作台。Manus和Claude的界面都是如此。

  根据“我有一个朋友”的实测,给Manus由浅入深地提了几个独立的要求,比如写小说,给苹果股价建模,写一个游戏等等,结果不太乐观。

  整个流程是这样的:用户在对话框里发布指令,Manus在操作台一顿输出,用户可以清晰地看到Manus使用工具的过程,并接收它的操作结果。

  

  Manus的操作流程展示

  收到指令后,Manus是这样使用工具的:

  首先,建立一个总文件夹写明“大目标”,再建立多个清单式的子文件夹,将任务分解,最后逐一完成子文件夹的“小目标”。完成小目标时,它可能在浏览器一通搜索,也可能写一段代码。

  也就是说,Manus主要工具就三种,浏览器工具(Agent),计算机语言Python和一部分命令行。

  其次,利用超文本标记语言HTML来输出“结果”。

  也就是说,Manus用网页呈现所有的结果。

  有人问,它不是做了10页PPT给我了吗?这也是Manus“聪明”的地方,其实它没有PPT工具,为了你的PPT,它用前端工具写了一大堆页面,通过命令行把前端页面打包成一个压缩包,下载下来是一堆前端网站,每个前端网站就是一页PPT——虽然甲方很过分,但乙方还是出色地完成了任务。

  两个缺陷让Manus不好用

  在具体测试Manus的过程中,有两个问题明显暴露。

  一是浏览器工具的局限。

  遇到反爬虫网站或需要人机验证的网站,它根本无法读取数据。比如,你想要在多个购物网站比价一款手机,进不去的网站它只能作罢,最后给出的是在搜索页标题里找出来的价格的比较。总之,它给出的结果非常粗糙,根本达不到你想要的结果。

  这也是浏览器工具的通病。Open AI给出过统计数据,其浏览器Agent在数据集上只能完成58.1%的任务,而人类能完成78.2%,差距是巨大的。

  但是,Open AI的浏览器工具能力还是不差的,能帮人订餐厅,买机票。而Manus的浏览器工具只能打开页面,下滑,极少数时候点进某个网页。因此,Manus应该没有训练自己的浏览器Agent,仅能做一些初步的简单工作。

  

  Manus官方展示的买房案例

  而且,Manus选择工具也有局限。它有时非常豪爽地用Next.js写代码,这是一个全栈项目,前后端都能用的那种。但是Manus又没有部署后端的能力,各种报错之后陷入“深深的思索”。

  二是幻觉严重。

  比如给苹果公司做财务估值,Manus这次没有利用浏览器搜索,而是写了一个Python脚本,在脚本里调用“雅虎金融”的接口来读取公司相关数据。

  然而,在实际过程中,它并没有提供真实数据,而是撰写了一堆模拟数据——也就是自己编的数据。反查它的操作流程,确实没有调用过任何API,也没有任何搜索过程,幻觉是比较严重的。

  它最后给出的报告,当然也是完全不能用的。

  

  Manus可以打开Python进行分析,并生成HTML网页文件

  在处理任务时,Manus普遍将大模型和Python脚本混在一起操作,上下文极长,更容易产生错误。用户如果不留心或缺乏分辨能力,也更容易被“蒙骗”。

  模型即产品

  Manus AI创始人肖弘在接受采访时,提到了理解智能体的核心:虚拟机。

  其实,智能体应该是一个“DeepSeek”+“我”的东西。这里的“我”是执行角色。

  在没有智能体之前,我布置任务,大模型思考目标、分解步骤,“我”来执行并拿到结果。有了智能体之后,我布置任务,智能体直接给我结果。

  就像我需要10页PPT,DeepSeek给我写好每一页内容,“我”复制到PPT里。现在,我需要10页PPT,智能体就给了我10页PPT。

  

  Manus团队北京办公园区入口 新京报记者 浦峰/摄

  本来需要我使用电脑(做PPT),现在是大模型在使用我的电脑(做PPT)。

  这就是智能体的本质。

  如果用的是软件搭出来的硬件系统,那么这个智能体就是大模型+虚拟机。

  如果直接调用现实中的电脑,那么这个智能体就是大模型+计算机。一年前Claude就能拿用户的电脑做网页了。

  这是因为现在大模型还较难真正接入物理世界,只能在“真假”计算机上下功夫。如果万物互联,“大模型+锅碗瓢盆”可能直接把餐饮业干倒闭了,当然倒闭的肯定也不只一个行业了。这是后话。

  智能体的背后,是“模型即产品”的思路。

  正如Open AI的深度研究,Anthropic的计算机应用,都不再套用自家的通用模型,而是根据应用场景,训练全新的强化模型,这个强化模型本身就是一个好用的产品。

  反过来看Manus,当然是没有自家的大模型,也缺乏专门训练的相关工具,但是聚合的思路和表现形式很成功,也将大模型“纯文本工作”——写代码、写文字的优势,通过网页交付清晰地展示了出来。

  在训练模型的逻辑上,Manus可能也并没有实现Claude人、大模型、环境三者即时反馈的简洁模式,而依然遵循之前人、大模型、任务分解、工具使用、进程演化、目标达成等复杂结构。

  

  Manus AI合伙人张涛在社交平台回应称,“目前采取邀请码机制,是因为此刻服务器容量确实有限”

  在DeepSeek非常成功的今天,发展智能体是顺应了形势的需要、大众的需求。各家AI公司都希望抓住这个机会来发力。抢占流量也是发力的一部分。

  对于普通消费者而言,最重要的还是多观察,多了解,别急着掏钱。人工智能不会毁灭你的生活,但是焦虑会。

  

 

推荐:美国打折网(21usDeal.com)    >>

        更多大千杂闻 文章    >>

【郑重声明】倍可亲刊载此文不代表同意其说法或描述,仅为提供更多信息,也不构成任何投资或其他建议。转载需经倍可亲同意并注明出处。本网站有部分文章是由网友自由上传,对于此类文章本站仅提供交流平台,不为其版权负责;部分内容经社区和论坛转载,原作者未知,如果您发现本网站上有侵犯您的知识产权的文章,请及时与我们联络,我们会及时删除或更新作者。

关于本站 | 隐私政策 | 免责条款 | 版权声明 | 联络我们 | 刊登广告 | 转手机版 | APP下载

Copyright © 2001-2025 海外华人中文门户:倍可亲 (http://www.backchina.com) All Rights Reserved.

程序系统基于 Discuz! X3.1 商业版 优化 Discuz! © 2001-2013 Comsenz Inc. 更新:GMT+8, 2025-3-9 12:16

倍可亲服务器位于美国圣何塞、西雅图和达拉斯顶级数据中心,为更好服务全球网友特统一使用京港台时间

返回顶部