2025年计算机行业专题报告:智谱AutoGLM,人机交互范式的创新与探索

1 智谱 AutoGLM 重磅升级,推动人与机器交互方式 的范式转变

智谱推出升级版 AutoGLM。2024 年 11 月 29 日,智谱在 OpenDay 推出升级版 AutoGLM,挑战完成复杂任务。重要进展包括: 手机端:自主执行超过 50 步的长步骤操作,也可以跨 app 执行任务; Web 端:开启“全自动”上网新体验,支持数十个网站的无人驾驶; 桌面端:像人一样操作电脑的 GLM-PC 启动内测,基于视觉多模态模型实 现通用 Agent 技术探索。

AutoGLM 推动人与机器交互方式的范式转变。发布会现场,智谱 CEO 张鹏介绍 并展示了 AutoGLM 操作手机、电脑,以及手机电脑联动的场景,并表示未来随着 GLM 团队继续加速 agent 模型产品研发,将很大程度上改变人机交互形式,用户 一句话操作电脑和手机的范式转变指日可待。

2 手机端 AutoGLM:理解超长指令,执行超长任务

自然语言指令,实现复杂任务的快速执行。根据官方内测用户使用手册,本次手 机端 AutoGLM 升级重点在于,操作执行不再受限于简单任务场景,也不需要用 户手动搭建复杂繁琐的 workflow,仅通过自然语言指令即可实现复杂任务的快速 执行。本次升级后,手机端 AutoGLM 覆盖范围在常用生活场景迅速铺开,在微 信、小红书、美团等常用平台之上新增抖音、微博、饿了么。同时,一些跨应用 协同长任务也可以执行,例如“在小红书查查上海最好吃的西餐厅,帮我看看他 家在大众点评有没有团购券”。本章节,我们将对手机端 AutoGLM 目前主要支持 应用进行测评。

2.1 社交媒体类测评(微信)

一、微信搜索与内容转发

实际操作: 1. 首先,用户呼唤 AutoGLM,“在微信中搜索关于 1 月 3 日 a 股相关的文章, 并把前三篇发送给我的文件传输助手”。 2. 在获取用户许可后,AutoGLM 打开微信 APP,并在搜索框内输入关键词“1 月 3 日 a 股”,但并没有理解关键词“文章”,随机跳转至“视频号”。3. 在用户手动纠正并筛选一篇相关文章后,AutoGLM 将文章发送至“我的文件 传输助手”。 4. AutoGLM 成功将用户筛选文章发送至文件传输助手。 5. 告知用户任务完成。

关键词处理有误,用户纠正后完成任务。本次测试中,AutoGLM 对于关键词“1 月 3 日 a 股”理解与执行正确,但并未理解“文章”。在用户介入后,AutoGLM 继 续完成任务,并成功将文章发送至用户的文件传输助手。

2.2 美食探店类测评(大众点评、饿了么)

一、大众点评餐厅搜索

实际操作: 1. 首先,用户语音呼唤 AutoGLM,“帮我在大众点评上找一家上海浦东南路附 近,人均消费一百元左右的西餐厅”。 2. 在获取用户许可后,AutoGLM 打开大众点评 APP,并在搜索框内输入关键词 “浦东南路”,并在条件筛选内,找到“价格区间”,选择“50-100”。 3. 随后,AutoGLM 在分类中找到“美食”,并找到“西餐”。 4. 在筛选条件后,AutoGLM 进一步获得更精准的搜索结果,并询问用户“查找 到西餐厅有关东小磨东北菜和迷迭巷·致味新疆。你想选择哪家呢?”。5. 在退出对话框后,可以发现根据 AutoGLM 的筛选条件,实际搜索结果为 “AMINO AMIGO(世纪汇店)”和“M·K 意大利餐厅(北外滩来福士店)”, 与 AutoGLM 反馈给用户的结果不一致。

关键词理解与执行正确,但缺乏搜索内容理解导致任务失败。从本次测试中,可 以发现 AutoGLM 对于关键词“浦东南路”、“美食”、“西餐”、“人均消费一百元左 右”理解与执行正确。大众点评根据 AutoGLM 的筛选条件所产生的结果也正确, 但 AutoGLM 在将结果反馈给用户时出现和搜索结果不一致的情况,或表明 AutoGLM 并不理解其搜索到的内容,最终导致任务失败。

二、饿了么点外卖

实际操作: 1. 首先,用户语音呼唤 AutoGLM,“帮我在饿了么上点一份我常吃的丰收日的 套餐”。 2. 随后,在获取用户许可后,AutoGLM 打开饿了么 APP,并在搜索框内输入关 键词“丰收日”。 3. AutoGLM 在搜索到“丰收日”后,点击进入,并在搜索框内输入关键词“套 餐”。随后,对用户发起询问,“查找到丰收日餐厅的套餐有联名款酸菜鱼双 人套餐、乐享丰聚双人套餐、红烧大虾带鱼一人食、虾仁芦笋配糖醋排骨一 人食和茶香油爆大虾一人食。你想吃哪个套餐呢?”。4. 用户回答“红烧大虾带鱼一人食”和“虾仁芦笋配糖醋排骨一人食”后, AutoGLM 选择相应结果,并询问用户“你需要餐具吗?”。 5. 用户回答“需要”后,AutoGLM 进入结算页面。可以注意到用户选择了两款 套餐,但 AutoGLM 在选择餐具时只选了一份。

关键词理解准确,任务基本完成。AutoGLM 对于关键词“丰收日”和“套餐”理 解准确,但在进入结算页面后,AutoGLM 对于餐具套数和用户所选套餐数量的对 应关系并无理解。整体看,AutoGLM 理解了任务关键词,基本完成任务。

2.3 好物选购类测评(淘宝、京东、拼多多等)

一、淘宝商品搜索与选购

实际操作: 1. 首先,用户语音呼唤 AutoGLM,“帮我在淘宝选购一款联想品牌的 aipc 笔记 本电脑”。 2. 随后,在获取用户许可后,AutoGLM 打开淘宝 APP,并在搜索框内输入“联 想 aipc 笔记本电脑”。 3. AutoGLM 在搜索完毕后,对用户发起询问,“查找到联想 aipc 笔记本电脑有 ThinkBook、Thinkbook 14+/16+ 2024 款等。你想选哪个呢”。4. 用户回答“选一款最贵的”后,AutoGLM 选择排序第一的搜索结果,并询问 用户“查到几款商品类型,你看看有没有喜欢的,比如 14.5 英寸 Ultra5-125H 16G 512G 2.5K 屏等。你想选哪个呢”。可以注意到 AutoGLM 并没有选择最贵的产品。 5. 用户回答“选最顶配的”后,AutoGLM 选择一款显示已经缺货产品,并告知 用户需要自行付款。

购物选品常用词理解有待加强。整个测评过程约 1 分 20 秒。AutoGLM 在此次任 务中正确理解并执行了用户指令。然而,在用户要求 AutoGLM 从搜索结果中执 行“选一款最贵的”出现失误,直接选择了结果排名第一的选项,表明 AutoGLM 对于“贵”的概念或没有理解。在选择产品配置时,AutoGLM 为用户挑选了一款 已经缺货的产品,或表明 AutoGLM 与淘宝 APP 适配不够完善。综合测评来看, AutoGLM 缺乏对用户在购物选品时常用词汇的理解。此外,商品信息本身比其 他品类更复杂,包含的要素更多,因此对 AutoGLM 的理解和信息筛选能力提出 了更高的要求。

二、京东商品搜索与选购

实际操作: 1. 首先,用户语音呼唤 AutoGLM,“在京东里面帮我选购一台华硕品牌最新的 AIPC 电脑,要价格最贵,配置适中的产品”。 2. 随后,在获取用户许可后,AutoGLM 打开京东 APP,并在搜索框内输入“华 硕 aipc 电脑”。AutoGLM 在搜索完毕后,将搜索结果按照价格从高到低排序, 但并没有选择“最新的”产品。随即选择第一个选项。3. AutoGLM 选择第一个选项后,询问用户“查找到符合条件的商品有 Ultra7 265K/96G 等,你先选那个呢”。 4. 用户回答“选择最后一个”后,AutoGLM 进行相应选择并跳转至结算页面, 同时告知用户商品价格并让用户确认付款。

部分关键词理解准确,任务基本完成。整个测评过程约 1 分 40 秒。AutoGLM 对 于关键词“价格最贵”理解准确并执行,但并未执行关键词“最新的”所需匹配 的动作。整体看,AutoGLM 理解了部分关键词,基本完成任务。

三、拼多多商品搜索与选购 1

实际操作: 1. 首先,用户语音呼唤 AutoGLM,“帮我选择一款苹果手机,需要 16 pro max, 在拼多多内选购”。 2. 随后,在获取用户许可后,AutoGLM 打开拼多多 APP,并在搜索框内输入 “苹果手机”。 3. AutoGLM 在搜索完毕后,对用户发起询问,“查找到几款苹果手机,你看看 有没有喜欢的,比如 iphone16 Pro Max、iphone15 Pro Max、iphone16 等。你 想选哪个呢”。 4. 用户回答“选第一个”后,AutoGLM 选择搜索结果第一的“苹果 13 Pro Max”, 并询问用户“你要的苹果 13 Pro Max 有多种颜色,比如白色、粉色和蓝色。 你想选什么颜色呢”。5. 用户回答“选粉色”后,AutoGLM 选择“苹果 13 国行双卡【原装屏】粉色” 并告知用户需要自行付款。

指令理解有待加强。整个测评过程约 1 分 40 秒,相较于用户手动执行类似操作较 慢,主要延迟集中于 AutoGLM 在关键跳转节点需要与用户进行确认,例如在第 一步用户语音呼唤 AutoGLM 并告知任务时,AutoGLM 首先需要识别并理解用户 指令,并等待用户做出确认或修改的动作。在 AutoGLM 跳转至拼多多 APP 后, AutoGLM 在搜索框内输入的指令为“苹果手机”,较用户实际给出的指令有细节 的遗漏,说明 AutoGLM 并没有完全理解用户指令。在任务完成后进入结算阶段 时,AutoGLM 终止运行并通知用户需要自行付款,有效保障了用户的隐私安全。 从拼多多商品选购测评看,AutoGLM 对于用户指令理解有待加强。

四、拼多多商品搜索与选购 2(定性描述)

实际操作: 1. 首先,用户语音呼唤 AutoGLM,“帮我在拼多多里面选择一款苹果手机,要 最新的款式,最高的配置”。 2. 随后,在获取用户许可后,AutoGLM 打开拼多多 APP,并在搜索框内输入 “苹果手机”。AutoGLM 在搜索完毕后,花了较长时间试图根据关键词“最 新的款式”、“最高的配置”进行选择,但最终失败。 3. AutoGLM 在放弃关键词筛选后,询问用户“查找到苹果手机有 iphone16 Pro Max 等,你想选哪个呢”。4. 用户回答“选第一个”后,AutoGLM 进行相应选择并询问用户“你要的苹果 手机有多种规格,比如 13 pro max 6.7 寸黑色国行等,你想选什么规格呢”, 用户回答“我要选择 16pro max”。 5. 由于 AutoGLM 在第 2 步已经无法执行任务,因此任务最终失败。

任务失败,定性描述关键词理解不够完善,APP 适配训练欠缺。此次任务测评耗 时较长,约 2 分 30 秒。AutoGLM 对于用户指令中的定性描述无法执行且耗时较 久,并最终失败。一方面,AutoGLM 没有理解任务关键词“最新的款式,最高的 配置”,另一方面,AutoGLM 与拼多多 APP 的适配训练或不够全面。

五、已购产品评价撰写(淘宝)

实际操作: 1. 首先,用户语音呼唤 AutoGLM,“帮我把我淘宝最新买的一款产品,但是还 没有评价的产品,写一个评价”。 2. 随后,AutoGLM 表示任务不在能力范围内,并询问用户“终止任务”或“可 以试试”。 3. 在用户表示“可以试试”后,AutoGLM 打开淘宝 APP,成功找到 3 个已购买 未评价的产品。 4. AutoGLM 与用户确认选择哪款产品进行评价,“需要和你确认一下订单选项 哦,有选项 1 和选项 2,你要哪个呢”。用户表示“选项一”。可以注意到,虽然 AutoGLM 筛选出 3 个已购买未评价的产品,但实际询问用户时,只提 到了 2 个产品。 5. AutoGLM 在尝试后表明“抱歉,您最新购买的商品还没评价呢”。任务失败。

任务失败,指令理解能力有待加强。此次任务测评耗时约 1 分钟。尽管在淘宝 APP 内撰写评价在 AutoGLM 的测评范围内,但 AutoGLM 在最开始接受任务时即表示 任务不在能力范围内,表明 AutoGLM 对于用户指令理解出现偏差。随后,在尝试 过程中 AutoGLM 通过关键词“最新买的产品”以及“没有评价的产品”找到 3 个 用户已经购买但未评价的产品,但无法分辨哪一个产品是最新买的,也没有理解 关键词“写一个评价”。最终,任务失败。AutoGLM 在其能力范围内的指令理解 能力以及对于触发任务的关键词处理有待加强。

六、购物车选购与结算(淘宝)

实际操作: 1. 首先,用户语音呼唤 AutoGLM,“帮我把我的淘宝购物车里第一个产品进行 付款结算”。 2. 随后,在获取用户许可后,AutoGLM 打开淘宝 APP,找到购物车第一个产品 并选择。 3. AutoGLM 选择后进入结算页面,并告知用户可以结算付款。

关键词理解准确,任务成功完成。整个测评过程约 40 秒。AutoGLM 对于“购物 车”、“第一个产品”、“付款结算”等关键词理解准确,成功完成任务。从此项测 评可以看出,AutoGLM 对于步骤较少,节点清晰的任务完成度更高。

2.4 日常出行类测评(12306、高德地图打车、高德地图导航)

一、高铁票选购 12306

实际操作: 1. 首先,用户语音呼唤 AutoGLM,“帮我用 12306 订购一张,从北京出发到上 海的高铁票,要求出发时间是下周二,最好的出发时间是上午十点左右”。 2. 在获取用户许可后,AutoGLM 打开 12306 APP,并在订购页面选择出发地。 选择期间,AutoGLM 向用户进一步询问北京和上海的具体目的地车站,在 用户回答“北京西站”和“上海站”后,AutoGLM 进一步选择具体车站, 成功执行出发地和目的地车站选择。 3. 随后,AutoGLM 成功选择下周二为出发日。 4. 在关键词“上午十点左右”的处理上停顿较久,且无法做出选择,最终任务 失败。

部分关键词处理无效,条件筛选能力有待加强。本次任务中,AutoGLM 对于关键 词“北京”、“上海”和“下周二”处理正确,并可以根据目的地城市询问用户偏 好的车站。AutoGLM 无法理解或处理关键词“上午十点左右”,表明 AutoGLM 可能无法理解时间概念或无法理解偏定性的关键词“左右”,最终导致任务失败。 我们认为,AutoGLM 对于用户任务的理解有待加强,尤其是对偏模糊的描述语 言理解能力有待加强。

二、高德地图打车

实际操作: 1. 首先,用户语音呼唤 AutoGLM,“帮我用高德地图打一辆车,出发点是北京 市金融中心,终点是北京市南站”。 2. 在获取用户许可后,AutoGLM 打开高德地图 APP,并在打车界面选择相应的 出发地和终点。同时,AutoGLM 向用户确认出发地具体地点,用户回答“选 北京市国际金融中心”。 3. 随后,AutoGLM 向用户进一步询问出发地和终点的地址细节,在用户回答 分别回答后,AutoGLM 根据用户回答成功执行出发地和终点选择。 4. 在获取出发点和终点的地址细节后,AutoGLM 进入车型选择界面,任务成功。

关键词理解准确,任务成功完成。AutoGLM 对于“打一辆车”、“出发地是北京市 金融中心”、“终点是北京市南站”等关键词理解准确,成功完成任务。与上一篇 张购物车结算任务类似,我们认为 AutoGLM 对于步骤较少,节点清晰的任务完 成度更高。

三、高德地图导航

实际操作: 1. 首先,用户语音呼唤 AutoGLM,“用高德地图帮我导航,出发地是北京市金 融街大厦,终点是北京市南站”。 2. 在获取用户许可后,AutoGLM 打开高德地图 APP,并在导航界面选择相应的 出发地和终点。 3. 选择期间,AutoGLM 向用户进一步询问出发地和终点的地址细节。 4. 随后,AutoGLM 进入开始导航界面,任务成功。

关键词理解准确,任务成功完成。AutoGLM 对于“导航”、“出发地是北京市金融 街大厦”、“终点是北京市南站”等关键词理解准确,成功完成任务。与上个打车 任务 AutoGLM 对于步骤较少,节点清晰的任务完成度更高。

2.5 旅游订票类测评(携程)

一、携程机票订购

实际操作: 1. 首先,用户语音呼唤 AutoGLM,“用携程 APP 帮我订购一张,下周二晚上从 深圳飞往北京,北京首都机场的飞机票,要求起飞时间,预计在晚上 7 点到 8 点”。 2. 随后,在获取用户许可后,AutoGLM 打开携程 APP,并在机票订购页面尝试 选择出发地。 3. 在经过近 1 分钟的尝试后,AutoGLM 无法选择“深圳”为出发地,任务未完 成。

语义理解失败,任务未完成。本次任务中,AutoGLM 在第一步对关键词“深圳” 即无法处理,导致任务无法进行。从任务表现看,AutoGLM 可能无法理解“从 xx 飞往 xx”的语义,导致任务失败。

2.6 小红书查攻略-美团批量购买(跨应用协同长任务)

实际操作: 1. 首先,用户语音呼唤 AutoGLM,“在小红书中查找做水果蛋糕的配料,并在 美团中将配料加入购物车”。 2. 随后,在获取用户许可后,AutoGLM 先打开小红书 APP,并在搜索框内输入 “水果蛋糕食材清单”。 3. AutoGLM 在搜索完毕后,选择第一个选项,并打开美团 APP。 4. 进入美团 APP 后,AutoGLM 根据小红书搜索结果依次搜索商品,并将商品 放入购物车中。因为美团 APP 内可选购商品的模块较多,过程中用户进行了 人为干预。 5. 选择完成后,AutoGLM 进入结算页面,并选择商品,任务完成。需要注意的 是,因为小红书搜索结果并不能完全匹配美团 APP 内所提供商品,因此 AutoGLM 在执行时,会选择相似商品。

关键词理解准确,跨应用协同长任务基本完成。AutoGLM 对于关键词任务关键词 理解基本准确,成功在小红书内搜索到合理结果,并识别结果中内容。在跳转美 团 APP 后,AutoGLM 在用户的干预下基本完成选购任务。由于 AutoGLM 的关 键词识别机制,在处理非标准化的搜索(如食品、衣物)时,可能会选择与用户 意图相关度不高的产品,从而无法合理满足用户的需求。

2.7 手机端 AutoGLM 测评总结:简单任务完成度高,未来提升空间大

任务理解与 APP 适配仍有较大提升空间。从本次系列手机端 AutoGLM 测评来看, 我们认为 AutoGLM 整体上仍有较大提升空间。首先,AutoGLM 在任务理解方面 存在不足,有时无法准确捕捉任务关键词,或无法理解用户偏定性的描述。其次, 面对复杂操作,如在 APP 内进行条件筛选,或遇到“缺货”等实际问题时,处理不 够得当,影响任务效果。此外,在执行多步骤任务时,AutoGLM 偶尔会出现较长 的停顿时间,无法及时反馈问题,通常需要人工干预,从而影响实际体验。不过, 在面对打车、导航等简单任务时,AutoGLM 能够迅速完成任务,表现出色。

3 AutoGLM-Web 插件:与用户持续交互反馈,全自 动上网新体验

“无人驾驶”全自动上网新体验。根据官方浏览器插件新手指南,智谱清言插件 依托 Agent 智能体强大的任务规划和屏幕界面信息理解能力,使得操作执行不再 局限于简单的任务场景和 API 调用。用户无需手动搭建复杂繁琐的 workflow,仅通过自然语言指令即可快速完成复杂任务。在真实使用过程中,Agent 具备一定的 判断和自我纠错能力,能够持续与用户进行交互反馈。同时,它还可以调用多种 工具,根据用户需求精准完成操作。升级后,AutoGLM-Web 插件分为两个模式: 1. 通用模式:通用对话、页面总结、页面对话、划线工具、智能写作、网页翻 译等; 2. 高级模式:AutoGLM、站内高级检索、多链接总结、Github Issue 问答。 本章节,我们将对 AutoGLM-Web 插件目前主要能力范围进行测评。

3.1 社交媒体类测评(知乎、微博、豆瓣、贴吧)

一、知乎

在知乎网站内,我们进行了多项测试,包括内容筛选、热榜总结、撰写回复、个 人信息修改等。根据测试结果看,AutoGLM-Web 对于信息筛选,以及操作已经 展示在页面中的关键词成功几率更大,但与网站本身的适配工作还有待完善。 1. 内容筛选(成功):用户发布任务“帮我检索一下三个月内发布的关于智谱的 赞最多的文章”。AutoGLM-Web 成功理解关键词“智谱”、“文章”、“最多赞 同”、“三个月内”并执行。在找到相关文章后,为用户进行了内容总结。

2. 热榜总结(成功):用户发布任务“总结一下今日热榜”。AutoGLM-Web 成功 根据关键词“热榜”找到知乎首页热榜,并为用户进行了内容总结。

3. 撰写回复(失败):用户发布任务“为热榜第一条撰写回复”。AutoGLM-Web 在尝试点击热榜第一条时,误触页面上方的辟谣专区,从而页面进入辟谣专 区,导致后续一系列操作出现错误,任务失败。这一问题可能与知乎版面发 生变化有关,与开发插件时的适配页面不一致。

4. 个人信息修改(失败):用户发布任务“编辑个人资料,填写个人简介”。在 实际操作中,尽管 AutoGLM-Web 显示信息已更新成功,但未能进入个人主 页,也未能修改个人信息页面。整个页面实际没有任何操作,任务失败。根 据下图右侧的操作步骤,AutoGLM 试图在界面中根据关键词“个人信息”寻 找点击入口,但未果,因此导致任务失败。

二、微博

在微博网站内,我们进行了多项测试,包括发微博、点赞回复、超话发帖/签到、 置顶微博等。根据测试结果看,AutoGLM-Web 在微博内对任务关键词理解较好, 但依旧有提升空间。

1. 发微博(成功):用户发布任务“发一条‘AutoGLM 真好用!’的微博”。 AutoGLM-Web 成功根据关键词“发一条”发布微博,任务成功。

2. 点赞回复(成功):用户发布任务“给新浪热点最新发布的微博点赞,并写评 论”。AutoGLM-Web 成功根据关键词“最新发布”和“写评论”完成任务。 写评论时,AutoGLM-Web 自动生成符合最新发布微博内容的评论。

3. 超话发帖(成功)/签到(失败):用户在超话界面分别发布任务“在浙江大 学超话签到、并发布帖子 1/67656”和“在浙江大学超话签到”。AutoGLMWeb 首先成功根据关键词“超话”和“浙江大学”找到相关超话,并发布帖 子。然而,在签到时,AutoGLM-Web 无法识别关键词“浙江大学”,进入了 错误超话,任务失败。

4. 置顶微博(成功):用户发布任务“置顶我最近发的一条微博”。AutoGLM-Web 成功根据关键词“置顶”和“最近发的一条微博”完成任务。

三、豆瓣

在豆瓣网站内,我们进行了多项测试,包括撰写评论、提取/总结信息、分享电影、 加入小组、创建豆列,收藏电影等。根据测试结果看,AutoGLM-Web 大部分情 况下可以理解任务关键词并成功执行任务,但涉及跳转至其他网站执行长任务时, 成功率较低。

1. 撰写评论(成功):用户发布任务“帮我去给神奇动物邓布利多之谜打一星再 写个差评”。AutoGLM-Web 成功根据关键词“神奇动物邓布利多之谜”、“打 一星”和“写个差评”完成任务。值得注意的是,如果在要求 AutoGLM-Web 打差评时不注明差评的星数,AutoGLM-Web 则会默认打五星好评,表明 AutoGLM-Web 对于差评和星数之间的关系缺乏理解。

2. 提取/总结信息(成功):用户发布任务“总结神奇动物邓布利多电影的相关信 息”。AutoGLM-Web 成功根据关键词“总结”和“神奇动物邓布利多电影”在 相关电影下进行总结。局限之处在于,AutoGLM-Web 不能对停留的特定页面 做总结,所有操作都会回到网站首页后进行搜索操作后再进行。

3. 分享电影(失败):用户发布任务“分享电影哈利波特与魔法石到新浪微博”。 AutoGLM-Web 根据关键词“分享到”执行相关操作,但并未出现确认分享网 站的弹窗,或表明 AutoGLM-Web 没有进行相关适配。

4. 加入小组(成功):用户发布任务“加入哈利波特小组”。AutoGLM-Web 成功 根据关键词“哈利波特”和“小组”完成任务,代理用户加入哈利波特迷小组。

5. 创建豆列,收藏电影(成功):用户发布任务“创建一个名为‘令人动容的电 影’的豆列并将电影《千与千寻》加入其中”。AutoGLM-Web 成功根据关键词 “创建豆列”、“令人动容的”和“千与千寻”成功完成任务。

四、贴吧

在贴吧网站内,我们进行了多项测试,包括总结/提取、关注/签到、撰写回复等。 根据测试结果看,AutoGLM-Web 大部分情况下可以理解任务关键词并成功执行 任务,但在内容生成上以及页面操作时,成功率不高。

1. 总结/提取(成功):用户发布任务“分析一下剑网三吧内容”。AutoGLM-Web 成功根据关键词“分析”和“剑网三吧”成功完成任务。

2. 关注(成功)/签到(失败):用户发布任务“关注剑网三吧并签到”。AutoGLMWeb 成功根据关键词“关注”和完成关注任务,但无法识别签到按钮,导致签 到任务失败。

3. 撰写回复(可执行但内容不明):用户发布任务“在剑网三吧内最新发布的帖 子下根据内容回复”。AutoGLM-Web 成功根据任务所有关键词并完成任务。 但发布内容未经用户点击确认即发布,且生成内容意义不明,从实操上看存 在较大问题。

3.2 搜索引擎类测评(谷歌、百度、必应)

我们对 AutoGLM-Web 分别在谷歌、百度、必应搜索引擎上进行了测评,均顺利 完成任务。在三个搜索引擎内,用户分别发布相同任务“查找 2023 年美国公开赛 网球冠军得主”,AutoGLM-Web 均根据搜索结果总结答案,顺利完成任务。

我们认为,搜索引擎自身界面操作规范化,步骤较少,有利于 AutoGLM-Web 顺 利执行任务。三个搜索引擎流程执行流程完全一致,AutoGLM-Web 可以精准在 输入框中搜索需要的信息,并选择对应结果和总结信息。

3.3 学术类测评(Arxiv、谷歌学术、百度学术)

一、Arxiv

在谷歌学术网站内,我们进行了多项测试,包括检索、查看文献 pdf、获取论文引 用等。根据测试结果看,AutoGLM-Web 在 Arxiv 中任务均顺利完成。 1. 检索(成功):用户发布任务“获取‘Understanding Open Source Contributor Profiles in Popular Machine Learning Libraries’论文的摘要”。AutoGLM-Web 成 功理解任务并顺利执行。

2. 查看文献 pdf(成功):用户发布任务查看取‘Understanding Open Source Contributor Profiles in Popular Machine Learning Libraries’论文的 pdf”。 AutoGLM-Web 成功理解任务并顺利执行。

3. 获取论文引用(成功):用户发布任务“获取‘LSEAttention is All You Need for Time Series Forecasting’论文的 BibTex 引用”。AutoGLM-Web 成功理解任务 并顺利执行。

二、谷歌学术

在谷歌学术网站内,我们进行了多项测试,包括搜索总结、按年份检索文献、获 取引文格式等。根据测试结果看,AutoGLM-Web 对任务关键词提取能力强,但 进行条件筛选时,能力不足。 1. 搜索总结(成功):用户发布任务“浏览 Pierre Baldi 的学术主页并提取他的 主要研究方向”。AutoGLM-Web 成功根据关键词执行并完成任务。

2. 按年份检索文献(失败):用户发布任务“查看 2023 年‘chemical synthesis’ 相关的文献”。AutoGLM-Web 在筛选条件时,没有选择年份,还是选择了相 关性(sort by relevance),导致任务失败。

3. 获取引文格式(成功):用户发布任务“获取论文‘The lottery ticket hypothesis: Finding sparse, trainable neural networks’的 APA 引文格式”。AutoGLM-Web 成功根据关键词执行并完成任务。

三、百度学术

在百度学术网站内,我们进行了多项测试,包括高级检索功能、普通检索、收藏 文献、获取引用等。根据测试结果看,AutoGLM-Web 对任务关键词理解有待加 强。同时 AutoGLM-Web 与网站的适配工作还不够完善,导致执行过程容易失误。

1. 高级检索功能(执行失误):用户发布任务“使用高级检索查找 2014 年至 2018 年间发表于北大核心上的军事法相关论文”。AutoGLM-Web 根据关键词能够 在准确的位置输入年份和选择北大核心刊物,但是最后却没有停留在检索结 果的页面,而是点击进入了检索结果下的第一篇论文,和指令要求产生了偏 差,执行上失误。

2. 普通检索(成功但流程出现问题):用户发布任务“查找 2022 年有关全球气 候变化的文献,列出三篇论文题目”。AutoGLM-Web 在搜索框内输入“2022 年全球气候变化文献”,多出“文献”2 字,表明 AutoGLM-Web 对指令理解 能力不够。

3. 收藏文献(成功):用户发布任务“收藏 2 篇 2022 年以来机器学习在金融风 控中应用的文献”。AutoGLM-Web 成功提取关键词并执行任务。

4. 获取引用(成功):用户发布任务“获取论文‘数字员工的发展进程及在商业 银行的应用研究’的 APA 引文格式”。AutoGLM-Web 成功提取关键词并执行 了任务。然而,值得注意的是,在此次操作中,AutoGLM-Web 并未像在谷歌 学术测评时那样,在右侧交互框中输出 APA 格式的引用信息。这表明 AutoGLM 可能尚未适配百度学术中 APA 引用信息的位置。

3.4 代码托管类测评(GitHub)

我们对 AutoGLM-Web 在 GitHub 上的能力进行了测评。根据测试结果看, AutoGLM-Web 可以做到创建仓库的操作,但要求协作者和搜索下载环节均出现 了错误。AutoGLM-Web 与 GitHub 的适配工作或还不够完善。 1. 搜索并下载项目(失败):用户发布任务“下载一下 GLM-4 仓库”。AutoGLMWeb 没有找到正确的项目,可能与 GitHub 页面布局变化有关。

2. 简易文件管理(部分成功):用户发布任务“帮我创建名为‘Auto’的仓库, 并且邀请 AlbertEinstein-git 加入协作”。AutoGLM-Web 成功为用户创建了名为 “Auto”的仓库,且进入了邀请协作者的界面,但并未成功邀请。

3.5 资讯类测评(网易)

我们对 AutoGLM-Web 在网易上的能力进行了测评。根据测试结果,AutoGLMWeb 在网易新闻主站(news.163.com)的表现十分出色,能够顺利完成搜索和总 结信息的指令。然而,在测试过程中发现,AutoGLM-Web 目前尚未适配网易新 闻旗下的财经新闻(money.163.com)、科技新闻(tech.163.com)等子板块。

3.6 AutoGLM-Web 插件测评总结:简单任务表现出色,未来提升空间 大

任务理解与网站适配仍有较大提升空间。我们认为 AutoGLM-Web 整体上还有较 大的提升空间。首先,其任务理解能力需要进一步加强。其次,测试过程中有时 会出现任务理解正确但无法执行的情况,这可能表明 AutoGLM-Web 与某些网站 的适配还不够完善。此外,网站交互通常包括内容总结、撰写评论等生成式任务, 但在测评过程中,我们发现 AutoGLM-Web 有时会生成与任务不符的内容,这反 映出其在任务理解或 agent 模式下的生成能力还有所欠缺。不过,在执行一些简 单任务,如浏览器搜索等时,AutoGLM-Web 表现出色,基本能够顺利完成任务。

4 测评总结与 Agent 展望:持续强化基座模型,多路 径探索和实践 AI Agent

智谱基座模型竞争力实力强,基准测试表现比肩第一梯队模型。智谱基座模型在 当前的大模型领域表现出了一定的竞争力。根据智谱官方,其 2024 年 8 月发布的 GLM-4-Plus 基座模型在多个任务场景中表现较好。GLM-4-Plus 通过多种方式构 造出了海量高质量数据,并利用 PPO 等多项技术,有效提升了模型推理、指令 遵循等方面的表现,并能够更好地反映人类偏好。模型各项指标上,比肩 GPT4o、Llama3.1 等第一梯队模型。

在模糊语义理解方面,AutoGLM 仍有一定的提升空间。此次智谱 AutoGLM 测评 中,在处理一些含糊或不明确的指令时,模型有时会出现理解偏差或执行错误。 例如,在处理用户指令中的模糊描述时,如时间概念的“上午十点左右”或定性 描述的“最新的款式”,模型的理解和执行能力有待进一步加强。根据下图 SuperCLUEAgent 总榜(2024 年 10-12 月),智谱 GLM-4-9B-Chat 的 agent 能力排 名第三。

APP、网站持续完善适配功能,多路径探索和实践 AI Agent。我们认为,在面对 众多 App 和网站的适配问题时,除了持续完善适配功能以外,未来可行的产业路 径可能包括以下几个方面:

模块化适配框架:开发一个模块化的适配框架,能够根据不同 App 和网站的 通用功能模块(如搜索、导航、购物车等)进行适配。例如,对于出行类 App, 可以开发一套通用的导航、打车、购票等功能模块的适配方案;对于电商平台,可以识别出商品搜索、筛选、加入购物车、结算等通用功能模块,通过 配置文件或参数化的方式,快速适配不同的电商平台。通过识别和适配这些 通用模块,AI Agent 可以在一定程度上实现对多种 App 和网站的快速适配, 而无需对每个应用进行单独的适配开发。

自动化适配工具:利用机器学习和自动化测试技术,开发自动化适配工具。 该工具可以通过学习大量 App 和网站的交互逻辑和界面布局,自动识别和适 配新的应用。这样可以大幅提高适配效率,降低人工适配的成本和时间。

开放平台与合作生态:建立一个开放平台,与开发者合作,共同开发适配插 件或 API 接口。开发者可以根据自己的应用特点,提供适配所需的接口和数 据支持,从而实现快速适配。这样可以利用开发者的专业知识和技术力量, 提高适配的效率和质量。同时,也可以通过合作获取更多的适配数据和反馈, 进一步优化 AI Agent 的适配能力。

用户自定义适配:提供用户自定义适配功能,允许用户根据自己的需求和习 惯,对 AI Agent 的适配行为进行定制。例如,用户可以设置特定的关键词、 操作流程和交互方式等,使 AI Agent 更好地适应自己常用的 App 和网站。这 样可以提高用户的使用体验,同时也为 AI Agent 的适配提供了更多的灵活 性和可能性。 通过以上几种产业路径的探索和实践,AI Agent 可以在 App 和网站适配方面取 得更大的突破,更好地满足用户的需求,推动人机交互方式的创新和发展。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告