智谱AutoGLM-Web插件能力测评分析

最佳答案 匿名用户编辑于2025/02/26 15:36

与用户持续交互反馈,全自 动上网新体验。

1.社交媒体类测评(知乎、微博、豆瓣、贴吧)

一、知乎

在知乎网站内,我们进行了多项测试,包括内容筛选、热榜总结、撰写回复、个 人信息修改等。根据测试结果看,AutoGLM-Web 对于信息筛选,以及操作已经 展示在页面中的关键词成功几率更大,但与网站本身的适配工作还有待完善。 1. 内容筛选(成功):用户发布任务“帮我检索一下三个月内发布的关于智谱的 赞最多的文章”。AutoGLM-Web 成功理解关键词“智谱”、“文章”、“最多赞 同”、“三个月内”并执行。在找到相关文章后,为用户进行了内容总结。

2. 热榜总结(成功):用户发布任务“总结一下今日热榜”。AutoGLM-Web 成功 根据关键词“热榜”找到知乎首页热榜,并为用户进行了内容总结。

3. 撰写回复(失败):用户发布任务“为热榜第一条撰写回复”。AutoGLM-Web 在尝试点击热榜第一条时,误触页面上方的辟谣专区,从而页面进入辟谣专 区,导致后续一系列操作出现错误,任务失败。这一问题可能与知乎版面发 生变化有关,与开发插件时的适配页面不一致。

4. 个人信息修改(失败):用户发布任务“编辑个人资料,填写个人简介”。在 实际操作中,尽管 AutoGLM-Web 显示信息已更新成功,但未能进入个人主 页,也未能修改个人信息页面。整个页面实际没有任何操作,任务失败。根 据下图右侧的操作步骤,AutoGLM 试图在界面中根据关键词“个人信息”寻 找点击入口,但未果,因此导致任务失败。

二、微博

在微博网站内,我们进行了多项测试,包括发微博、点赞回复、超话发帖/签到、 置顶微博等。根据测试结果看,AutoGLM-Web 在微博内对任务关键词理解较好, 但依旧有提升空间。

1. 发微博(成功):用户发布任务“发一条‘AutoGLM 真好用!’的微博”。 AutoGLM-Web 成功根据关键词“发一条”发布微博,任务成功。

2. 点赞回复(成功):用户发布任务“给新浪热点最新发布的微博点赞,并写评 论”。AutoGLM-Web 成功根据关键词“最新发布”和“写评论”完成任务。 写评论时,AutoGLM-Web 自动生成符合最新发布微博内容的评论。

3. 超话发帖(成功)/签到(失败):用户在超话界面分别发布任务“在浙江大 学超话签到、并发布帖子 1/67656”和“在浙江大学超话签到”。AutoGLMWeb 首先成功根据关键词“超话”和“浙江大学”找到相关超话,并发布帖 子。然而,在签到时,AutoGLM-Web 无法识别关键词“浙江大学”,进入了 错误超话,任务失败。

4. 置顶微博(成功):用户发布任务“置顶我最近发的一条微博”。AutoGLM-Web 成功根据关键词“置顶”和“最近发的一条微博”完成任务。

三、豆瓣

在豆瓣网站内,我们进行了多项测试,包括撰写评论、提取/总结信息、分享电影、 加入小组、创建豆列,收藏电影等。根据测试结果看,AutoGLM-Web 大部分情 况下可以理解任务关键词并成功执行任务,但涉及跳转至其他网站执行长任务时, 成功率较低。

1. 撰写评论(成功):用户发布任务“帮我去给神奇动物邓布利多之谜打一星再 写个差评”。AutoGLM-Web 成功根据关键词“神奇动物邓布利多之谜”、“打 一星”和“写个差评”完成任务。值得注意的是,如果在要求 AutoGLM-Web 打差评时不注明差评的星数,AutoGLM-Web 则会默认打五星好评,表明 AutoGLM-Web 对于差评和星数之间的关系缺乏理解。

2. 提取/总结信息(成功):用户发布任务“总结神奇动物邓布利多电影的相关信 息”。AutoGLM-Web 成功根据关键词“总结”和“神奇动物邓布利多电影”在 相关电影下进行总结。局限之处在于,AutoGLM-Web 不能对停留的特定页面 做总结,所有操作都会回到网站首页后进行搜索操作后再进行。

3. 分享电影(失败):用户发布任务“分享电影哈利波特与魔法石到新浪微博”。 AutoGLM-Web 根据关键词“分享到”执行相关操作,但并未出现确认分享网 站的弹窗,或表明 AutoGLM-Web 没有进行相关适配。

4. 加入小组(成功):用户发布任务“加入哈利波特小组”。AutoGLM-Web 成功 根据关键词“哈利波特”和“小组”完成任务,代理用户加入哈利波特迷小组。

5. 创建豆列,收藏电影(成功):用户发布任务“创建一个名为‘令人动容的电 影’的豆列并将电影《千与千寻》加入其中”。AutoGLM-Web 成功根据关键词 “创建豆列”、“令人动容的”和“千与千寻”成功完成任务。

四、贴吧

在贴吧网站内,我们进行了多项测试,包括总结/提取、关注/签到、撰写回复等。 根据测试结果看,AutoGLM-Web 大部分情况下可以理解任务关键词并成功执行 任务,但在内容生成上以及页面操作时,成功率不高。

1. 总结/提取(成功):用户发布任务“分析一下剑网三吧内容”。AutoGLM-Web 成功根据关键词“分析”和“剑网三吧”成功完成任务。

2. 关注(成功)/签到(失败):用户发布任务“关注剑网三吧并签到”。AutoGLMWeb 成功根据关键词“关注”和完成关注任务,但无法识别签到按钮,导致签 到任务失败。

3. 撰写回复(可执行但内容不明):用户发布任务“在剑网三吧内最新发布的帖 子下根据内容回复”。AutoGLM-Web 成功根据任务所有关键词并完成任务。 但发布内容未经用户点击确认即发布,且生成内容意义不明,从实操上看存 在较大问题。

2. 搜索引擎类测评(谷歌、百度、必应)

我们对 AutoGLM-Web 分别在谷歌、百度、必应搜索引擎上进行了测评,均顺利 完成任务。在三个搜索引擎内,用户分别发布相同任务“查找 2023 年美国公开赛 网球冠军得主”,AutoGLM-Web 均根据搜索结果总结答案,顺利完成任务。

我们认为,搜索引擎自身界面操作规范化,步骤较少,有利于 AutoGLM-Web 顺 利执行任务。三个搜索引擎流程执行流程完全一致,AutoGLM-Web 可以精准在 输入框中搜索需要的信息,并选择对应结果和总结信息。

3. 学术类测评(Arxiv、谷歌学术、百度学术)

一、Arxiv

在谷歌学术网站内,我们进行了多项测试,包括检索、查看文献 pdf、获取论文引 用等。根据测试结果看,AutoGLM-Web 在 Arxiv 中任务均顺利完成。 1. 检索(成功):用户发布任务“获取‘Understanding Open Source Contributor Profiles in Popular Machine Learning Libraries’论文的摘要”。AutoGLM-Web 成 功理解任务并顺利执行。

2. 查看文献 pdf(成功):用户发布任务查看取‘Understanding Open Source Contributor Profiles in Popular Machine Learning Libraries’论文的 pdf”。 AutoGLM-Web 成功理解任务并顺利执行。

3. 获取论文引用(成功):用户发布任务“获取‘LSEAttention is All You Need for Time Series Forecasting’论文的 BibTex 引用”。AutoGLM-Web 成功理解任务 并顺利执行。

二、谷歌学术

在谷歌学术网站内,我们进行了多项测试,包括搜索总结、按年份检索文献、获 取引文格式等。根据测试结果看,AutoGLM-Web 对任务关键词提取能力强,但 进行条件筛选时,能力不足。 1. 搜索总结(成功):用户发布任务“浏览 Pierre Baldi 的学术主页并提取他的 主要研究方向”。AutoGLM-Web 成功根据关键词执行并完成任务。

2. 按年份检索文献(失败):用户发布任务“查看 2023 年‘chemical synthesis’ 相关的文献”。AutoGLM-Web 在筛选条件时,没有选择年份,还是选择了相 关性(sort by relevance),导致任务失败。

3. 获取引文格式(成功):用户发布任务“获取论文‘The lottery ticket hypothesis: Finding sparse, trainable neural networks’的 APA 引文格式”。AutoGLM-Web 成功根据关键词执行并完成任务。

三、百度学术

在百度学术网站内,我们进行了多项测试,包括高级检索功能、普通检索、收藏 文献、获取引用等。根据测试结果看,AutoGLM-Web 对任务关键词理解有待加 强。同时 AutoGLM-Web 与网站的适配工作还不够完善,导致执行过程容易失误。

1. 高级检索功能(执行失误):用户发布任务“使用高级检索查找 2014 年至 2018 年间发表于北大核心上的军事法相关论文”。AutoGLM-Web 根据关键词能够 在准确的位置输入年份和选择北大核心刊物,但是最后却没有停留在检索结 果的页面,而是点击进入了检索结果下的第一篇论文,和指令要求产生了偏 差,执行上失误。

2. 普通检索(成功但流程出现问题):用户发布任务“查找 2022 年有关全球气 候变化的文献,列出三篇论文题目”。AutoGLM-Web 在搜索框内输入“2022 年全球气候变化文献”,多出“文献”2 字,表明 AutoGLM-Web 对指令理解 能力不够。

3. 收藏文献(成功):用户发布任务“收藏 2 篇 2022 年以来机器学习在金融风 控中应用的文献”。AutoGLM-Web 成功提取关键词并执行任务。

4. 获取引用(成功):用户发布任务“获取论文‘数字员工的发展进程及在商业 银行的应用研究’的 APA 引文格式”。AutoGLM-Web 成功提取关键词并执行 了任务。然而,值得注意的是,在此次操作中,AutoGLM-Web 并未像在谷歌 学术测评时那样,在右侧交互框中输出 APA 格式的引用信息。这表明 AutoGLM 可能尚未适配百度学术中 APA 引用信息的位置。

4.代码托管类测评(GitHub)

我们对 AutoGLM-Web 在 GitHub 上的能力进行了测评。根据测试结果看, AutoGLM-Web 可以做到创建仓库的操作,但要求协作者和搜索下载环节均出现 了错误。AutoGLM-Web 与 GitHub 的适配工作或还不够完善。 1. 搜索并下载项目(失败):用户发布任务“下载一下 GLM-4 仓库”。AutoGLMWeb 没有找到正确的项目,可能与 GitHub 页面布局变化有关。

2. 简易文件管理(部分成功):用户发布任务“帮我创建名为‘Auto’的仓库, 并且邀请 AlbertEinstein-git 加入协作”。AutoGLM-Web 成功为用户创建了名为 “Auto”的仓库,且进入了邀请协作者的界面,但并未成功邀请。