智谱AutoGLM-Web插件能力测评分析 - 问答集锦

最佳答案由匿名用户编辑于2025/02/26 15:36

与用户持续交互反馈，全自动上网新体验。

1.社交媒体类测评（知乎、微博、豆瓣、贴吧）

一、知乎

在知乎网站内，我们进行了多项测试，包括内容筛选、热榜总结、撰写回复、个人信息修改等。根据测试结果看，AutoGLM-Web 对于信息筛选，以及操作已经展示在页面中的关键词成功几率更大，但与网站本身的适配工作还有待完善。 1. 内容筛选（成功）：用户发布任务“帮我检索一下三个月内发布的关于智谱的赞最多的文章”。AutoGLM-Web 成功理解关键词“智谱”、“文章”、“最多赞同”、“三个月内”并执行。在找到相关文章后，为用户进行了内容总结。

2. 热榜总结（成功）：用户发布任务“总结一下今日热榜”。AutoGLM-Web 成功根据关键词“热榜”找到知乎首页热榜，并为用户进行了内容总结。

3. 撰写回复（失败）：用户发布任务“为热榜第一条撰写回复”。AutoGLM-Web 在尝试点击热榜第一条时，误触页面上方的辟谣专区，从而页面进入辟谣专区，导致后续一系列操作出现错误，任务失败。这一问题可能与知乎版面发生变化有关，与开发插件时的适配页面不一致。

4. 个人信息修改（失败）：用户发布任务“编辑个人资料，填写个人简介”。在实际操作中，尽管 AutoGLM-Web 显示信息已更新成功，但未能进入个人主页，也未能修改个人信息页面。整个页面实际没有任何操作，任务失败。根据下图右侧的操作步骤，AutoGLM 试图在界面中根据关键词“个人信息”寻找点击入口，但未果，因此导致任务失败。

二、微博

在微博网站内，我们进行了多项测试，包括发微博、点赞回复、超话发帖/签到、置顶微博等。根据测试结果看，AutoGLM-Web 在微博内对任务关键词理解较好，但依旧有提升空间。

1. 发微博（成功）：用户发布任务“发一条‘AutoGLM 真好用！’的微博”。 AutoGLM-Web 成功根据关键词“发一条”发布微博，任务成功。

2. 点赞回复（成功）：用户发布任务“给新浪热点最新发布的微博点赞，并写评论”。AutoGLM-Web 成功根据关键词“最新发布”和“写评论”完成任务。写评论时，AutoGLM-Web 自动生成符合最新发布微博内容的评论。

3. 超话发帖（成功）/签到（失败）：用户在超话界面分别发布任务“在浙江大学超话签到、并发布帖子 1/67656”和“在浙江大学超话签到”。AutoGLMWeb 首先成功根据关键词“超话”和“浙江大学”找到相关超话，并发布帖子。然而，在签到时，AutoGLM-Web 无法识别关键词“浙江大学”，进入了错误超话，任务失败。

4. 置顶微博（成功）：用户发布任务“置顶我最近发的一条微博”。AutoGLM-Web 成功根据关键词“置顶”和“最近发的一条微博”完成任务。

三、豆瓣

在豆瓣网站内，我们进行了多项测试，包括撰写评论、提取/总结信息、分享电影、加入小组、创建豆列，收藏电影等。根据测试结果看，AutoGLM-Web 大部分情况下可以理解任务关键词并成功执行任务，但涉及跳转至其他网站执行长任务时，成功率较低。

1. 撰写评论（成功）：用户发布任务“帮我去给神奇动物邓布利多之谜打一星再写个差评”。AutoGLM-Web 成功根据关键词“神奇动物邓布利多之谜”、“打一星”和“写个差评”完成任务。值得注意的是，如果在要求 AutoGLM-Web 打差评时不注明差评的星数，AutoGLM-Web 则会默认打五星好评，表明 AutoGLM-Web 对于差评和星数之间的关系缺乏理解。

2. 提取/总结信息（成功）：用户发布任务“总结神奇动物邓布利多电影的相关信息”。AutoGLM-Web 成功根据关键词“总结”和“神奇动物邓布利多电影”在相关电影下进行总结。局限之处在于，AutoGLM-Web 不能对停留的特定页面做总结，所有操作都会回到网站首页后进行搜索操作后再进行。

3. 分享电影（失败）：用户发布任务“分享电影哈利波特与魔法石到新浪微博”。 AutoGLM-Web 根据关键词“分享到”执行相关操作，但并未出现确认分享网站的弹窗，或表明 AutoGLM-Web 没有进行相关适配。

4. 加入小组（成功）：用户发布任务“加入哈利波特小组”。AutoGLM-Web 成功根据关键词“哈利波特”和“小组”完成任务，代理用户加入哈利波特迷小组。

5. 创建豆列，收藏电影（成功）：用户发布任务“创建一个名为‘令人动容的电影’的豆列并将电影《千与千寻》加入其中”。AutoGLM-Web 成功根据关键词 “创建豆列”、“令人动容的”和“千与千寻”成功完成任务。

四、贴吧

在贴吧网站内，我们进行了多项测试，包括总结/提取、关注/签到、撰写回复等。根据测试结果看，AutoGLM-Web 大部分情况下可以理解任务关键词并成功执行任务，但在内容生成上以及页面操作时，成功率不高。

1. 总结/提取（成功）：用户发布任务“分析一下剑网三吧内容”。AutoGLM-Web 成功根据关键词“分析”和“剑网三吧”成功完成任务。

2. 关注（成功）/签到（失败）：用户发布任务“关注剑网三吧并签到”。AutoGLMWeb 成功根据关键词“关注”和完成关注任务，但无法识别签到按钮，导致签到任务失败。

3. 撰写回复（可执行但内容不明）：用户发布任务“在剑网三吧内最新发布的帖子下根据内容回复”。AutoGLM-Web 成功根据任务所有关键词并完成任务。但发布内容未经用户点击确认即发布，且生成内容意义不明，从实操上看存在较大问题。

2. 搜索引擎类测评（谷歌、百度、必应）

我们对 AutoGLM-Web 分别在谷歌、百度、必应搜索引擎上进行了测评，均顺利完成任务。在三个搜索引擎内，用户分别发布相同任务“查找 2023 年美国公开赛网球冠军得主”，AutoGLM-Web 均根据搜索结果总结答案，顺利完成任务。

我们认为，搜索引擎自身界面操作规范化，步骤较少，有利于 AutoGLM-Web 顺利执行任务。三个搜索引擎流程执行流程完全一致，AutoGLM-Web 可以精准在输入框中搜索需要的信息，并选择对应结果和总结信息。

3. 学术类测评（Arxiv、谷歌学术、百度学术）

一、Arxiv

在谷歌学术网站内，我们进行了多项测试，包括检索、查看文献 pdf、获取论文引用等。根据测试结果看，AutoGLM-Web 在 Arxiv 中任务均顺利完成。 1. 检索（成功）：用户发布任务“获取‘Understanding Open Source Contributor Profiles in Popular Machine Learning Libraries’论文的摘要”。AutoGLM-Web 成功理解任务并顺利执行。

2. 查看文献 pdf（成功）：用户发布任务查看取‘Understanding Open Source Contributor Profiles in Popular Machine Learning Libraries’论文的 pdf”。 AutoGLM-Web 成功理解任务并顺利执行。

3. 获取论文引用（成功）：用户发布任务“获取‘LSEAttention is All You Need for Time Series Forecasting’论文的 BibTex 引用”。AutoGLM-Web 成功理解任务并顺利执行。

二、谷歌学术

在谷歌学术网站内，我们进行了多项测试，包括搜索总结、按年份检索文献、获取引文格式等。根据测试结果看，AutoGLM-Web 对任务关键词提取能力强，但进行条件筛选时，能力不足。 1. 搜索总结（成功）：用户发布任务“浏览 Pierre Baldi 的学术主页并提取他的主要研究方向”。AutoGLM-Web 成功根据关键词执行并完成任务。

2. 按年份检索文献（失败）：用户发布任务“查看 2023 年‘chemical synthesis’ 相关的文献”。AutoGLM-Web 在筛选条件时，没有选择年份，还是选择了相关性（sort by relevance），导致任务失败。

3. 获取引文格式（成功）：用户发布任务“获取论文‘The lottery ticket hypothesis: Finding sparse, trainable neural networks’的 APA 引文格式”。AutoGLM-Web 成功根据关键词执行并完成任务。

三、百度学术

在百度学术网站内，我们进行了多项测试，包括高级检索功能、普通检索、收藏文献、获取引用等。根据测试结果看，AutoGLM-Web 对任务关键词理解有待加强。同时 AutoGLM-Web 与网站的适配工作还不够完善，导致执行过程容易失误。

1. 高级检索功能（执行失误）：用户发布任务“使用高级检索查找 2014 年至 2018 年间发表于北大核心上的军事法相关论文”。AutoGLM-Web 根据关键词能够在准确的位置输入年份和选择北大核心刊物，但是最后却没有停留在检索结果的页面，而是点击进入了检索结果下的第一篇论文，和指令要求产生了偏差，执行上失误。

2. 普通检索（成功但流程出现问题）：用户发布任务“查找 2022 年有关全球气候变化的文献，列出三篇论文题目”。AutoGLM-Web 在搜索框内输入“2022 年全球气候变化文献”，多出“文献”2 字，表明 AutoGLM-Web 对指令理解能力不够。

3. 收藏文献（成功）：用户发布任务“收藏 2 篇 2022 年以来机器学习在金融风控中应用的文献”。AutoGLM-Web 成功提取关键词并执行任务。

4. 获取引用（成功）：用户发布任务“获取论文‘数字员工的发展进程及在商业银行的应用研究’的 APA 引文格式”。AutoGLM-Web 成功提取关键词并执行了任务。然而，值得注意的是，在此次操作中，AutoGLM-Web 并未像在谷歌学术测评时那样，在右侧交互框中输出 APA 格式的引用信息。这表明 AutoGLM 可能尚未适配百度学术中 APA 引用信息的位置。

4.代码托管类测评（GitHub）

我们对 AutoGLM-Web 在 GitHub 上的能力进行了测评。根据测试结果看， AutoGLM-Web 可以做到创建仓库的操作，但要求协作者和搜索下载环节均出现了错误。AutoGLM-Web 与 GitHub 的适配工作或还不够完善。 1. 搜索并下载项目（失败）：用户发布任务“下载一下 GLM-4 仓库”。AutoGLMWeb 没有找到正确的项目，可能与 GitHub 页面布局变化有关。

2. 简易文件管理（部分成功）：用户发布任务“帮我创建名为‘Auto’的仓库，并且邀请 AlbertEinstein-git 加入协作”。AutoGLM-Web 成功为用户创建了名为 “Auto”的仓库，且进入了邀请协作者的界面，但并未成功邀请。

参考报告

计算机行业专题报告：智谱AutoGLM，人机交互范式的创新与探索.pdf
- 查看报告