如果一個 Agent 只能用固定的功能,那它還是 Agent 嗎?
在去年 AutoGLM 的發布會上,智譜 CEO 張鵬用 AutoGLM 演示了一次自動化操作:面對面建群、修改群名、在群里發出一百個紅包,總額兩萬元。觀眾驚嘆,這是一個能“操控手機”的 AI。然而,只要把演示舞臺換成真實世界,問題立刻浮現——不同用戶的微信版本不一樣,UI 布局有差異,有人用折疊屏,有人用小屏手機,甚至連廣告彈窗都可能打斷任務。對大模型來說,這些不確定性,都是無法完全掌握的變量。
智譜選擇的答案并不是繼續提高模型的“認知力”,而是另辟蹊徑:直接繞開現實世界的不確定性,造一個“標準化”的世界。AutoGLM 2.0 的核心不是算法突破,而是一臺云手機——尺寸統一、軟件版本統一、功能范圍統一。在這個虛擬世界里,Agent 的操作才能被保證。
換句話說,AutoGLM 2.0 體現出的思路,不是在馴服手機,而是在用一種自己建立一個環境來馴服混亂的現實。
這個思路誕生的產品,究竟怎么樣呢?
AutoGLM 的“標準化”的世界
AutoGLM 有兩個云端設備,一臺智能體手機一臺智能體電腦。手機主要擔任生活助手的功能,負責出行點餐,而電腦承擔著辦公研究的功能。
我們分別看一下兩兩臺設備,智譜為了讓 Agent 運行,定制的世界保留了哪些功能,又犧牲了哪些。
AutoGLM 云手機
手機端除去系統自帶的相機、時鐘等 APP,額外一共有 30 款 APP,基本可以覆蓋生活和娛樂。
社交資訊:微博、小紅書、今日頭條
長短視頻:紅果、抖音、快手、B 站、愛奇藝、騰訊視頻、芒果 TV
音樂廣播:QQ 音樂、汽水音樂、喜馬拉雅
小說閱讀:番茄小說
消費購物:同花順、淘寶、京東、拼多多
本地生活:美團、餓了么、大眾點評、支付寶、KFC、Keep
出行與旅行:滴滴打車、攜程、去哪兒、高德
租房:貝殼找房
想用瀏覽器下載新的軟件?很遺憾,智譜也把這條路堵死了。我嘗試安裝盒馬和知乎,系統直接禁止,提示軟件包無效,甚至把知乎的官方下載網頁給 404 了。
隨后再來看一下配置,云手機是一臺基于安卓 14設備,型號是 SM-F900F,從搜索信息來看,這臺設備居然是三星 第一代折疊手機 Galaxy Fold?(紅米不香嗎?)如果云手機使用的是完整設備,而不僅僅是使用 Fold 的系統,那么配置是就是驍龍 855 處理器,12GB RAM + 512GB 存儲。
AutoGLM 云電腦
AutoGLM 云電腦是一款基于 Ubuntu 系統的設備,從軟件生態上來看,除了瀏覽器外,云電腦只安裝了 Libre 辦公軟件,也許 AutoGLM 所謂的辦公就是 Word、Excel、PPT 三件套吧。同樣,AutoGLM 云電腦把 Ubuntu Softstore 刪除,禁止用戶下載新軟件。
AutoGLM 實測:廣告與登錄成最大障礙
看完對 AutoGLM 云手機和云電腦的大致了解,我們也清楚了 AutoGLM 的能力邊界,接下就是測試 AutoGLM 在限定的環境中,表現如何。
云手機任務——淘寶購物:
prompts:幫我清空淘寶購物車再購買官方店鋪的 iphone16 pro 1t 版本
在淘寶購物測試中,AutoGLM 展現了較為完整的流程:從網頁搜索、需求澄清到應用操作。問題出現在賬號登錄環節——如今國內的應用幾乎都要求登錄才能使用。AutoGLM 會在檢測到登錄需求時提示用戶“接管”,由人手動輸入賬號密碼,再退出接管繼續任務。
然而,問題在于,國內 APP 對于賬號“安全意識”極高,很多應用的安全驗證遠比輸入賬號復雜。比如登錄小紅書時提示我需要用舊設備掃碼才能登錄,而我的舊設備正在使用 AutoGLM;登錄抖音時候需要我掃臉進行身份驗證,但 AutoGLM 一直顯示加載(攝像頭)資源,好不容易加載完成,鏡頭中的我也十分“扭曲”導致識別錯誤登錄失敗。
小紅書登錄失敗也直接導致了一些聯動功能不能用,比如在去年 AutoGLM 版本中,可以實現在小紅書搜紅燒肉做法及食材,然后在小象超市購買。
當然這個鍋不能由 AutoGLM 來背,國內手機應用生態可能真的不適合 AutoGLM 發展。更糟糕的是 AutoGLM 不會記住用戶的賬號密碼,這個很安全,但每次使用需要登錄的 APP 過程也非常煎熬。
此外,我在使用抖音人臉識別登錄時發現,當 AutoGLM 調用攝像頭資源后,你在 AutoGLM 云手機中退出抖音(清理后臺),并不會結束 AutoGLM 對攝像頭的調用,除非你把 AutoGLM 關閉。
回到任務,除去登錄等問題 AutoGLM 可以輕松完成清空購物車等任務。在執行刪除、購買等關鍵動作時候,AutoGLM 會提醒用戶是否要繼續。
云手機任務——購買機票:
prompts:上去哪兒網買一張后天11點到14點,從上海飛北京的機票,不要波音飛機
該任務并不復雜,但我特意選擇了在 23 點接近凌晨的時間進行測試。任務有幾個關鍵點需要 AI 識別,分別是“后天”“11 點到 14 點”“上海飛北京”“不要波音”。
嘗試了兩次都失敗了。先看航班,AutoGLM第一次在機票時間上出錯,第二次在日期出錯,但航程起點和終點是正確的并且都沒有選擇波音。
至于出錯的原因,我仔細看了 AutoGLM 的操作邏輯。首先是日期選擇的 bug:進入日歷頁面再退出后,“后天”常常會莫名變成“大后天”。這種問題并不穩定復現,但足夠說明它在基礎交互上還不夠可靠。
時間選擇的問題更明顯。AutoGLM 并不是在真正理解“11 點到 14 點”這個條件,而是機械地依賴去哪兒網的預設選項,只有“9–12 點”和“12–15 點”。它會隨便挑一個區間,若剛好有符合的航班,那就是“歪打正著”,一旦沒有,就直接出錯。換句話說,這并不是智能,而是湊巧。
在測試該任務時候,還發現了和會員登錄同樣麻煩的東西——彈出廣告。一旦有廣告彈出,AutoGLM 會愣在那邊,等幾秒后,有良心的廣告會自動消失,AutoGLM 就會繼續執行任務,而遇到那些不會消失的廣告,AutoGLM 就會需要用戶接管,嚴重影響進程流暢性。
云電腦任務——制作PPT 發小紅書
和 AutoGLM 云手機不同,云電腦只能操控瀏覽器,因此,讓其生成 PPT、表格等內容,它都會用智譜 CodeX 編程來完成。從頁面上來看,可以認為 AutoGLM(云電腦)就是一個 Agent 增加了可以控制瀏覽器的功能。
prompts:搜索特斯拉最新發售的Model YL信息,并做成 ppt 發布到小紅書
在執行時,AutoGLM 會先通過瀏覽器搜索,打開汽車之家等頁面收集信息,再整理成 Markdown 文檔,最終生成 PPT,供用戶下載。這一步其實并不特別,kimi、元寶、豆包等工具也都能做到。
AutoGLM 最大的特點是調用瀏覽器,也就是任務的最后一步“發布到小紅書”。遺憾的是 AutoGLM 失敗了,它成功打開了小紅書發布網頁,但卡在“上傳”頁面。原因可能是 AutoGLM 沒有完成把 PPT 轉換成圖片的這一它已經規劃好的任務。
為了驗證 AutoGLM 操控瀏覽器的能力,我選擇的官方建議的 DEMO 嘗試了一遍。
幫我生成一個視頻,一個小狗半夜偷偷地去蹦床上跳,監控視角。然后把這個視頻發到小紅書上,和大家分享
結果依然一樣,內容生成沒問題,但到了上傳頁面,AutoGLM 只能提示“請手動上傳”。我接管電腦后發現,更尷尬的是:云電腦貌似保存生成的視頻文件,只能找到前幾個任務遺留的 PPT 和 .py 文件。
其實從 AutoGLM 的介紹頁面也能看出,其主要功能就是 AI PPT、AI 視頻、AI 播客、AI 研報、AI 編程等功能,單獨配置個云電腦有必要嗎?
回到文章開頭的問題:如果一個 Agent 只能用固定的功能,那它還是 Agent 嗎?答案或許并不重要。AutoGLM 已經用“標準化”的云手機和云電腦,證明了智能體依然可以存在,只是它不再是那個能適配一切的萬能助手,而是一個在邊界內精細運轉的機器。
但現實世界的混亂始終在那里,即便解決了不同版本的應用和尺寸,還有會有層出不窮的驗證機制、永遠跳不完的廣告彈窗。
智譜解決了一部分難題,但依然還有一些沒解決。