国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

剛剛,龍蝦軍團有了最強「視力」!一眼看圖直接寫代碼

0
分享至



機器之心編輯部

真實世界里,超過 80% 的信息以視覺形態(tài)存在。前端 UI、架構圖、數據看板 …… 開發(fā)者日常面對的絕大部分需求,都是以視覺形態(tài)存在的。但一直以來,國內許多代碼大模型卻在「盲人摸象」,只能依賴純文本描述來猜測頁面布局與結構。

就在本周四,智譜正式發(fā)布了GLM-5V-Turbo—— 專為視覺編程打造的多模態(tài) Coding 基座模型。發(fā)布之后,海外社區(qū)熱度非常高,主貼閱讀量已百萬。



GLM-5V-Turbo 原生融合視覺與文本能力,讓模型不再依賴文本轉譯來「猜測」世界,而是直接看懂設計圖、解析復雜界面并直接生成對應代碼,徹底打通了「從視覺感知到代碼實現」的開發(fā)鏈路。

正如下面這位 X 用戶所總結的,「GLM-5V-Turbo 有意思的地方,并不只是多模態(tài),更在于它提供了一整套能力組合:視覺理解、編程能力、工具調用以及 GUI Agent?,F在大家都在朝同一個方向收斂:模型不再只是回答問題,而是能夠執(zhí)行操作?!?/p>



既然被冠以「Turbo」之名,智譜新模型在推理速度上自然表現出色,同時它也在三大核心方向上完成了全面進化:

首先是多模態(tài) Coding(視覺編程)。在前端看重的 Design2Code 評測中,GLM-5V-Turbo 拿下了 92.6 的高分,超越了 K2.5 的 91.3 分。這意味著,它在將視覺 UI 轉化為代碼的精度上,達到了令人滿意的水平。

其次是多模態(tài)工具調用(Tool Use)。面對真實網頁和物理環(huán)境交互,它的 BrowseComp-VL 成績達到了 48.7,同樣領先 K2.5(42.9),真正具備了「看圖找工具辦事」的能力。

最后是Agent 復雜任務。在最能檢驗智能體綜合規(guī)劃與執(zhí)行力的 ClawEval 權威評測中,GLM-5V-Turbo 的 Pass3 分數直接逼近了目前業(yè)內閉源的天花板 Claude Opus 4.6。





目前,GLM-5V-Turbo 已經開放了 API ,Coding Plan用戶可以申請搶先試用。大家可以通過以下多個渠道訪問該模型。

  • BigModel 開放平臺:https://docs.bigmodel.cn/cn/guide/models/vlm/glm-5v-turbo
  • AutoClaw(澳龍):https://autoglm.zhipuai.cn/autoclaw/
  • Z.ai:https://chat.z.ai

此前,在大模型 API 聚合平臺 OpenRouter 上,GLM 5 Turbo 的調用量已經躋身前五。開發(fā)者使用該模型大多數是用來支持 OpenClaw 的。



而隨著 GLM-5V-Turbo 引入更強的視覺編程能力,其在 OpenClaw 相關任務中的表現同樣亮眼。目前,該模型已被添加到 OpenClaw 內置的模型目錄里。



在獲得模型內測資格后,我們馬上進行了一番測試。

一手實測:多模態(tài)「點石成金術」

這次,GLM-5V-Turbo 將「視覺感知」與「代碼生成」深度融合,「圖像即代碼」是這一模型的最大亮點。為此,我們聚焦于多模態(tài) Coding (視覺編程),循序漸進地測試該模型的實際能力。

首先,我們來考察一下 GLM-5V-Turbo 在截圖寫代碼方面的表現,特別是前端設計還原。

我們發(fā)現 GLM-5V-Turbo 在「圖像即代碼」這方面已經徹底 Next Level 了,移動端的前端代碼復現完全不在話下。我們看下這個案例:



請根據提供的設計草圖復刻移動端界面。 截圖包含:
左側屏幕: 歡迎/引導頁中間屏幕: 首頁右側屏幕: 統(tǒng)計/情緒日歷頁
除此之外,請另外構思并制作剩余的兩個頁面,使產品呈現出完整的 5 頁面移動端應用流程。最終效果應呈現為一個精致、現代的健康/心情追蹤移動應用。



結果非常令人驚喜,交互和排版一應俱全,充滿色彩的 APP 界面讓人眼前一亮。

除去移動端的案例,我們喂給它下面這張SaaS 后臺設計稿,直接讓它「復刻」,看它能否做到高還原度呈現。這背后檢驗的是:模型對整體布局、組件結構、信息層級與視覺細節(jié)的綜合識別和理解能力。

我們直接來看渲染前后的結果(左為原始圖片,右為渲染后圖片),整體上,頁面實現了接近 1:1 的還原:無論是布局結構還是視覺風格,都基本保持一致。



當然,在細節(jié)層面仍存在一些可見差異,包括字體粗細略有出入、標題框 padding 不完全一致,以及人物素材并未嚴格對齊(作為占位圖,這一點影響有限)。但是,這些問題主要集中在精細化設計層面,并未影響整體結構與視覺表達的一致性。

下圖為執(zhí)行過程,包括代碼生成與結果說明。在接收到設計稿后,GLM-5V-Turbo 首先對頁面結構進行了整體識別,判斷它為一個典型的 SaaS 落地頁布局,包含左側工具欄、頂部操作區(qū)、主視覺區(qū)域以及下方的 About Us 卡片模塊。

基于這一結構理解,模型直接生成對應的前端代碼(總共 386 行)。



我們再嘗試聊天類風格的 SaaS 設計圖。不同于前一類偏營銷導向的落地頁設計, 這類界面更側重于信息密度與交互邏輯本身,對模型的布局理解與組件抽象能力提出了更高要求。



GLM-5V-Turbo 能不能 hold 住呢?執(zhí)行過程依然如此,識別與拆解頁面結構,判斷界面類型,并生成對應前端代碼。



這一次,模型在還原界面整體布局的基礎上,進一步呈現了交互能力,使頁面不再停留在靜態(tài)展示層面,而具備了初步的可操作性。

上面兩個案例跑下來,不難發(fā)現,GLM-5V-Turbo 生成的并不是樣子貨,美學、內容、交互樣樣不差。

當前視覺模型的能力邊界正在被迅速拉高:一張圖就足以作為有效的輸入接口,直接觸發(fā)從 UI 解析到工程生成的端到端流程。

我們進一步觀察到,GLM-5V-Turbo 的多模態(tài) Coding 能力并沒有止步于單一圖像場景,而是延伸到了圖文混合理解與生成任務中。

于是我們接著給模型上難度:篇幅 450 多頁的斯坦福大學《2025 年人工智能指數報告》,要求如下:

在通讀全文后提煉核心結論,并進一步將結論內容轉化為精美的多頁 HTML 演示文檔,同時生成結構化大綱 JSON 以及 Markdown 格式的摘要。



  • 完整版地址:https://hai.stanford.edu/ai-index/2025-ai-index-report

在執(zhí)行過程中,面對復合型任務需求,模型完成了多種形態(tài)的交付,包括將內容轉換為可以直接打開瀏覽的 HTML 演示文檔、用于組織內容結構的 JSON 大綱以及一份 Markdown 格式的摘要。



其中,摘要同樣具備較強的結構化表達能力,將原始報告內容進行高度壓縮與重組,以清晰的層級標題與要點式表述呈現核心信息。

而最重要的是 HTML 演示文檔,模型的前端自主設計結果超出我們的預料。排版精美,整體采用了清晰的分節(jié)結構與演示化布局,將原始報告內容按章節(jié)拆解為多頁展示。同時,每一頁都圍繞核心主題進行信息聚合,結合標題、要點列表與關鍵數據,使內容可讀性與演示感更強。

模型對復雜圖文的理解與生成,本質上在于其否能夠將「閱讀 — 理解 — 抽象 — 表達 — 生成」的多步過程打通,完成從 Deep Research 到內容生產的全流程??雌饋?,GLM-5V-Turbo 做到了。

接下來我們更進一步,看看 GLM-5V-Turbo 能不能開局一張圖,網頁全靠寫。我們在互聯網上找到了這樣一張圖并給出了如下提示詞:



基于 demo.png 的示例復刻一個同樣的網頁出來。注意,當用戶瀏覽這個網頁時,光標周圍的一圈范圍是清晰的,其它位置模糊處理。你還需要讓其中每個元素都是可點擊的,將中間的 “heyefi” 改成 “機器之心”,并使用打字機特效展示,并鏈接到機器之心網站 https://www.jiqizhixin.com/ 。網頁上的便利貼點擊后會展開出一個記事本,上面可以記錄簡單筆記。網頁上不同的窗口可以展示 .assets 中的圖片和視頻素材,盡量都用起來。你可以使用文件夾中的 pretext 庫實現一些動態(tài)效果,frontend design skill 可能也有用。



四倍速視頻

GLM-5V-Turbo 很快就完成了任務,雖然因為圖像素材的緣故,該模型無法完美復刻這個設計圖,但得到的初步效果也足夠驚艷了。下面來看看 demo:



接下來我們又繼續(xù)了一輪交互,讓其具備了素材的拖拽和縮放能力:



雖然得到的結果還不能說完美,但相信更多輪的交互還能進一步產生更好的結果 —— 而這正是 AI 時代開發(fā)的真諦:人類負責驗收和掌舵,AI 負責執(zhí)行。

最后,我們來到此次測試的終極挑戰(zhàn):通過網頁鏈接,直接復刻完整的網頁前端

既然要調用瀏覽器,那模型自然離不開「龍蝦」。我們在這里選用了智譜自家 3 月正式推出的本地版 OpenClaw AI 智能體桌面應用 AutoClaw(中文澳龍),無需 API Key,下載后即可運行;支持接入任意模型;完全本地運行,數據保留在本地設備中。



在此環(huán)境下,我們讓模型直接對一個真實網站進行復刻:

一比一復刻這個網站 https://creative-agency-template-20151.webflow.io/,所有文件保存在 test4 文件夾中。

與前文單一頁面的視覺還原不同,這類任務的關鍵是對完整網站結構進行解析與重建。

在接收到任務指令后,模型首先通過 AutoClaw 調起瀏覽器,對目標網站進行訪問與解析,逐頁識別頁面結構與視覺布局。

接著對頁面進行組件級拆解,包括導航欄、內容模塊及頁腳等關鍵部分。

最后通過調用本地文件與代碼生成相關能力,將解析結果轉化為對應的前端代碼,并按頁面結構組織為多個 HTML 及資源文件,統(tǒng)一保存至 test4 文件夾中。



最終呈現結果如下:



模型不僅保持了原網頁的美學設計,幾乎完全復刻了其排版和交互邏輯,又快、又美、又高效

如果說「原生視覺」提升了大模型的基礎能力,那么「龍蝦生態(tài)打通」則讓 GLM-5V-Turbo 準備就緒,可以更快上手施展拳腳。

原生多模態(tài)的技術支柱

據智譜介紹,GLM-5V-Turbo 優(yōu)化了與當前主流 Agent 框架的協同效果。特別是針對 Claude Code 以及 OpenClaw / AutoClaw 生態(tài),開發(fā)團隊進行了深度的協同增強。

在這些框架中,模型的視覺能力與 Claw 的執(zhí)行能力被無縫打通。它能夠在真實的操作系統(tǒng)或網頁環(huán)境中,完成「看懂環(huán)境 → 規(guī)劃動作 → 執(zhí)行任務」的完整閉環(huán)

GLM-5V-Turbo 能夠取得性能領先是其在模型架構、訓練方法、數據構造、工具鏈四個層面協同發(fā)力的結果。

原生多模態(tài)融合架構

大多數多模態(tài)模型的做法是「先訓練語言,再考慮視覺」的工程化方法。

GLM-5V-Turbo 走了另一條路:從預訓練階段就將文本和視覺信號深度融合。團隊自研了新一代 CogViT 視覺編碼器,這套編碼器在幾個關鍵維度上都有顯著提升 —— 通用物體識別、細粒度細節(jié)理解、幾何關系與空間感知。

同時配套設計的 MTP 結構,能夠在接收多模態(tài)輸入的同時保持推理效率不崩塌。這意味著模型不需要為了精準性而犧牲響應速度。

30+ 任務協同強化學習

強化學習在單一任務上表現優(yōu)異,但一旦擴展到多任務場景,各任務之間的梯度沖突往往導致訓練不穩(wěn)定。這是業(yè)界的共性難題。

GLM-5V-Turbo 的解法是:在 RL 階段同步優(yōu)化超過 30 種不同類型的任務,覆蓋 STEM 推理、視覺定位、視頻理解、GUI 交互等廣泛領域。

這種「一鍋燉」式的協同訓練策略,反而帶來了意外收益 —— 模型在不同能力維度上獲得了均衡提升。多任務之間的知識遷移效應,有效平滑了單領域訓練中常見的性能震蕩問題。

Agent 數據工程

Agent 領域長期面臨一個尷尬現實:高質量的多模態(tài)交互數據極度稀缺,且驗證成本極高。智譜的應對思路是分層構建數據體系,核心手段是利用合成環(huán)境進行大規(guī)??煽財祿淖詣由?,每條數據都可以被程序化驗證正確性。

更具前瞻性的是,團隊將 GUI Agent 的過程獎勵模型(PRM)數據直接注入預訓練階段,從源頭抑制幻覺生成。此外還探索了非對稱優(yōu)化策略:用多模態(tài)評估任務作為杠桿,撬動更強的 Agent 泛化能力。

工具鏈邁向多模態(tài)

GLM-5V-Turbo 將工具鏈邊界向外推了一大步:新增支持多模態(tài)搜索、區(qū)域框選標注、屏幕截圖捕獲、網頁內容讀取等視覺交互類工具。

這一擴展的意義在于,它將編程與任務執(zhí)行的完整鏈路從「純文本閉環(huán)」升級為「視覺 - 行動混合閉環(huán)」

伴隨模型的發(fā)布,智譜官方同步推出了配套的官方 Skills(技能庫) 以及預設的「數字分析師」Agents。你可以直接調用這些開箱即用的模塊,迅速將多模態(tài) Agent 部署到自己的業(yè)務流中。

最近,OpenClaw 的持續(xù)爆火正式宣告了 AI 接管電腦、操作手機的新時代到來。但 Agent 框架只是骨架,真正決定它們實力的還是底層的大模型基座。

國內外 AI 廠商們早已嗅到了風向。過去短短幾個月里,全球已經開啟了一場專門針對 Agent 優(yōu)化的「基座軍備競賽」。

不論是 Anthropic 的 Claude 4.6、月之暗面的 Kimi K2.5 還是小米的 MiMo-V2-Pro,廠商們都在長上下文、邏輯推理、代碼等方面有了很大提升。

新入局的智譜 GLM-5V-Turbo,則把目光轉向了提升維度

在它身上,我們看到了當前面向 Agent 的大模型正在經歷一輪明顯的范式轉移:不再一味依賴參數規(guī)模與調用量的堆疊,而是更加注重解決「真實世界問題」的能力。

隨著 API 的開放以及 Agent 生態(tài)的打通,智譜已將「視覺感知 + 動作執(zhí)行」的基礎設施交到了開發(fā)者手中。

當成千上萬「龍蝦」真正擁有視力,究竟會催生出怎樣顛覆性的 AI 應用?我們拭目以待。

文中視頻鏈接:https://mp.weixin.qq.com/s/f3fW_YStN8rWBBl-rK9xig

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“上海已不是上海人的上海!” 清明街頭全是人,熱鬧超過年

“上海已不是上海人的上海!” 清明街頭全是人,熱鬧超過年

趣味萌寵的日常
2026-04-12 12:10:39
突發(fā)!廣州黃埔叫停房票轉讓!炒票黨暴雷!

突發(fā)!廣州黃埔叫停房票轉讓!炒票黨暴雷!

靚仔情感
2026-04-12 17:47:45
4-2!溫瑞博打崩日本世乒賽冠軍,成大贏家

4-2!溫瑞博打崩日本世乒賽冠軍,成大贏家

乒乓樂園
2026-04-13 00:03:51
1:2慘遭蓉城逆轉!賽后國安主帥蒙哥馬利的一句話可謂心有不甘!

1:2慘遭蓉城逆轉!賽后國安主帥蒙哥馬利的一句話可謂心有不甘!

田先生籃球
2026-04-12 23:31:34
湯尤杯前有驚喜有遺憾,羽毛球亞錦賽國羽2冠2亞收官

湯尤杯前有驚喜有遺憾,羽毛球亞錦賽國羽2冠2亞收官

澎湃新聞
2026-04-12 22:16:28
美容院老板娘大實話:脫了衣服,女人的差距根本不在臉上!

美容院老板娘大實話:脫了衣服,女人的差距根本不在臉上!

夜深愛雜談
2026-03-08 21:28:24
火箭隊的杜蘭特會在常規(guī)賽收官戰(zhàn),對陣灰熊隊的比賽中出場嗎?

火箭隊的杜蘭特會在常規(guī)賽收官戰(zhàn),對陣灰熊隊的比賽中出場嗎?

好火子
2026-04-12 23:56:05
中國官媒發(fā)布5個教訓!伊朗戰(zhàn)爭讓解放軍看到哪些鮮血經驗?

中國官媒發(fā)布5個教訓!伊朗戰(zhàn)爭讓解放軍看到哪些鮮血經驗?

浪子阿邴聊體育
2026-04-11 10:15:09
丈夫走后,妻子去兒子家過年,兒子一家人去吃飯,兒媳:你回家吧

丈夫走后,妻子去兒子家過年,兒子一家人去吃飯,兒媳:你回家吧

林林故事揭秘
2025-05-17 17:44:06
一退休阿姨手握80萬,侄子問她手里多少存款,她謊稱18萬,不料3天后侄子帶著妻子搬來說要長期住

一退休阿姨手握80萬,侄子問她手里多少存款,她謊稱18萬,不料3天后侄子帶著妻子搬來說要長期住

背包旅行
2026-04-12 11:35:15
美媒預測本賽季奪冠概率:湖人0.2%!馬刺16.2%第二,榜首高達48%

美媒預測本賽季奪冠概率:湖人0.2%!馬刺16.2%第二,榜首高達48%

你的籃球頻道
2026-04-12 12:01:46
新華社快訊:伊朗代表團離開巴基斯坦

新華社快訊:伊朗代表團離開巴基斯坦

新華社
2026-04-12 11:55:14
本賽季英超落后從未贏球的兩支球隊:熱刺和狼隊

本賽季英超落后從未贏球的兩支球隊:熱刺和狼隊

懂球帝
2026-04-13 00:02:41
玄學提醒:消耗運氣的四種行為

玄學提醒:消耗運氣的四種行為

尚曦讀史
2026-04-11 07:09:01
倪妮穿灰色魚尾裙,這半露酥胸是高級性感天花板?

倪妮穿灰色魚尾裙,這半露酥胸是高級性感天花板?

娛樂領航家
2026-04-11 22:00:03
伊美21小時連談三輪,都談崩了

伊美21小時連談三輪,都談崩了

遠方青木
2026-04-13 00:09:47
爛牌打成王炸!盧旺達靠“抄襲”中國走上巔峰,西方國家坐不住了

爛牌打成王炸!盧旺達靠“抄襲”中國走上巔峰,西方國家坐不住了

歷史人文2
2026-04-12 07:30:03
原來這才是普通家庭存款??!網友:兩套房一輛車,無房貸車貸

原來這才是普通家庭存款??!網友:兩套房一輛車,無房貸車貸

另子維愛讀史
2026-03-06 20:12:51
上海鎖常規(guī)賽冠軍更衣室!盧偉直指開心,被全隊澆水,加油聲洪亮

上海鎖常規(guī)賽冠軍更衣室!盧偉直指開心,被全隊澆水,加油聲洪亮

籃球資訊達人
2026-04-12 22:21:42
壞事傳千里,央視和美國媒體都在關注中國國青球員改年齡事件!

壞事傳千里,央視和美國媒體都在關注中國國青球員改年齡事件!

愛體育
2026-04-12 23:06:15
2026-04-13 01:00:51
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12732文章數 142623關注度
往期回顧 全部

科技要聞

理想稱遭惡意拉踩,東風日產:尊重同行

頭條要聞

特朗普:將封鎖任何試圖進出霍爾木茲海峽的船只

頭條要聞

特朗普:將封鎖任何試圖進出霍爾木茲海峽的船只

體育要聞

創(chuàng)造歷史!五大聯賽首位女性主教練誕生

娛樂要聞

賭王女兒何超蕸病逝,常年和乳癌斗爭

財經要聞

美伊談判破裂的三大癥結

汽車要聞

煥新極氪007/007GT上市 限時19.39萬起

態(tài)度原創(chuàng)

時尚
游戲
旅游
健康
公開課

被周冬雨、林更新戴上熱搜的珠寶,究竟有多驚艷?

《識質存在》發(fā)售/《朋友收集 夢想生活》登陸NS| 下周玩什么

旅游要聞

北京:郁金香迎來盛花期

干細胞抗衰4大誤區(qū),90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版