網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

從網(wǎng)頁截圖到精準(zhǔn)復(fù)刻只需30秒：這個(gè)新模型刷新了我的認(rèn)知

2025-12-08 22:35:29　來源: AI進(jìn)化論花生

北京舉報(bào)

分享至

今天，智譜AI正式發(fā)布了GLM-4.6V系列模型。

這次發(fā)布挺有意思的，我估計(jì)很多人都知道GLM前幾個(gè)月就發(fā)布過視覺理解模型4.5V，而4.6V聽起來只是4.5V的小性能提升版本。但別被騙了，他們其實(shí)搞了個(gè)大的——整出了首個(gè)支持工具調(diào)用的視覺模型。

簡單說就是，以前的視覺模型只能「看」和「說」，現(xiàn)在GLM-4.6V不僅能看，還能調(diào)用工具去搜索、去截圖、去畫圖。這個(gè)能力聽起來有點(diǎn)抽象，我測(cè)完之后發(fā)現(xiàn)，確實(shí)有點(diǎn)東西。

他們這次發(fā)布了兩個(gè)版本：GLM-4.6V（106B參數(shù)）和GLM-4.6V-Flash（9B參數(shù)）。前者是旗艦版，后者是輕量版，都是MIT License開源的。官方說在同等參數(shù)規(guī)模下，這個(gè)模型在20多個(gè)多模態(tài)評(píng)測(cè)基準(zhǔn)上拿到了SOTA成績。

但我更關(guān)心的是，這玩意兒在實(shí)際場(chǎng)景里到底好不好用。所以我找了7件日常會(huì)遇到的事情，一個(gè)一個(gè)測(cè)了一遍。

對(duì)了，說一下測(cè)試環(huán)境：我用的是官方開放平臺(tái)的GLM-4.6V（106B版本），所有測(cè)試都是直接在他們的官網(wǎng)z.ai完成的。

測(cè)試1：識(shí)別澳洲街頭的鳥

先說第一個(gè)測(cè)試，識(shí)別澳洲街頭的鳥?？次野l(fā)布這篇文章的IP你就能看出，我最近在澳洲旅居。最近在街上總能看到一種長嘴的白鳥，跟鴿子似的喜歡找人要吃的，但我一直不知道它叫啥，以前在別的國家也從未見過。把照片扔給GLM-4.6V，它很快就告訴我這是澳大利亞白鹮（Australian White Ibis）。

更驚喜的是，它不僅給出了名字，還詳細(xì)介紹了這種鳥的外觀特征、生活習(xí)性、分布區(qū)域，甚至提到了一個(gè)有趣的俚語——澳洲人叫它"bin chickens"（垃圾桶雞），因?yàn)樗鼈兲貏e喜歡在城市垃圾桶里找吃的。這個(gè)細(xì)節(jié)我之前完全不知道，但確實(shí)很符合我在街頭看到的場(chǎng)景。

測(cè)試2：分析趕海地點(diǎn)

第二個(gè)測(cè)試是分析趕海地點(diǎn)?？赡苁荁站OK哥視頻看多了，我最近挺想去趕海抓海膽和螺的，據(jù)說悉尼附近有不少海灘能撿到好東西。所以在小紅書搜了搜，倒是有不少人分享照片，但很多人都不愿意說具體在哪。我就找了一張趕海照片，問GLM-4.6V能不能推測(cè)出可能的地點(diǎn)。

它先分析了圖片里的細(xì)節(jié)：植被類型、巖石特征、地形結(jié)構(gòu)，然后給出了推測(cè)——可能是悉尼附近的Bare Island（裸島）。推理邏輯還挺詳細(xì)的，比如巖石的形態(tài)、海岸線的特征、植被的分布，都和Bare Island的特點(diǎn)吻合。

最讓我意外的是，它還自動(dòng)去搜索了Bare Island的照片，做了對(duì)比驗(yàn)證。我肉眼確認(rèn)了下，確實(shí)是這個(gè)地方?jīng)]錯(cuò)了，會(huì)推理，還會(huì)自己主動(dòng)做驗(yàn)證，這個(gè)過程還挺聰明的。

測(cè)試3：OCR識(shí)別繁體豎版文字

第三個(gè)測(cè)試是OCR識(shí)別繁體豎版文字。這個(gè)需求其實(shí)挺常見的，比如看一些繁體書籍或者古籍，排版都是從上到下、從右到左的。傳統(tǒng)的OCR工具要么識(shí)別不出來，要么順序全亂了。

我上傳了一張繁體豎版文字的圖片，要求GLM-4.6V識(shí)別并轉(zhuǎn)換成簡體中文。結(jié)果還不錯(cuò)，它準(zhǔn)確識(shí)別了文字內(nèi)容，也正確轉(zhuǎn)換成了簡體，而且保持了原文的段落結(jié)構(gòu)。雖然有個(gè)別字可能有點(diǎn)小錯(cuò)誤，但整體準(zhǔn)確率還是挺高的。

測(cè)試4：股票技術(shù)分析

第四個(gè)測(cè)試是股票技術(shù)分析。我上傳了英偉達(dá)（NVDA）的K線圖，包括MACD、MA10、MA20等技術(shù)指標(biāo)，讓GLM-4.6V分析一下技術(shù)面情況。

它給出的分析還挺專業(yè)的：趨勢(shì)判斷、關(guān)鍵支撐位和阻力位、技術(shù)指標(biāo)分析，還有短期操作建議。比如它指出當(dāng)前股價(jià)在MA5和MA10均線附近，MACD的DIF和DEA在0軸下方，顯示空頭市場(chǎng)，建議觀望或者設(shè)好止損點(diǎn)。

雖然分析的深度可能不如專業(yè)分析師，但對(duì)于普通投資者來說，這個(gè)水平的技術(shù)分析已經(jīng)夠用了。至少能快速了解當(dāng)前的趨勢(shì)和關(guān)鍵位置，不用自己慢慢看圖琢磨。

（注：這個(gè)測(cè)試只是為了用來做測(cè)試演示，這個(gè)分析結(jié)果不代表任何投資建議哈...）

測(cè)試5：長文檔PDF分析（圖文混排驚喜）

第五個(gè)測(cè)試是長文檔PDF分析，這個(gè)是最讓我驚喜的。我上傳了OpenRouter剛發(fā)布的《State of AI》報(bào)告，這是一份基于100萬億token的實(shí)證研究報(bào)告，有36頁，包含幾十個(gè)圖表。我問了一個(gè)挺有針對(duì)性的問題："這份報(bào)告的哪個(gè)圖表提到了GLM？里面是怎么描述的，我們從中能看到什么趨勢(shì)？"

結(jié)果出來之后我直接震驚了。GLM-4.6V不僅在36頁報(bào)告里準(zhǔn)確定位到了提到GLM的兩個(gè)圖表，還做了圖文混排！它從PDF里截取了Figure 3和Figure 13這兩個(gè)圖表，直接嵌入到回答里，并且詳細(xì)分析了GLM在開源模型市場(chǎng)份額和工具調(diào)用能力方面的表現(xiàn)。

這個(gè)功能太實(shí)用了。一方面，你能清楚地知道數(shù)據(jù)從哪來，有圖有真相，可信度高。另一方面，這種圖文排版的輸出，完全可以直接拿來發(fā)公眾號(hào)文章或者做研報(bào)，省了大量的復(fù)制粘貼和排版時(shí)間。

更關(guān)鍵的是，面對(duì)這種幾十頁、幾十個(gè)圖表的長文檔，傳統(tǒng)方式是你得自己翻完整份報(bào)告，找到相關(guān)內(nèi)容，再截圖整理?，F(xiàn)在GLM-4.6V能自動(dòng)定位、提取、排版，這效率提升太明顯了。

這個(gè)圖文混排功能真的大大拓寬了模型的使用場(chǎng)景，不僅僅是回答問題，而是能直接生產(chǎn)出可用的內(nèi)容。

測(cè)試6：水果攤圖片識(shí)別+精準(zhǔn)定位

第六個(gè)測(cè)試是水果攤圖片識(shí)別。我上傳了一張水果攤的照片，要求GLM-4.6V識(shí)別圖片中的水果，并返回每個(gè)水果的英文名在圖片中的精準(zhǔn)位置坐標(biāo)（bbox格式）。

它返回了一個(gè)JSON格式的結(jié)果，包括orange、apple、pineapple等，每個(gè)都有對(duì)應(yīng)的坐標(biāo)。我拿到這個(gè)結(jié)果之后，又讓AI根據(jù)這些坐標(biāo)生成一張帶標(biāo)注框的圖片。

結(jié)果完全準(zhǔn)確！每個(gè)水果的標(biāo)注框都精準(zhǔn)地框住了對(duì)應(yīng)的位置，沒有錯(cuò)位或者漏標(biāo)。這個(gè)Grounding能力真的太實(shí)用了，比如我之前做的拍照學(xué)單詞App，原來只能識(shí)別圖片的氛圍和場(chǎng)景，去產(chǎn)生相關(guān)單詞，但不知道具體位置，所以效果大致如下

現(xiàn)在有了這個(gè)能力，可以精準(zhǔn)標(biāo)注每個(gè)單詞的位置，看來我完全可以再升級(jí)一般app了。

測(cè)試7：前端復(fù)刻+多輪調(diào)整（國產(chǎn)工具終于能打了）

最后一個(gè)測(cè)試是前端復(fù)刻，這個(gè)對(duì)我來說太有共鳴了。

說實(shí)話，Claude Code、Cursor這些工具早就支持截圖生成代碼了，我之前也經(jīng)常用。但問題是，國產(chǎn)模型雖然在純代碼生成能力上追得不錯(cuò)，圖像理解能力一直比較偏科。所以在復(fù)刻網(wǎng)站這個(gè)場(chǎng)景下，國產(chǎn)工具一直沒有好的選擇，只能繼續(xù)用國外的工具。

而且對(duì)于大多數(shù)開發(fā)者來說，表達(dá)自己想要的設(shè)計(jì)風(fēng)格其實(shí)挺難的。對(duì)于大多數(shù)缺乏產(chǎn)品和設(shè)計(jì)經(jīng)驗(yàn)的工程師或者vibe coder來說，你很難用文字精確描述自己的需求。

傳統(tǒng)的vibe coding（看著設(shè)計(jì)稿寫代碼）痛點(diǎn)也很明顯：你得仔細(xì)看每個(gè)元素的位置、顏色、字體、間距，在腦子里轉(zhuǎn)換成CSS代碼，寫完之后發(fā)現(xiàn)和設(shè)計(jì)稿不一樣，又得慢慢調(diào)。

之前雖然有一些AI工具能截圖生成代碼，但效果參差不齊。有的生成的代碼一堆占位符，圖片全是灰色方塊，根本沒法用。有的布局還原度不高，生成出來和原圖差距很大。更別提多輪交互修改了，基本上每次改動(dòng)都要重新生成，前后不一致。

我用GLM-4.6V測(cè)了一下YouTube首頁的復(fù)刻。第一步，我上傳了YouTube首頁的截圖，要求生成完整的HTML代碼，并且特別強(qiáng)調(diào)"圖片區(qū)域請(qǐng)用真實(shí)圖片替代，不要用任何占位符"。

結(jié)果讓我很驚喜。生成的代碼不僅布局還原度很高，而且真的沒用占位符，所有圖片都是真實(shí)的網(wǎng)絡(luò)圖片鏈接。打開瀏覽器一看，雖然不是100%像素級(jí)還原（畢竟YouTube的UI很復(fù)雜），但整體結(jié)構(gòu)、配色、排版都非常接近原版。

更厲害的是多輪交互調(diào)整。我接著提了第二個(gè)要求："請(qǐng)將網(wǎng)站設(shè)計(jì)調(diào)整為夜間主題"。它直接在之前生成的代碼基礎(chǔ)上做了修改，把背景色、文字顏色、卡片顏色都調(diào)整成了深色主題，而且保持了整體布局不變。

這個(gè)能力對(duì)于快速原型開發(fā)、設(shè)計(jì)稿驗(yàn)證、甚至是日常的網(wǎng)頁搭建，都非常實(shí)用。以后看到喜歡的網(wǎng)頁設(shè)計(jì)，截個(gè)圖就能快速復(fù)刻出來，省了大量的手寫代碼時(shí)間。

更重要的是，國產(chǎn)工具終于有了一個(gè)在圖像理解+代碼生成這個(gè)場(chǎng)景下相當(dāng)能打的選擇。在基礎(chǔ)的網(wǎng)頁復(fù)刻和多輪調(diào)整上，GLM-4.6V已經(jīng)能滿足日常需求了。對(duì)于更傾向用國產(chǎn)工具的開發(fā)者來說，這是個(gè)不錯(cuò)的消息。

測(cè)完這7件事，我的整體感受是：GLM-4.6V確實(shí)有點(diǎn)東西。

先說優(yōu)點(diǎn)。速度真的快，比我之前用的GPT-5和Gemini 3 Pro都快不少。尤其是處理長文檔的時(shí)候，128k的上下文窗口確實(shí)給力，不用擔(dān)心文檔太長被截?cái)?。前端?fù)刻的能力也挺驚喜的，雖然不是100%還原，但生成的前端代碼質(zhì)量比我預(yù)期的高。

最讓我印象深刻的是Grounding能力，也就是精準(zhǔn)定位物體位置。這個(gè)能力在實(shí)際應(yīng)用中太有用了，比如我之前做的拍照學(xué)單詞App，原來只能識(shí)別圖片里的所有單詞，但單詞在圖片上的位置是亂的?，F(xiàn)在有了Grounding，可以精準(zhǔn)標(biāo)注每個(gè)單詞的位置，用戶體驗(yàn)?zāi)芴嵘淮蠼亍?/p>

工具調(diào)用這個(gè)能力也確實(shí)解決了不少問題。以前用多模態(tài)模型，如果需要搜索或者生成圖片，得自己寫代碼去調(diào)API，現(xiàn)在模型能自己調(diào)工具，省了不少事。

和GPT-5、Gemini 3對(duì)比的話，我覺得各有優(yōu)劣。GPT-5在理解復(fù)雜邏輯和生成長文本方面還是更強(qiáng)，Gemini 3的多模態(tài)融合做得更自然。但GLM-4.6V的優(yōu)勢(shì)在于速度快、開源、工具調(diào)用能力強(qiáng)，而且國內(nèi)訪問更穩(wěn)定。

但也有槽點(diǎn)，比如偶爾會(huì)遇見「回復(fù)內(nèi)容為空」的情況，可能是我測(cè)試的時(shí)候還處在內(nèi)測(cè)階段，有些不穩(wěn)定吧，我相信一些細(xì)節(jié)體驗(yàn)的問題應(yīng)該能挺快解決的。

如果你是開發(fā)者，想做一些多模態(tài)應(yīng)用，GLM-4.6V確實(shí)是個(gè)不錯(cuò)的選擇。尤其是需要處理長文檔、做前端復(fù)刻、或者需要精準(zhǔn)定位物體的場(chǎng)景，這個(gè)模型的表現(xiàn)會(huì)超出預(yù)期。

如果你只是普通用戶，想用來處理日常工作，比如分析財(cái)報(bào)、識(shí)別文字、復(fù)刻網(wǎng)頁，GLM-4.6V也夠用，而且速度快體驗(yàn)好。

最后說一下試用方式。官方提供了開放平臺(tái)（bigmodel.cn），可以直接在線試用。如果想本地部署，GitHub上也有開源代碼，支持vLLM、SGLang等推理框架。

對(duì)了，智譜在產(chǎn)品設(shè)計(jì)上還挺用心的。他們?cè)诮缑嫔霞恿艘慌艌?chǎng)景標(biāo)簽，比如「萬能識(shí)搜」「圖文掃描」「文檔智讀」「視頻理解」「智能比價(jià)」「數(shù)理解題」。一方面是提醒你這個(gè)視覺模型到底能幫你做什么，另一方面也能看出他們針對(duì)這些主流場(chǎng)景做了專門優(yōu)化。比如你要讀論文、讀財(cái)報(bào)，希望AI幫你寫圖文混排的分析，選中「文檔智讀」會(huì)有更好的體驗(yàn)。這種產(chǎn)品細(xì)節(jié)做到位的感覺，還是挺難得的。

如果你有這幾個(gè)場(chǎng)景的需求的話，現(xiàn)在就可以去他們官網(wǎng)免費(fèi)試試看-> https://chat.z.ai/

以及，我覺得很好的一點(diǎn)是，如果你是個(gè)專業(yè)的開發(fā)者，或者Vibe Coder，都可以直接通過他們的Coding Plan套餐直接使用他們這次新發(fā)布的GLM-4.6V模型，不需要額外付費(fèi)（順便說一句，花叔自己是花了真金白銀訂閱了100元/月的Coding Plan Pro套餐的）。

我之前寫過文章介紹他們的Coding Plan，甚至還開發(fā)了個(gè)讓你更方便使用GLM模型去提到Claude的GLM Code，感興趣的可以去看看我之前的教程：

AI是一門實(shí)踐的藝術(shù)，實(shí)際上手的每一次體驗(yàn)都勝過看10篇文章，做100次解讀的。

都看到這了，如果覺得內(nèi)容對(duì)你有幫助的話，歡迎點(diǎn)贊、在看、關(guān)注，以及轉(zhuǎn)發(fā)給你需要的朋友。哦對(duì)了，你也可以通過點(diǎn)擊「閱讀原文」去看看上面提到的GLM Coding Plan套餐。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.