国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

從網(wǎng)頁截圖到精準復(fù)刻只需30秒:這個新模型刷新了我的認知

0
分享至

今天,智譜AI正式發(fā)布了GLM-4.6V系列模型。

這次發(fā)布挺有意思的,我估計很多人都知道GLM前幾個月就發(fā)布過視覺理解模型4.5V,而4.6V聽起來只是4.5V的小性能提升版本。但別被騙了,他們其實搞了個大的——整出了首個支持工具調(diào)用的視覺模型。

簡單說就是,以前的視覺模型只能「看」和「說」,現(xiàn)在GLM-4.6V不僅能看,還能調(diào)用工具去搜索、去截圖、去畫圖。這個能力聽起來有點抽象,我測完之后發(fā)現(xiàn),確實有點東西。

他們這次發(fā)布了兩個版本:GLM-4.6V(106B參數(shù))和GLM-4.6V-Flash(9B參數(shù))。前者是旗艦版,后者是輕量版,都是MIT License開源的。官方說在同等參數(shù)規(guī)模下,這個模型在20多個多模態(tài)評測基準上拿到了SOTA成績。


但我更關(guān)心的是,這玩意兒在實際場景里到底好不好用。所以我找了7件日常會遇到的事情,一個一個測了一遍。

對了,說一下測試環(huán)境:我用的是官方開放平臺的GLM-4.6V(106B版本),所有測試都是直接在他們的官網(wǎng)z.ai完成的。

測試1:識別澳洲街頭的鳥


先說第一個測試,識別澳洲街頭的鳥??次野l(fā)布這篇文章的IP你就能看出,我最近在澳洲旅居。最近在街上總能看到一種長嘴的白鳥,跟鴿子似的喜歡找人要吃的,但我一直不知道它叫啥,以前在別的國家也從未見過。把照片扔給GLM-4.6V,它很快就告訴我這是澳大利亞白鹮(Australian White Ibis)。


更驚喜的是,它不僅給出了名字,還詳細介紹了這種鳥的外觀特征、生活習(xí)性、分布區(qū)域,甚至提到了一個有趣的俚語——澳洲人叫它"bin chickens"(垃圾桶雞),因為它們特別喜歡在城市垃圾桶里找吃的。這個細節(jié)我之前完全不知道,但確實很符合我在街頭看到的場景。

測試2:分析趕海地點


第二個測試是分析趕海地點??赡苁荁站OK哥視頻看多了,我最近挺想去趕海抓海膽和螺的,據(jù)說悉尼附近有不少海灘能撿到好東西。所以在小紅書搜了搜,倒是有不少人分享照片,但很多人都不愿意說具體在哪。我就找了一張趕海照片,問GLM-4.6V能不能推測出可能的地點。

它先分析了圖片里的細節(jié):植被類型、巖石特征、地形結(jié)構(gòu),然后給出了推測——可能是悉尼附近的Bare Island(裸島)。推理邏輯還挺詳細的,比如巖石的形態(tài)、海岸線的特征、植被的分布,都和Bare Island的特點吻合。


最讓我意外的是,它還自動去搜索了Bare Island的照片,做了對比驗證。我肉眼確認了下,確實是這個地方?jīng)]錯了,會推理,還會自己主動做驗證,這個過程還挺聰明的。

測試3:OCR識別繁體豎版文字


第三個測試是OCR識別繁體豎版文字。這個需求其實挺常見的,比如看一些繁體書籍或者古籍,排版都是從上到下、從右到左的。傳統(tǒng)的OCR工具要么識別不出來,要么順序全亂了。


我上傳了一張繁體豎版文字的圖片,要求GLM-4.6V識別并轉(zhuǎn)換成簡體中文。結(jié)果還不錯,它準確識別了文字內(nèi)容,也正確轉(zhuǎn)換成了簡體,而且保持了原文的段落結(jié)構(gòu)。雖然有個別字可能有點小錯誤,但整體準確率還是挺高的。

測試4:股票技術(shù)分析


第四個測試是股票技術(shù)分析。我上傳了英偉達(NVDA)的K線圖,包括MACD、MA10、MA20等技術(shù)指標(biāo),讓GLM-4.6V分析一下技術(shù)面情況。


它給出的分析還挺專業(yè)的:趨勢判斷、關(guān)鍵支撐位和阻力位、技術(shù)指標(biāo)分析,還有短期操作建議。比如它指出當(dāng)前股價在MA5和MA10均線附近,MACD的DIF和DEA在0軸下方,顯示空頭市場,建議觀望或者設(shè)好止損點。

雖然分析的深度可能不如專業(yè)分析師,但對于普通投資者來說,這個水平的技術(shù)分析已經(jīng)夠用了。至少能快速了解當(dāng)前的趨勢和關(guān)鍵位置,不用自己慢慢看圖琢磨。

(注:這個測試只是為了用來做測試演示,這個分析結(jié)果不代表任何投資建議哈...)

測試5:長文檔PDF分析(圖文混排驚喜)


第五個測試是長文檔PDF分析,這個是最讓我驚喜的。我上傳了OpenRouter剛發(fā)布的《State of AI》報告,這是一份基于100萬億token的實證研究報告,有36頁,包含幾十個圖表。我問了一個挺有針對性的問題:"這份報告的哪個圖表提到了GLM?里面是怎么描述的,我們從中能看到什么趨勢?"


結(jié)果出來之后我直接震驚了。GLM-4.6V不僅在36頁報告里準確定位到了提到GLM的兩個圖表,還做了圖文混排!它從PDF里截取了Figure 3和Figure 13這兩個圖表,直接嵌入到回答里,并且詳細分析了GLM在開源模型市場份額和工具調(diào)用能力方面的表現(xiàn)。


這個功能太實用了。一方面,你能清楚地知道數(shù)據(jù)從哪來,有圖有真相,可信度高。另一方面,這種圖文排版的輸出,完全可以直接拿來發(fā)公眾號文章或者做研報,省了大量的復(fù)制粘貼和排版時間。

更關(guān)鍵的是,面對這種幾十頁、幾十個圖表的長文檔,傳統(tǒng)方式是你得自己翻完整份報告,找到相關(guān)內(nèi)容,再截圖整理?,F(xiàn)在GLM-4.6V能自動定位、提取、排版,這效率提升太明顯了。

這個圖文混排功能真的大大拓寬了模型的使用場景,不僅僅是回答問題,而是能直接生產(chǎn)出可用的內(nèi)容。

測試6:水果攤圖片識別+精準定位


第六個測試是水果攤圖片識別。我上傳了一張水果攤的照片,要求GLM-4.6V識別圖片中的水果,并返回每個水果的英文名在圖片中的精準位置坐標(biāo)(bbox格式)。


它返回了一個JSON格式的結(jié)果,包括orange、apple、pineapple等,每個都有對應(yīng)的坐標(biāo)。我拿到這個結(jié)果之后,又讓AI根據(jù)這些坐標(biāo)生成一張帶標(biāo)注框的圖片。


結(jié)果完全準確!每個水果的標(biāo)注框都精準地框住了對應(yīng)的位置,沒有錯位或者漏標(biāo)。這個Grounding能力真的太實用了,比如我之前做的拍照學(xué)單詞App,原來只能識別圖片的氛圍和場景,去產(chǎn)生相關(guān)單詞,但不知道具體位置,所以效果大致如下


現(xiàn)在有了這個能力,可以精準標(biāo)注每個單詞的位置,看來我完全可以再升級一般app了。

測試7:前端復(fù)刻+多輪調(diào)整(國產(chǎn)工具終于能打了)


最后一個測試是前端復(fù)刻,這個對我來說太有共鳴了。

說實話,Claude Code、Cursor這些工具早就支持截圖生成代碼了,我之前也經(jīng)常用。但問題是,國產(chǎn)模型雖然在純代碼生成能力上追得不錯,圖像理解能力一直比較偏科。所以在復(fù)刻網(wǎng)站這個場景下,國產(chǎn)工具一直沒有好的選擇,只能繼續(xù)用國外的工具。

而且對于大多數(shù)開發(fā)者來說,表達自己想要的設(shè)計風(fēng)格其實挺難的。對于大多數(shù)缺乏產(chǎn)品和設(shè)計經(jīng)驗的工程師或者vibe coder來說,你很難用文字精確描述自己的需求。

傳統(tǒng)的vibe coding(看著設(shè)計稿寫代碼)痛點也很明顯:你得仔細看每個元素的位置、顏色、字體、間距,在腦子里轉(zhuǎn)換成CSS代碼,寫完之后發(fā)現(xiàn)和設(shè)計稿不一樣,又得慢慢調(diào)。

之前雖然有一些AI工具能截圖生成代碼,但效果參差不齊。有的生成的代碼一堆占位符,圖片全是灰色方塊,根本沒法用。有的布局還原度不高,生成出來和原圖差距很大。更別提多輪交互修改了,基本上每次改動都要重新生成,前后不一致。

我用GLM-4.6V測了一下YouTube首頁的復(fù)刻。第一步,我上傳了YouTube首頁的截圖,要求生成完整的HTML代碼,并且特別強調(diào)"圖片區(qū)域請用真實圖片替代,不要用任何占位符"。


結(jié)果讓我很驚喜。生成的代碼不僅布局還原度很高,而且真的沒用占位符,所有圖片都是真實的網(wǎng)絡(luò)圖片鏈接。打開瀏覽器一看,雖然不是100%像素級還原(畢竟YouTube的UI很復(fù)雜),但整體結(jié)構(gòu)、配色、排版都非常接近原版。


更厲害的是多輪交互調(diào)整。我接著提了第二個要求:"請將網(wǎng)站設(shè)計調(diào)整為夜間主題"。它直接在之前生成的代碼基礎(chǔ)上做了修改,把背景色、文字顏色、卡片顏色都調(diào)整成了深色主題,而且保持了整體布局不變。


這個能力對于快速原型開發(fā)、設(shè)計稿驗證、甚至是日常的網(wǎng)頁搭建,都非常實用。以后看到喜歡的網(wǎng)頁設(shè)計,截個圖就能快速復(fù)刻出來,省了大量的手寫代碼時間。

更重要的是,國產(chǎn)工具終于有了一個在圖像理解+代碼生成這個場景下相當(dāng)能打的選擇。在基礎(chǔ)的網(wǎng)頁復(fù)刻和多輪調(diào)整上,GLM-4.6V已經(jīng)能滿足日常需求了。對于更傾向用國產(chǎn)工具的開發(fā)者來說,這是個不錯的消息。

測完這7件事,我的整體感受是:GLM-4.6V確實有點東西。

先說優(yōu)點。速度真的快,比我之前用的GPT-5和Gemini 3 Pro都快不少。尤其是處理長文檔的時候,128k的上下文窗口確實給力,不用擔(dān)心文檔太長被截斷。前端復(fù)刻的能力也挺驚喜的,雖然不是100%還原,但生成的前端代碼質(zhì)量比我預(yù)期的高。

最讓我印象深刻的是Grounding能力,也就是精準定位物體位置。這個能力在實際應(yīng)用中太有用了,比如我之前做的拍照學(xué)單詞App,原來只能識別圖片里的所有單詞,但單詞在圖片上的位置是亂的。現(xiàn)在有了Grounding,可以精準標(biāo)注每個單詞的位置,用戶體驗?zāi)芴嵘淮蠼亍?/p>

工具調(diào)用這個能力也確實解決了不少問題。以前用多模態(tài)模型,如果需要搜索或者生成圖片,得自己寫代碼去調(diào)API,現(xiàn)在模型能自己調(diào)工具,省了不少事。

和GPT-5、Gemini 3對比的話,我覺得各有優(yōu)劣。GPT-5在理解復(fù)雜邏輯和生成長文本方面還是更強,Gemini 3的多模態(tài)融合做得更自然。但GLM-4.6V的優(yōu)勢在于速度快、開源、工具調(diào)用能力強,而且國內(nèi)訪問更穩(wěn)定。

但也有槽點,比如偶爾會遇見「回復(fù)內(nèi)容為空」的情況,可能是我測試的時候還處在內(nèi)測階段,有些不穩(wěn)定吧,我相信一些細節(jié)體驗的問題應(yīng)該能挺快解決的。


如果你是開發(fā)者,想做一些多模態(tài)應(yīng)用,GLM-4.6V確實是個不錯的選擇。尤其是需要處理長文檔、做前端復(fù)刻、或者需要精準定位物體的場景,這個模型的表現(xiàn)會超出預(yù)期。

如果你只是普通用戶,想用來處理日常工作,比如分析財報、識別文字、復(fù)刻網(wǎng)頁,GLM-4.6V也夠用,而且速度快體驗好。

最后說一下試用方式。官方提供了開放平臺(bigmodel.cn),可以直接在線試用。如果想本地部署,GitHub上也有開源代碼,支持vLLM、SGLang等推理框架。

對了,智譜在產(chǎn)品設(shè)計上還挺用心的。他們在界面上加了一排場景標(biāo)簽,比如「萬能識搜」「圖文掃描」「文檔智讀」「視頻理解」「智能比價」「數(shù)理解題」。一方面是提醒你這個視覺模型到底能幫你做什么,另一方面也能看出他們針對這些主流場景做了專門優(yōu)化。比如你要讀論文、讀財報,希望AI幫你寫圖文混排的分析,選中「文檔智讀」會有更好的體驗。這種產(chǎn)品細節(jié)做到位的感覺,還是挺難得的。


如果你有這幾個場景的需求的話,現(xiàn)在就可以去他們官網(wǎng)免費試試看-> https://chat.z.ai/

以及,我覺得很好的一點是,如果你是個專業(yè)的開發(fā)者,或者Vibe Coder,都可以直接通過他們的Coding Plan套餐直接使用他們這次新發(fā)布的GLM-4.6V模型,不需要額外付費(順便說一句,花叔自己是花了真金白銀訂閱了100元/月的Coding Plan Pro套餐的)。


我之前寫過文章介紹他們的Coding Plan,甚至還開發(fā)了個讓你更方便使用GLM模型去提到Claude的GLM Code,感興趣的可以去看看我之前的教程:

AI是一門實踐的藝術(shù),實際上手的每一次體驗都勝過看10篇文章,做100次解讀的。

都看到這了,如果覺得內(nèi)容對你有幫助的話,歡迎點贊、在看、關(guān)注,以及轉(zhuǎn)發(fā)給你需要的朋友。哦對了,你也可以通過點擊「閱讀原文」去看看上面提到的GLM Coding Plan套餐。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
國家在號召符合條件的退役士兵可以再次入伍,外交部:警鐘已敲響

國家在號召符合條件的退役士兵可以再次入伍,外交部:警鐘已敲響

百態(tài)人間
2025-12-24 16:40:00
一旦臺海戰(zhàn)爭爆發(fā),可能造成上億傷亡,解放軍或需解決4大戰(zhàn)場

一旦臺海戰(zhàn)爭爆發(fā),可能造成上億傷亡,解放軍或需解決4大戰(zhàn)場

滄海旅行家
2025-12-11 15:28:35
美媒:若開拓者擺爛瀚森將成最大受益者 交易兩人能為他打開局面

美媒:若開拓者擺爛瀚森將成最大受益者 交易兩人能為他打開局面

羅說NBA
2025-12-28 06:53:32
下車救人還是肇事逃逸?警方回應(yīng):真的是下車救人,網(wǎng)友們別再誤會了

下車救人還是肇事逃逸?警方回應(yīng):真的是下車救人,網(wǎng)友們別再誤會了

封面新聞
2025-12-28 13:05:04
陳剛和“陳剛”合影

陳剛和“陳剛”合影

觀察者網(wǎng)
2025-12-27 09:46:55
萬萬沒想到,畢福劍敗光的體面,如今被29歲“丑女兒”掙回來了!

萬萬沒想到,畢福劍敗光的體面,如今被29歲“丑女兒”掙回來了!

知鑒明史
2025-09-03 18:55:30
南博風(fēng)波后續(xù):全網(wǎng)追查“借畫不還”的神秘老同志,揭開歷史迷霧

南博風(fēng)波后續(xù):全網(wǎng)追查“借畫不還”的神秘老同志,揭開歷史迷霧

公子麥少
2025-12-21 14:54:43
中方反制不到24小時,美悍然宣布:中國違法,我們九屆政府都護臺

中方反制不到24小時,美悍然宣布:中國違法,我們九屆政府都護臺

博覽歷史
2025-12-27 16:31:18
普京強硬表態(tài):若烏方不愿和平解決 俄方就打到問題解決

普京強硬表態(tài):若烏方不愿和平解決 俄方就打到問題解決

新華社
2025-12-28 11:18:09
利好:維拉兩大主力停賽無緣戰(zhàn)阿森納!槍手12月最佳射手:烏龍球

利好:維拉兩大主力停賽無緣戰(zhàn)阿森納!槍手12月最佳射手:烏龍球

足球偵探
2025-12-28 16:23:29
“后悔來清華參觀,自取其辱”,母親帶娃游清華,被食堂氣到失控

“后悔來清華參觀,自取其辱”,母親帶娃游清華,被食堂氣到失控

詩意世界
2025-11-30 11:04:47
18家大國企全軍覆沒!昔日世界第一的中國機床,現(xiàn)還有翻身機會嗎

18家大國企全軍覆沒!昔日世界第一的中國機床,現(xiàn)還有翻身機會嗎

牛牛叨史
2025-12-20 21:06:35
5名“大法官”未達6人門檻仍下判決,翁曉玲:臺灣距離邪惡時代不遠了

5名“大法官”未達6人門檻仍下判決,翁曉玲:臺灣距離邪惡時代不遠了

海峽導(dǎo)報社
2025-12-21 08:44:14
原軍事交通學(xué)院政委王少君將軍逝世,曾參加邊境自衛(wèi)反擊戰(zhàn)

原軍事交通學(xué)院政委王少君將軍逝世,曾參加邊境自衛(wèi)反擊戰(zhàn)

澎湃新聞
2025-12-28 10:40:26
陳曉帶著,秦昊護著,郭京飛寵著,演了19部戲,終于紅了

陳曉帶著,秦昊護著,郭京飛寵著,演了19部戲,終于紅了

小椰的奶奶
2025-12-28 08:54:10
金融圈刷屏,“私募魔女”李蓓開投資課:收費12888元,但“不指望靠這個賺錢,我不缺幾千萬”!旗下有兩只產(chǎn)品近三年跑輸滬深300

金融圈刷屏,“私募魔女”李蓓開投資課:收費12888元,但“不指望靠這個賺錢,我不缺幾千萬”!旗下有兩只產(chǎn)品近三年跑輸滬深300

每日經(jīng)濟新聞
2025-12-27 19:22:17
李兆會的18年復(fù)仇路

李兆會的18年復(fù)仇路

詩意世界
2025-10-10 14:09:20
周總理當(dāng)了27年總理,有四人先后擔(dān)任第一副總理

周總理當(dāng)了27年總理,有四人先后擔(dān)任第一副總理

文史茶館2020
2025-12-28 11:15:51
俄警告歐洲國家勿向烏派兵

俄警告歐洲國家勿向烏派兵

界面新聞
2025-12-28 14:26:52
姜昆翻車,美國境內(nèi)唱紅歌,早年抵制洋節(jié)掛在嘴邊,回應(yīng)未移民!

姜昆翻車,美國境內(nèi)唱紅歌,早年抵制洋節(jié)掛在嘴邊,回應(yīng)未移民!

你食不食油餅
2025-12-26 06:13:35
2025-12-28 19:08:49
AI進化論花生 incentive-icons
AI進化論花生
AI博主,AppStore付費榜第一的小貓補光燈app開發(fā)者
102文章數(shù) 46關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動駕駛?記者求證→

頭條要聞

杭州"兔子警官"哄孩子式執(zhí)法火了 曾當(dāng)過2年幼兒園老師

頭條要聞

杭州"兔子警官"哄孩子式執(zhí)法火了 曾當(dāng)過2年幼兒園老師

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財經(jīng)要聞

英偉達的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

本地
時尚
教育
家居
公開課

本地新聞

云游安徽|踏訪池州,讀懂山水間的萬年史書

瑞典拉普蘭:凜冽北境的萬物平衡之道

教育要聞

于潔:教師怎樣走出這10個認知誤區(qū)

家居要聞

格調(diào)時尚 智慧品質(zhì)居所

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版