国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

首個智能體模型實測:產(chǎn)品、開發(fā)、運維“全包了”

0
分享至



假如你已經(jīng)習(xí)慣了AI“動嘴”,接下來將進(jìn)入AI“動手”的時代。

2025年下半年剛開局,幾家大模型企業(yè)就開始卡位Agent,要么上線了“Agent模式”,要么發(fā)布了新的Agent產(chǎn)品,但思路大多是“大模型+外掛工具”,就像是“大腦”指揮一堆外部的“手”協(xié)同完成任務(wù)。

7月28日,智譜正式發(fā)布了新一代旗艦?zāi)P虶LM-4.5,在MMLU Pro、AIME24、MATH 500、SciCode等12項基準(zhǔn)評測中,綜合平均分位居全球模型第三、國產(chǎn)模型第一,開源模型第一。



比起榜單排名,讓我們更感興趣的是——GLM-4.5是專為智能體應(yīng)用打造的基礎(chǔ)模型,首次在單個模型中實現(xiàn)將推理、編碼和智能體能力原生融合,不再滿足于扮演一個被動回答問題的“聊天機器人”,而是要成為能夠理解復(fù)雜目標(biāo)、自主規(guī)劃并執(zhí)行多步驟任務(wù)的“全優(yōu)生”。

相當(dāng)于模型自己就是“帶手的腦”,實現(xiàn)了自主拆解任務(wù)、調(diào)用工具、完成工作,直接將大模型的原生能力卷到了下一個Level。

為什么技術(shù)博客認(rèn)為大模型的下一個范式,一定是把各種能力整合到一起?智譜的路線能否跑通呢?

我們花了半天的時間,在z.ai上通過GLM-4.5測試了8組Demo,一起來看下GLM-4.5這個“優(yōu)等生”的表現(xiàn)。(注:所有Demo均來自一句簡單的提示詞,大家可復(fù)制提示詞進(jìn)行驗證)

Demo1:三只萌犬的網(wǎng)頁名片

提示詞:用HTML+CSS寫一個寵物展示網(wǎng)頁,有三只小狗,展示它們的名字、簡介和圖片。

在測試其他Agent產(chǎn)品時,我們需要把提示詞寫的盡可能詳細(xì),包含頁面主題、頁面結(jié)構(gòu)、CSS樣式要求、圖片說明等等,只有足夠詳細(xì)的提示詞,才能保證模型能理解我們的需求,生成想要的網(wǎng)頁效果。

第一次測試GLM-4.5的Agent能力,我們選擇大膽的“賭”一把,相對簡單甚至模糊的提示詞,最終會生成什么樣的效果?



直接說結(jié)果:GLM-4.5根據(jù)我們的需求生成了一個靜態(tài)網(wǎng)頁,自動生成了網(wǎng)頁主題、生成了3張小狗照片,并詳細(xì)介紹了它們的名字、品種、年齡、性格和簡介;頁面使用了漸變背景、毛玻璃效果和懸停動畫效果,而且是完全響應(yīng)式設(shè)計,在手機、平板、電腦上都能完美顯示。

Demo 2:AI入門課件

提示詞:寫一份15分鐘的“AI入門課件”,適合初中生,要求通俗易懂、有例子。

制作PPT幾乎是所有Agent產(chǎn)品的主打功能,同時也是比較考驗?zāi)P湍芰Φ膱鼍埃盒枰壤斫庥脩舻闹噶?,識別出關(guān)鍵的信息和目標(biāo);根據(jù)主題或關(guān)鍵詞檢索信息,確保內(nèi)容的準(zhǔn)確性和關(guān)聯(lián)性,并按合適的順序和結(jié)構(gòu)展示;結(jié)合內(nèi)容自動搜索并插入合適的圖片,以增強視覺效果和理解力。

GLM-4.5的表現(xiàn),在很大程度上超出了我們的預(yù)期:通俗易懂地解釋了什么AI,列舉了AI發(fā)展史的關(guān)鍵節(jié)點,梳理了AI的運作邏輯、日常生活中的落地場景、未來的發(fā)展趨勢,并且通過“小測驗和思考題”增加了互動性。



不同于使用模板填充信息的PPT生成方式,GLM-4.5直接根據(jù)搜索到的資料和圖片接以HTML形式編寫圖文,讓信息更準(zhǔn)確、排版更靈活,而且允許用戶直接編輯修改。以我們生成的這份PPT為例,從標(biāo)題、排版到配圖、ICON,整份PPT的質(zhì)量非常高,連小細(xì)節(jié)都挑不出什么毛病。

Demo 3:旅游打卡小紅書卡片生成器

提示詞:設(shè)計一個小紅書卡片生成器,目標(biāo)是幫助用戶快速生成適合旅游打卡分享的卡片。

比起靜態(tài)的網(wǎng)頁,直接生成應(yīng)用的任務(wù),需要對圖片進(jìn)行美化、裁剪、加濾鏡、添加裝飾元素等操作,而且用戶需要在生成過程中能夠有一定的交互,例如選擇模板、調(diào)整圖片、修改文案等等。

結(jié)果依然可圈可點,用戶可以上傳照片、輸入文案、選擇模板風(fēng)格,還提供了三組文案和描述供用戶參考。



一個小插曲在于,最初生成的應(yīng)用無法下載圖片,我們將問題反饋給GLM-4.5后,迅速檢查了代碼,發(fā)現(xiàn)是“Tailwind CSS v4使用了新的oklch顏色格式,但html2canvas不支持解析這種顏色格式”,然后GLM-4.5拋棄了html2canvas,改用原生的Canvas API實現(xiàn)卡片生成,迅速修復(fù)了錯誤。

接下來繼續(xù)上難度,要求GLM-4.5增加一個新功能:根據(jù)用戶的描述,自動生成標(biāo)題和文案,同時一鍵獲取當(dāng)前地理位置。

想要滿足這個需求,大模型必須要正確理解用戶的需求并生成相關(guān)文案、熟悉小紅書的文案風(fēng)格,在應(yīng)用中一鍵獲取當(dāng)前地理位置,并將位置數(shù)據(jù)與生成的文案組合排版,渲染出精美的小紅書卡片。



整個過程中,我們沒有輸入一行代碼,甚至沒有檢查一行代碼,所有的調(diào)試都是用自然語言完成的。

Demo 4:反應(yīng)測試小游戲

提示詞:設(shè)計并編寫一個反應(yīng)速度測試小游戲,玩家點擊一個按鈕后,在隨機時間內(nèi)按鈕顏色會發(fā)生變化,玩家需盡快點擊按鈕,點擊得越快,得分越高。

先看下GLM-4.5是怎么理解這個需求的,被拆分成了4個部分:

1、游戲機制:點擊開始→等待變色→盡快點擊→查看成績,并設(shè)計了2-6秒隨機等待時間,防止玩家預(yù)判。

2、功能特性:實時統(tǒng)計當(dāng)前成績、最佳成績和游戲次數(shù),根據(jù)反應(yīng)時間給出等級評價,等待狀態(tài)按鈕禁用。

3、用戶體驗:藍(lán)色:開始游戲;黃色:等待中;綠色:立即點擊;紫色:再次挑戰(zhàn),匹配了不同的音效。

4、評價系統(tǒng):玩家點擊按鈕的反應(yīng)時間會被計算并轉(zhuǎn)換為分?jǐn)?shù),得分= (1 - 點擊時間 / 最大時間) * 100。

讓人驚喜的是,GLM-4.5在推理的過程中通過反思進(jìn)一步優(yōu)化了游戲細(xì)節(jié),比如設(shè)置了新手→進(jìn)階→專家→大師→傳奇的難度等級,并在游戲結(jié)束后加入了社交分享功能,可以將成績分享到微博或微信。



對于大模型來說,這個任務(wù)不僅僅代碼生成,需要跨越多個技術(shù)維度,涉及到游戲機制、UI界面設(shè)計、用戶體驗優(yōu)化等多個方面,具備理解玩家行為、生成富有挑戰(zhàn)性的游戲內(nèi)容、平衡游戲樂趣與難度的綜合能力。

Demo 5:前任行為分析大師

提示詞:生成一個“前任行為分析大師”,專門幫用戶解讀前任發(fā)朋友圈的含義,給出“是否在試探復(fù)合”的專業(yè)分析。

這個任務(wù)的難點在于:大模型需要具備強大的情感語境理解能力,不僅要識別顯性信息,還要能夠讀懂隱性信息;處理文本、圖片等多種格式,進(jìn)行情感和意圖解讀;基于用戶和前任的行為數(shù)據(jù),提供個性化的分析和建議。

這個Demo可能是GLM-4.5完成的最出色的任務(wù),在界面上清晰描述了智能體的功能,并貼心地加入了隱私提醒。



效果怎么樣呢?

我們找到了一組“渣男文案”:“想起了我們一起去過的那個咖啡館,好久沒去了,那個咖啡真的好喝,尤其是我們一起喝的那杯?!?/p>

“前任行為分析大師”的輸出結(jié)果如下:



需要說明的是,這個Agent僅供娛樂參考,請勿過度依賴。

Demo 6:抖音爆款短劇生成器

提示詞:生成一個“抖音爆款短劇自動機”,用戶輸入主線(如:窮小子逆襲),你輸出完整分鏡腳本、角色名、反轉(zhuǎn)節(jié)點。

整個過程和前面幾個demo一樣,GLM-4.5準(zhǔn)確理解了我們的需求。進(jìn)行了一組簡單的測試,創(chuàng)意與生成能力、情感共鳴與情節(jié)推進(jìn)、劇本結(jié)構(gòu)化輸出等表現(xiàn)都讓人滿意,但頁面的風(fēng)格和前面比較相似。



于是我們再次給GLM-4.5上了強度——“把界面改成黑神話悟空的風(fēng)格”。

原以為模型只會把頁面色彩改一下,適配黑神話的“暗黑美學(xué)”,大大超出預(yù)期的是,GLM-4.5進(jìn)行了全面改造:

不單單是在視覺上采用了深色漸變的風(fēng)格,文案風(fēng)格、UI組件命名、交互效果等都在向游戲風(fēng)格靠齊。



比如標(biāo)題改成了”黑神話·短劇天機”,副標(biāo)題改成了“悟空慧眼觀世間,AI神筆寫乾坤。一念生成千萬劇,皆是因果皆是緣”,輸入?yún)^(qū)域被定義為”天機演算法壇”,生成按鈕標(biāo)稱了”演算天機劇本”。

Demo 7:荒島求生游戲

提示詞:設(shè)計一個“荒島求生游戲”,用戶輸入想要的資源和技能,智能體生成一系列求生任務(wù)和情境,用戶通過與系統(tǒng)的互動解決困境。

GLM-4.5的完成度非常高,設(shè)計了角色創(chuàng)建系統(tǒng)、生存系統(tǒng)、任務(wù)系統(tǒng)、隨機事件系統(tǒng)和游戲進(jìn)度系統(tǒng)。游戲會根據(jù)玩家當(dāng)前技能和資源生成合適的任務(wù),并在資源消耗、技能成長、風(fēng)險回報上進(jìn)行了平衡。



同時也在考驗?zāi)P驮谇榫成?、任?wù)多樣性、即時反饋以及決策等方面的能力。比如我們多次選擇狩獵大型動物的任務(wù),導(dǎo)致生命值不斷下滑后,后續(xù)生成的任務(wù)主要是休息和安全探索,確保玩家可以“活下去”。

由于提示詞比較簡單,整個游戲的可玩性不是特別強,但讓我們看到了一種新的可能:游戲公司在驗證一個創(chuàng)意的可行性時,可以先簡單做一個Agent,不斷模擬游戲中的場景,豐富游戲的劇情。

Demo 8:診療陪練系統(tǒng)

提示詞:做一個診療陪練應(yīng)用,通過AI模擬患者,輔助醫(yī)學(xué)生提升診斷技能,提供問診評分,高效助力臨床實踐訓(xùn)練。另外再寫一個管理員頁面的功能,方便管理員查看醫(yī)學(xué)生的成績。

這個demo主要涉及兩個部分:

1、診療陪練應(yīng)用,通過AI模擬患者來輔助醫(yī)學(xué)生提升診斷技能,提供問診評分。

2、管理員頁面功能,使管理員能夠方便地查看醫(yī)學(xué)生的成績。

不管是AI對話系統(tǒng)的復(fù)雜性、評分算法的設(shè)計、數(shù)據(jù)模型的復(fù)雜性,還是實時交互的技術(shù)挑戰(zhàn)、醫(yī)學(xué)專業(yè)知識的準(zhǔn)確性、系統(tǒng)集成和數(shù)據(jù)流的處理,幾乎都在考驗當(dāng)前大模型的能力上限。

一個直接的例子,GLM-4.5需要理解醫(yī)學(xué)生的提問和患者的回答,并且根據(jù)設(shè)定的醫(yī)學(xué)背景、癥狀和情境模擬合理的互動。例如模擬患者可能表達(dá)各種癥狀,且這些癥狀需要結(jié)合醫(yī)學(xué)知識進(jìn)行適當(dāng)?shù)姆答仭?/p>



就交互體驗和系統(tǒng)完整性而言,GLM-4.5的表現(xiàn)依舊值得稱贊,只用了十幾分鐘的時間,但已經(jīng)很接近一套完整的診療陪練系統(tǒng),而且UI設(shè)計、題庫設(shè)計、交互體驗、數(shù)據(jù)管理等模塊不遜于市場上的大多數(shù)成熟產(chǎn)品,驗證了大模型生成復(fù)雜Agent系統(tǒng)的可能性。

一些思考

作為基座模型的GLM-4.5,同時扮演了產(chǎn)品經(jīng)理、程序員和測試運維的角色,通過在一個模型中實現(xiàn)多種能力的融合,很大程度上簡化了搭建智能體的工程難度,進(jìn)一步拉低了智能體的應(yīng)用門檻。

目前GLM-4.5只能部署8個實例,我們也只能展示8組Demo,但傳遞出的信號已經(jīng)十分明顯:

1、技術(shù)的門檻正在消失,創(chuàng)意將直接和生產(chǎn)力掛鉤。

就像上述的Demo,即便是最簡單的靜態(tài)網(wǎng)頁,至少需要一個前端和一個設(shè)計師協(xié)同,花費三四天的時間,現(xiàn)在只需要一句自然語言的指令,文案、配圖、代碼、上線部署等均可以交給GLM-4.5。

當(dāng)技術(shù)的門檻被抹平了,創(chuàng)意的價值將被無限放大,即使是不懂技術(shù)的普通人,也能將創(chuàng)意轉(zhuǎn)化為生產(chǎn)力。

2、智能體競賽的邏輯即將重構(gòu),從“系統(tǒng)拼裝”向“模型驅(qū)動” 轉(zhuǎn)變。

過去智能體競賽的焦點在于能否將不同的組件、工具和技術(shù)有效地集成到一起,更多依賴于工程實現(xiàn),而非模型本身的創(chuàng)新。

智譜示范了另一種路線,即“模型即操作系統(tǒng)”的路線:通過大模型能力的全面提升,減少了工程集成的復(fù)雜性。一些簡單的智能體能力,或?qū)⒈换竽P驼?,但基座模型能力的增強,賦予了開發(fā)者更大的想象空間。

3、從比拼榜單刷分到真實場景表現(xiàn),大模型廠商越來越務(wù)實。

GLM-4.5的基準(zhǔn)評測成績不可謂不亮眼,讓我們印象最深刻卻是在真實場景中的表現(xiàn),代表著大模型的產(chǎn)業(yè)落地進(jìn)程。

除了性能優(yōu)化,GLM-4.5也在成本和效率上實現(xiàn)了突破,其中API調(diào)用價格已經(jīng)低至輸入0.8元/百萬tokens,輸出2元/百萬tokens,高速版本實測生成速度超過100 tokens/秒,可以說兼顧成本效益與交互體驗。

也讓我們有理由相信,當(dāng)GLM-4.5代表的新模型不斷融合更多通用智能能力,AI“動手”的時代已經(jīng)離我們越來越近,Agent正加速從實驗室走向真實場景,成為日常生活中不可或缺的一部分。

聲明:個人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
省港杯屢現(xiàn)爭議!9人廣東客場2-2中國香港 36歲前國腳爆桿世界波

省港杯屢現(xiàn)爭議!9人廣東客場2-2中國香港 36歲前國腳爆桿世界波

我愛英超
2025-12-28 22:00:02
最新!上海一區(qū)迎來新“80”后副區(qū)長

最新!上海一區(qū)迎來新“80”后副區(qū)長

新民晚報
2025-12-28 17:05:34
中方下“逐客令”,直言:一粒大米也不要,直接叫停900萬噸訂單

中方下“逐客令”,直言:一粒大米也不要,直接叫停900萬噸訂單

愛吃醋的貓咪
2025-12-27 16:24:13
小米副董事長擬套現(xiàn)不超20億美元,知情人士:他想成立投資基金

小米副董事長擬套現(xiàn)不超20億美元,知情人士:他想成立投資基金

證券時報e公司
2025-12-28 20:27:50
章子怡發(fā)文為女兒醒寶慶生,十歲了,和媽媽長得越來越像

章子怡發(fā)文為女兒醒寶慶生,十歲了,和媽媽長得越來越像

話娛論影
2025-12-28 13:35:00
長得丑、演戲爛,爹媽“強捧不紅”的4位星二代,注定走不遠(yuǎn)

長得丑、演戲爛,爹媽“強捧不紅”的4位星二代,注定走不遠(yuǎn)

瓜汁橘長Dr
2025-12-27 14:52:48
“不要來找我了,活著好累!”情侶吵架后,女子“消失”深山

“不要來找我了,活著好累!”情侶吵架后,女子“消失”深山

環(huán)球網(wǎng)資訊
2025-12-28 11:57:09
不被允許的欲望:老年人性需求正在演變?yōu)橹卮蠊残l(wèi)生風(fēng)險

不被允許的欲望:老年人性需求正在演變?yōu)橹卮蠊残l(wèi)生風(fēng)險

黑噪音
2025-12-27 20:51:40
部分地區(qū)氣溫下降10℃以上,大雪大雨要來了!

部分地區(qū)氣溫下降10℃以上,大雪大雨要來了!

魯中晨報
2025-12-28 21:10:07
南博又出大瓜,徐湖平落馬,兒子徐湘江公司暴雷,又有人浮出水面

南博又出大瓜,徐湖平落馬,兒子徐湘江公司暴雷,又有人浮出水面

奇思妙想草葉君
2025-12-28 16:33:10
戴佩妮成都站深情開唱,現(xiàn)場宣布取消北京、廣州兩站

戴佩妮成都站深情開唱,現(xiàn)場宣布取消北京、廣州兩站

封面新聞
2025-12-28 07:53:05
俄羅斯發(fā)動大規(guī)模打擊 普京穿上軍裝: 已無興趣等待烏軍撤出

俄羅斯發(fā)動大規(guī)模打擊 普京穿上軍裝: 已無興趣等待烏軍撤出

每日經(jīng)濟新聞
2025-12-28 11:49:18
1死4傷!54歲男子因糾紛在成都一汽車4S店外引爆易燃物當(dāng)場身亡

1死4傷!54歲男子因糾紛在成都一汽車4S店外引爆易燃物當(dāng)場身亡

聲情專遞
2025-12-28 18:40:39
喪盡天良,火鍋里的科技狠活正在成為健康“殺手”

喪盡天良,火鍋里的科技狠活正在成為健康“殺手”

清哲木觀察
2025-12-28 09:40:34
消息稱中國銀行某省分行行長被查

消息稱中國銀行某省分行行長被查

摩登財經(jīng)
2025-12-28 11:10:38
她和奧運冠軍馬琳離婚分走千萬,再婚嫁給金融學(xué)霸,如今怎樣了?

她和奧運冠軍馬琳離婚分走千萬,再婚嫁給金融學(xué)霸,如今怎樣了?

優(yōu)趣紀(jì)史記
2025-12-28 14:47:11
實探封關(guān)后的三亞

實探封關(guān)后的三亞

第一財經(jīng)資訊
2025-12-28 11:48:13
摩根大通嚴(yán)選了47只2026年重點股票,還給出了目標(biāo)價

摩根大通嚴(yán)選了47只2026年重點股票,還給出了目標(biāo)價

常滌非觀點
2025-12-28 16:10:47
美媒一定程度上承認(rèn)了“斬殺線”存在

美媒一定程度上承認(rèn)了“斬殺線”存在

環(huán)球時報國際
2025-12-28 15:40:48
瓜太大了!有網(wǎng)友質(zhì)疑,江博從故博借出來的《米芾三札》為假貨

瓜太大了!有網(wǎng)友質(zhì)疑,江博從故博借出來的《米芾三札》為假貨

火山詩話
2025-12-28 07:05:19
2025-12-29 00:59:00
Alter聊科技 incentive-icons
Alter聊科技
探究產(chǎn)業(yè)興衰,專注商業(yè)解讀。
1474文章數(shù) 168101關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動駕駛?記者求證→

頭條要聞

澤連斯基:若要烏就領(lǐng)土問題讓步 "和平計劃"應(yīng)全民公投

頭條要聞

澤連斯基:若要烏就領(lǐng)土問題讓步 "和平計劃"應(yīng)全民公投

體育要聞

MVP概率達(dá)82.5%!約基奇連超大鳥喬丹

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財經(jīng)要聞

英偉達(dá)的收購史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

游戲
親子
旅游
數(shù)碼
手機

醉酒兔女郎護(hù)送回家!重磅更新可偷看裙底?

親子要聞

保護(hù)孩子寶媽必學(xué),懷疑孩子被侵犯,要少問多做情景再現(xiàn)!

旅游要聞

12月28日最佳情報|濟南華山湖天鵝出游,打卡濟南地鐵4號線

數(shù)碼要聞

曝光的AirPods原型機顯示,蘋果曾計劃推出多彩配色方案!

手機要聞

澎湃OS 3正式版再次擴容:15款設(shè)備喜提升級,你收到了嗎?

無障礙瀏覽 進(jìn)入關(guān)懷版