国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GLM-Image開源:原創(chuàng)架構(gòu)、國產(chǎn)芯片訓(xùn)練、擅長漢字生成

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū),始終堅持“中立、開放、共建、共創(chuàng)、合作”五項基本原則,歡迎加入共同成長。


智譜聯(lián)合華為開源新一代圖像生成模型GLM-Image,模型基于昇騰Atlas 800T A2設(shè)備和昇思MindSpore AI框架完成從數(shù)據(jù)到訓(xùn)練的全流程,是首個在國產(chǎn)芯片上完成全程訓(xùn)練的SOTA多模態(tài)模型。GLM-Image已經(jīng)發(fā)布在始智AI wisemodel開源社區(qū),歡迎大家前往嘗試。


模型地址

https://wisemodel.cn/models/ZhipuAI/GLM-Image

GLM-Image采用自主創(chuàng)新的「自回歸+擴散解碼器」混合架構(gòu),實現(xiàn)了圖像生成與語言模型的聯(lián)合,是我們面向以Nano Banana Pro為代表的新一代「認知型生成」技術(shù)范式的一次重要探索。

核心亮點如下:

  • 架構(gòu)革新,面向「認知型生成」的技術(shù)探索:采用創(chuàng)新的「自回歸 + 擴散編碼器」混合架構(gòu),兼顧全局指令理解與局部細節(jié)刻畫,克服了海報、PPT、科普圖等知識密集型場景生成難題,向探索以Nano Banana Pro為代表的新一代“知識+推理”的認知型生成模型邁出了重要一步。

  • 首個在國產(chǎn)芯片完成全程訓(xùn)練的SOTA模型:模型自回歸結(jié)構(gòu)基座基于昇騰Atlas 800T A2設(shè)備與昇思MindSpore AI框架,完成了從數(shù)據(jù)預(yù)處理到大規(guī)模訓(xùn)練的全流程構(gòu)建,驗證了在國產(chǎn)全棧算力底座上訓(xùn)練前沿模型的可行性。

  • 文字渲染開源SOTA:在CVTG-2K(復(fù)雜視覺文本生成)和LongText-Bench(長文本渲染)榜單獲得開源第一,尤其擅長漢字生成任務(wù)。

  • 高性價比與速度優(yōu)化:API調(diào)用模式下,生成一張圖片僅需0.1元,速度優(yōu)化版本即將更新。

01.

架構(gòu)創(chuàng)新:讀懂指令,寫對文字

近期,以Nano Banana Pro為代表的閉源圖像生成模型正在推動圖像生成與大語言模型的深度融合。技術(shù)范式正從單一的圖像生成,進化為兼具世界知識與推理能力的「認知型生成」。這些模型在海報、PPT、科普圖等知識密集型場景及高保真細節(jié)呈現(xiàn)上表現(xiàn)驚艷,展現(xiàn)了這一技術(shù)范式的優(yōu)勢。

GLM-Image正是面向「認知型生成」技術(shù)范式一次重要探索。這是首個開源的工業(yè)表現(xiàn)級離散自回歸圖像生成模型,希望借此與開源社區(qū)分享我們在這一前沿方向的技術(shù)路徑與實踐思考。

  • 創(chuàng)新架構(gòu)讓模型讀懂寫對:面對傳統(tǒng)模型在“理解復(fù)雜指令”與“精準繪制文字”上難以兼顧的問題,GLM-Image 引入了「自回歸+擴散解碼器」混合架構(gòu),創(chuàng)新地融合了9B大小的自回歸模型與7B大小的DiT擴散解碼器。前者利用其語言模型的底座優(yōu)勢,專注于提升對指令的語義理解和畫面的全局構(gòu)圖;后者配合Glyph Encoder的文本編碼器,專注于還原圖像的高頻細節(jié)和文字筆畫,以此改善模型“提筆忘字”的現(xiàn)象。

  • 多分辨率自適應(yīng):通過改進Tokenizer策略,GLM-Image能夠自適應(yīng)處理多種分辨率,原生支持從1024x1024到2048×2048尺寸的任意比例圖像的生成任務(wù),無需重新訓(xùn)練。


通用pipeline


解碼器結(jié)構(gòu)示意圖

GLM-Image技術(shù)報告:https://z.ai/blog/glm-image

02.

開源SOTA:更擅長文字密集生成任務(wù)

基于上述架構(gòu)創(chuàng)新,GLM-Image在文字渲染的權(quán)威榜單中達到開源SOTA水平。



  • CVTG-2K(復(fù)雜視覺文字生成)榜單核心考察模型在圖像中同時生成多處文字的準確性。在多區(qū)域文字生成準確率上,GLM-Image憑借0.9116的Word Accuracy(文字準確率)成績,位列開源模型第一。在NED(歸一化編輯距離)指標上,GLM-Image同樣以0.9557領(lǐng)先,表明其生成的文字與目標文字高度一致,錯字、漏字情況更少。

  • LongText-Bench(長文本渲染)榜單考察模型渲染長文本、多行文字的準確性,覆蓋招牌、海報、PPT、對話框等8種文字密集場景,并分設(shè)中英雙語測試,GLM-Image以英文0.952、中文0.979的成績位列開源模型第一。

03.

首個國產(chǎn)芯片訓(xùn)練出的SOTA模型

GLM-Image是我們對國產(chǎn)計算生態(tài)的一次深度探索與驗證。其自回歸結(jié)構(gòu)基座從早期的數(shù)據(jù)預(yù)處理到最終的大規(guī)模預(yù)訓(xùn)練,全流程均在昇騰Atlas 800T A2設(shè)備上完成。

依托昇騰NPU和昇思MindSpore AI框架,使用動態(tài)圖多級流水下發(fā)、高性能融合算子、多流并行等特性,我們自研了模型訓(xùn)練套件,全面優(yōu)化數(shù)據(jù)預(yù)處理、預(yù)訓(xùn)練、SFT和RL的端到端流程。通過動態(tài)圖的多級流水優(yōu)化機制,將Host側(cè)算子下發(fā)的關(guān)鍵階段流水化并高度重疊,消除下發(fā)瓶頸;通過多流并行策略,通信和計算互掩,打破文本梯度同步、圖像特征廣播等操作的通信墻,極致優(yōu)化性能;使用AdamW EMA、COC、RMS Norm等昇騰親和的高性能融合算子,同步提升訓(xùn)練的穩(wěn)定性和性能。

GLM-Image是首個在國產(chǎn)芯片上完成全流程訓(xùn)練的SOTA多模態(tài)模型,驗證了在國產(chǎn)全棧算力底座上訓(xùn)練高性能多模態(tài)生成模型的可行性。我們希望這一實踐能為社區(qū)挖掘國產(chǎn)算力潛力提供有價值的參考。

04.

實測案例

下面來看看GLM-Image在實際的復(fù)雜圖文任務(wù)中的表現(xiàn)。

場景一:科普插畫

GLM-Image 更擅長繪制包含復(fù)雜邏輯流程與文字說明的科普插畫及原理示意圖。


場景二:多格圖畫

在生成電商圖、漫畫等多格圖畫時,GLM-Image能夠保持風(fēng)格和主體的一致性,并保障多處文字生成的準確率。


場景三:社交媒體圖文封面

GLM-Image 適用于制作社交媒體封面及內(nèi)容等排版復(fù)雜的圖片,讓您的創(chuàng)作更自由豐富。


場景四:商業(yè)海報

GLM-Image 能夠生成構(gòu)圖富有設(shè)計感、文字嵌入準確的節(jié)日海報與商業(yè)宣傳圖。


場景五:寫實攝影

在文字渲染以外,GLM-Image也同樣擅長生成各種景別和尺寸的人像、寵物、風(fēng)景、靜物。


最后,用GLM-Image生成的一張圖總結(jié)一下模型的核心要點。


----- END -----


wisemodel相關(guān):

系列模型:


關(guān)于wisemodel更多


1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核?、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
S家發(fā)威了!大S律師已報警,官方出手,張?zhí)m律師怒斥,牽連馬筱梅

S家發(fā)威了!大S律師已報警,官方出手,張?zhí)m律師怒斥,牽連馬筱梅

小舟談歷史
2026-03-26 15:44:38
福建該區(qū)住房和城鄉(xiāng)建設(shè)局黨組書記、局長接受紀律審查和監(jiān)察調(diào)查

福建該區(qū)住房和城鄉(xiāng)建設(shè)局黨組書記、局長接受紀律審查和監(jiān)察調(diào)查

大閩門戶
2026-03-26 22:34:54
給女兒留過億財產(chǎn)后,張雪峰身家被扒底朝天,李雪琴的話有人信了

給女兒留過億財產(chǎn)后,張雪峰身家被扒底朝天,李雪琴的話有人信了

奇思妙想草葉君
2026-03-26 23:25:15
越南5年免簽新政策4.1開始實施

越南5年免簽新政策4.1開始實施

創(chuàng)作者_cLg1
2026-03-26 09:42:32
重磅!TVB或?qū)㈤_放電視城作為旅游景點

重磅!TVB或?qū)㈤_放電視城作為旅游景點

TVB劇評社
2026-03-26 23:35:59
有人玩脫了?整蠱男友日常,這就是傳說中的病情一致吧

有人玩脫了?整蠱男友日常,這就是傳說中的病情一致吧

采采
2026-03-26 17:17:36
詹姆斯復(fù)出以來,湖人7勝1負,他已經(jīng)找到自己的球隊地位!

詹姆斯復(fù)出以來,湖人7勝1負,他已經(jīng)找到自己的球隊地位!

愛體育
2026-03-26 22:45:05
陳慧琳”太豐滿了,穿抹胸都兜不住好身材,我感慨自律女人真美

陳慧琳”太豐滿了,穿抹胸都兜不住好身材,我感慨自律女人真美

章眽八卦
2026-03-08 15:36:53
中日48小時交鋒:日企被排除,東京降級對華關(guān)系

中日48小時交鋒:日企被排除,東京降級對華關(guān)系

星落山間
2026-03-25 14:12:01
張雪峰遺產(chǎn)紛爭的內(nèi)幕!

張雪峰遺產(chǎn)紛爭的內(nèi)幕!

八卦瘋叔
2026-03-26 11:05:04
德轉(zhuǎn)列世預(yù)賽附加賽最貴11人:居萊爾領(lǐng)銜,意大利五人入選

德轉(zhuǎn)列世預(yù)賽附加賽最貴11人:居萊爾領(lǐng)銜,意大利五人入選

懂球帝
2026-03-26 16:09:08
太陽報:大量槍迷想搶票見證奪冠,西漢姆聯(lián)嚴查主隊看臺購票

太陽報:大量槍迷想搶票見證奪冠,西漢姆聯(lián)嚴查主隊看臺購票

懂球帝
2026-03-26 13:21:13
男女約會隱秘又安全的12個地方,有6個場合你根本想不到

男女約會隱秘又安全的12個地方,有6個場合你根本想不到

聰明小石頭
2026-03-21 09:13:42
日本不再歡迎中國人?3月起日本簽證“一刀切”,華人進退兩難!

日本不再歡迎中國人?3月起日本簽證“一刀切”,華人進退兩難!

摘史
2026-03-26 04:20:53
男同胞們別嘴硬,老實回答!

男同胞們別嘴硬,老實回答!

小光侃娛樂
2026-03-07 13:15:07
美軍繼續(xù)調(diào)兵,伊朗已在哈爾克島布雷備戰(zhàn)!鴿派將軍們堅持打下去

美軍繼續(xù)調(diào)兵,伊朗已在哈爾克島布雷備戰(zhàn)!鴿派將軍們堅持打下去

鷹眼Defence
2026-03-26 16:06:38
留幾手談張雪峰去世:死者又不是我爹,憑啥為大

留幾手談張雪峰去世:死者又不是我爹,憑啥為大

三言科技
2026-03-25 19:03:05
已被禁賽4年 俄羅斯不后悔未加入亞足聯(lián) 主帥:就5隊能打難獲進步

已被禁賽4年 俄羅斯不后悔未加入亞足聯(lián) 主帥:就5隊能打難獲進步

我愛英超
2026-03-26 18:25:55
3-1拿下陳熠,最后一個世乒賽名額到手,王藝迪笑到了最后

3-1拿下陳熠,最后一個世乒賽名額到手,王藝迪笑到了最后

眼界縱橫
2026-03-26 23:25:59
西媒關(guān)注我海測活動稱應(yīng)對與美可能戰(zhàn)爭

西媒關(guān)注我海測活動稱應(yīng)對與美可能戰(zhàn)爭

沃德輿情觀察
2026-03-26 23:14:47
2026-03-27 00:19:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

美團發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

藝術(shù)
家居
數(shù)碼
公開課
軍事航空

藝術(shù)要聞

哪一座橋不是風(fēng)景?

家居要聞

傍海而居 靜觀蝴蝶海

數(shù)碼要聞

英特爾發(fā)Q1.26版Arc Pro專業(yè)顯卡驅(qū)動,支持B70 / B65顯卡

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時盡力摧毀伊設(shè)施

無障礙瀏覽 進入關(guān)懷版