国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

ollama v0.17.5正式發(fā)布:新增Qwen3.5系列模型,全方位優(yōu)化GPU/CPU分配、采樣懲罰與內(nèi)存管理機(jī)制詳解

0
分享至




2026年3月3日,ollama v0.17.5版本正式發(fā)布。這一版本可謂一次重要升級,核心亮點(diǎn)在于新增了Qwen3.5系列模型,并全面改進(jìn)了采樣算法、GPU與CPU混合分配機(jī)制、內(nèi)存峰值監(jiān)控以及MLX引擎下的穩(wěn)定性。本文將根據(jù)完整的更新內(nèi)容,詳細(xì)解析每一處技術(shù)改動,讓開發(fā)者能夠理解這一版本背后的架構(gòu)進(jìn)步和性能演化。

一、版本核心更新概覽 1. 新增模型系列:Qwen3.5

v0.17.5引入了全新的模型系列——Qwen3.5,包括 0.8B、2B、4B 與 9B 四個參數(shù)規(guī)模版本。這使得開發(fā)者能根據(jù)硬件資源靈活選擇不同性能梯度的模型。

值得注意的是,在此次版本中,Qwen3.5模型支持 GPU 與 CPU 混合加載模式,同時針對模型“自我重復(fù)”問題進(jìn)行了深度修復(fù)。新模型可通過命令重新下載:

ollama pull qwen3.5:35b
2. GPU & CPU分配相關(guān)修復(fù)

新版本修復(fù)了Qwen3.5模型在GPU與CPU拆分運(yùn)行時的崩潰問題。此前,當(dāng)模型部分參數(shù)映射至CPU后,DeltaNet層或KV緩存命中時容易出現(xiàn)panic,如今通過對線性注意力張量缺失、conv1d權(quán)重校驗(yàn)、層級遞歸驗(yàn)證進(jìn)行系統(tǒng)修復(fù),顯著提升了混合資源下的運(yùn)行穩(wěn)定性。

二、性能與內(nèi)存系統(tǒng)全面升級 1. Verbose模式新增峰值內(nèi)存統(tǒng)計

ollama run --verbose現(xiàn)在會顯示峰值內(nèi)存使用情況。新增的參數(shù)結(jié)構(gòu)Metrics中增加了:

  • ?PeakMemory:以GiB或人類可讀格式輸出峰值內(nèi)存;

  • ?formatPeakMemory()函數(shù):自動判斷單位并格式化顯示;

  • ?Summary()方法中新增內(nèi)存輸出邏輯。

這可以幫助開發(fā)者在分析模型運(yùn)行性能時,即時觀察峰值占用,便于評估MLX引擎的內(nèi)存優(yōu)化效果。

2. MLX運(yùn)行器內(nèi)存修復(fù)與優(yōu)化

MLX runner一系列補(bǔ)丁包括:

  • ? 修復(fù)了在KV緩存命中時引發(fā)panic的問題;

  • ? 報告真實(shí)內(nèi)存使用,而非理論分配值;

  • ? 增加錯誤傳播機(jī)制,通過api.StatusError將pipeline異常上報到客戶端;

  • ? 嚴(yán)格限制模型上下文長度以防越界;

  • ? 優(yōu)化prompt評估計時邏輯,使計時與計數(shù)更精確;

  • ? 引入內(nèi)存峰值復(fù)位APImlx_reset_peak_memory()。

這一系列操作讓MLX在處理大模型時更穩(wěn)定,也為后續(xù)GPU監(jiān)控功能奠定基礎(chǔ)。

三、采樣邏輯重大優(yōu)化:懲罰策略全面引入 1. Sampler機(jī)制的重新設(shè)計

新版sample/samplers.go重新定義了采樣器結(jié)構(gòu)。關(guān)鍵新增:

  • ?presence(存在懲罰)

  • ?frequency(頻率懲罰)

  • ? 改進(jìn)的repeat(重復(fù)懲罰)

  • ?Accept()Reset()機(jī)制保證歷史token采樣狀態(tài)復(fù)位。

這意味著模型在生成文本時,可通過三個維度懲罰控制重復(fù)輸出的概率,使生成結(jié)果更自然、更具多樣性。

2. applyPenalty函數(shù)邏輯改寫

transforms.go引入新的懲罰運(yùn)算邏輯:

  • ? 對于正logit采用除法懲罰;

  • ? 對負(fù)logit采用乘法維持?jǐn)?shù)值穩(wěn)定;

  • ? 頻率懲罰根據(jù)歷史出現(xiàn)次數(shù)線性遞減logit;

  • ? 存在懲罰在再次出現(xiàn)時直接降低得分。

該設(shè)計明顯針對語言模型重復(fù)傾向進(jìn)行了抑制,使其在多輪生成中表現(xiàn)更像人類語言思維鏈條。

3. token歷史統(tǒng)計機(jī)制:DefaultPenaltyLookback = 64

tokenCounts()函數(shù)新增令牌歷史回溯長度為64,這相當(dāng)于模型在采樣時考慮過去64個令牌的統(tǒng)計分布。結(jié)合presence與frequency懲罰,能有效減少循環(huán)性表述問題。

四、Prompt管理與上下文截斷邏輯優(yōu)化 1. Chat與Generate的截斷策略更新

server/routes.goserver/prompt.go修改了Prompt截斷邏輯。新策略:

  • ? 當(dāng)模型類型為MLX(即safetensors格式),將禁用上下文截斷;

  • ? 非MLX模型仍保留truncate機(jī)制,但在計算時精確考慮圖片token數(shù)量。

這可以保證MLX模型不會因?yàn)镻rompt截斷而導(dǎo)致上下文缺失,從而提高多模態(tài)場景下的生成連貫性。

2.IsMLX()方法新增用于判斷模型格式

images.go中新增:

func (m *Model) IsMLX() bool {
return m.Config.ModelFormat == "safetensors"
}

它成為后續(xù)路徑判斷的核心函數(shù),用于區(qū)分MLX模型與傳統(tǒng)GGUF模型,從而決定不同的加載與截斷策略。

五、運(yùn)行器架構(gòu)調(diào)整與內(nèi)存接口重構(gòu) 1. LlamaServer接口重大調(diào)整

原本的接口:

VRAMSize() uint64
TotalSize() uint64

被統(tǒng)一重構(gòu)為:

MemorySize() (total, vram uint64)

這使得每次調(diào)用能同時返回總占用與顯存占用,支持更精準(zhǔn)的GPU監(jiān)控與調(diào)度。

2. 涉及文件范圍

相關(guān)修改貫穿整個系統(tǒng):

  • ?llm/server.go

  • ?server/sched.go

  • ?x/imagegen/server.go

  • ?x/mlxrunner/client.go

  • ?x/mlxrunner/server.go

從圖像生成模型到LLM主分支,接口結(jié)構(gòu)全面統(tǒng)一,為后續(xù)跨引擎集成提供一致的內(nèi)存訪問標(biāo)準(zhǔn)。

六、Qwen3next: 異步與Recurrent層邏輯深度增強(qiáng) 1. InferRecurrentLayers函數(shù)邏輯新增

model/models/qwen3next/model.go加入了推理層循環(huán)判定邏輯:

  • ? 若KV頭數(shù)含零層則判定為Recurrent;

  • ? 若全非零則根據(jù)full_attention_interval推導(dǎo)混合布局;

  • ? 自動兼容舊GGUF模型格式。

這部分邏輯由新單元測試model_new_test.go驗(yàn)證,確?;旌献⒁饬Σ季衷趯?dǎo)入舊模型時仍保持穩(wěn)定。

2. Validate校驗(yàn)增強(qiáng)

model.Validate()全面檢查每層SSM張量是否齊全,包括:

  • ? ssm_dt、ssm_a、ssm_conv1d、ssm_norm、ssm_out 等;

  • ? 若任何缺失,將直接報錯明確指出缺失字段。

這樣在加載過程中可以即時識別模型結(jié)構(gòu)問題,防止DeltaNet等模塊計算時崩潰。

3. deltaNetChunked邏輯優(yōu)化

新增**分塊拼接樹(balanced concat tree)**機(jī)制:

  • ? 避免在長提示詞下連接操作導(dǎo)致內(nèi)存膨脹;

  • ? 通過二叉合并方式顯著優(yōu)化Prompt處理速度;

  • ? 減少部分offload狀態(tài)下的中間張量無緩沖寫入問題。

七、MLX客戶端與管線全面增強(qiáng) 1. 新的 CompletionResponse 結(jié)構(gòu)

客戶端返回內(nèi)容中新增:

  • ?PeakMemory

  • ?EvalDuration

  • ?PromptEvalDuration

結(jié)合服務(wù)器端/v1/status新增內(nèi)存字段,形成完整性能監(jiān)控鏈路。

2. 主動Ping狀態(tài)獲取

client.go里的Ping()方法從/health改為/v1/status,增加返回:

  • ? ContextLength

  • ? Memory

  • ? Progress

讓主調(diào)度器動態(tài)掌握MLX進(jìn)程的上下文與內(nèi)存實(shí)時狀態(tài)。

3. TextGenerationPipeline邏輯增強(qiáng)

新管線流程中:

  • ? 超長Prompt提前拒絕(返回400錯誤);

  • ? 自動計算“生成上限=模型最大上下文長度 - prompt長度”;

  • ? 在生成結(jié)束時實(shí)時統(tǒng)計峰值內(nèi)存;

  • ? 通過CompletionResponse向客戶端報告完整評估計數(shù)、時長與內(nèi)存峰值。

這標(biāo)志著ollama首次形成貫通的Prompt→采樣→內(nèi)存監(jiān)控全鏈閉環(huán)。

八、測試覆蓋:懲罰與Recurrent機(jī)制驗(yàn)證

v0.17.5新增大量測試文件,涵蓋:

  • ?model_validate_test.go:驗(yàn)證層校驗(yàn)邏輯;

  • ?transforms_test.go:驗(yàn)證懲罰公式正確性;

  • ?samplers_test.gobenchmark_test.go:性能和采樣行為穩(wěn)定性;

  • ?model_new_test.go:驗(yàn)證Recurrent層推斷邏輯。

這說明官方團(tuán)隊已將測試覆蓋率擴(kuò)大到生成過程、結(jié)構(gòu)識別、采樣算法和性能基準(zhǔn)四個維度。

九、開發(fā)者可見的參數(shù)默認(rèn)值變更

  • ? repeat_penalty 默認(rèn)值從1.1下調(diào)為1.0

  • ? 新增 presence_penalty、frequency_penalty;

  • ? 在modelfile.mdx中更新參數(shù)表,幫助用戶在自定義模型文件中直接使用新的采樣控制項。

這代表ollama開始將文本生成的可控性參數(shù)化,讓開發(fā)者在不同場景下能輕松平衡“創(chuàng)造性”與“連貫性”。

十、總結(jié):ollama v0.17.5的技術(shù)躍遷意義

代碼地址:github.com/ollama/ollama

從整體來看,ollama v0.17.5不僅僅是一次小版本迭代,更是一次系統(tǒng)層級的性能與穩(wěn)定性重構(gòu)。

所有變化可歸納為三大技術(shù)方向:

  1. 1.模型層級革新:引入Qwen3.5模型、兼容GGUF導(dǎo)入、修復(fù)DeltaNet問題;

  2. 2.采樣系統(tǒng)強(qiáng)化:添加三重懲罰策略、優(yōu)化歷史記憶機(jī)制;

  3. 3.引擎結(jié)構(gòu)統(tǒng)一:內(nèi)存接口標(biāo)準(zhǔn)化、MLX與LlamaRunner架構(gòu)合并、峰值監(jiān)控鏈路貫通。

這套更新讓ollama在未來版本中能夠同時支持更強(qiáng)大的多模態(tài)模型、更精準(zhǔn)的采樣控制以及更穩(wěn)定的跨平臺混合計算結(jié)構(gòu)。

開發(fā)者建議立即升級至v0.17.5,并重新拉取對應(yīng)模型文件以獲得最穩(wěn)定的性能體驗(yàn):

ollama pull qwen3.5:9b

ollama正以這種“工程級精密迭代”的方式不斷向更智能、更穩(wěn)定、更開放的AI推理平臺邁進(jìn)。此次更新,是其從語言生成引擎邁向平臺級分布計算架構(gòu)的重要一步。

我們相信人工智能為普通人提供了一種“增強(qiáng)工具”,并致力于分享全方位的AI知識。在這里,您可以找到最新的AI科普文章、工具評測、提升效率的秘籍以及行業(yè)洞察。 歡迎關(guān)注“福大大架構(gòu)師每日一題”,發(fā)消息可獲得面試資料,讓AI助力您的未來發(fā)展。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
馬斯克修改算法,意外揭開日本真面目,引發(fā)全球網(wǎng)友“抗日”

馬斯克修改算法,意外揭開日本真面目,引發(fā)全球網(wǎng)友“抗日”

青煙小先生
2026-04-08 11:46:25
24歲小伙愛上51歲大媽,大媽性欲高還虐待他,結(jié)果被小伙砍成5段

24歲小伙愛上51歲大媽,大媽性欲高還虐待他,結(jié)果被小伙砍成5段

胖胖侃咖
2024-04-22 08:00:09
2cm小生的勁爆錄音!京圈太子被小花約膩了!

2cm小生的勁爆錄音!京圈太子被小花約膩了!

八卦瘋叔
2026-04-07 11:30:11
兄弟倆名震甲A,退役后靠餐飲發(fā)家,如今財富自由,哥哥身居要職

兄弟倆名震甲A,退役后靠餐飲發(fā)家,如今財富自由,哥哥身居要職

削桐作琴
2026-04-08 16:30:30
華為取消:員工主動離職 N + 1 補(bǔ)償

華為取消:員工主動離職 N + 1 補(bǔ)償

云頭條
2026-04-08 21:33:42
美國警告賴清德當(dāng)局:大陸決定動手那一刻,“臺獨(dú)”只剩一個結(jié)局

美國警告賴清德當(dāng)局:大陸決定動手那一刻,“臺獨(dú)”只剩一個結(jié)局

朝子亥
2026-04-05 13:25:03
沒有哪個男人,能抗拒女人的主動

沒有哪個男人,能抗拒女人的主動

加油丁小文
2026-03-28 10:30:05
基民血虧超30%,自己投資卻賺5000萬!泰康基金桂躍強(qiáng),悄悄在愚人節(jié)離職

基民血虧超30%,自己投資卻賺5000萬!泰康基金桂躍強(qiáng),悄悄在愚人節(jié)離職

南財社V
2026-04-08 20:47:49
曝陳麗華去世不到3小時,“大人物”出面,幾百億遺產(chǎn)早就有規(guī)劃

曝陳麗華去世不到3小時,“大人物”出面,幾百億遺產(chǎn)早就有規(guī)劃

青梅侃史啊
2026-04-08 11:53:27
退休新規(guī):1980年后生的人面臨雙重壓力。

退休新規(guī):1980年后生的人面臨雙重壓力。

歲月有情1314
2026-04-08 08:02:19
黎巴嫩宣布全國哀悼

黎巴嫩宣布全國哀悼

南方都市報
2026-04-09 09:24:03
舞池里的偏愛:為何舞女們都愛找退休大爺跳舞

舞池里的偏愛:為何舞女們都愛找退休大爺跳舞

成都人的故事
2026-04-09 06:59:32
畢業(yè)生破1270萬!2026下半年開始,大部分家庭將直面“4大難題”

畢業(yè)生破1270萬!2026下半年開始,大部分家庭將直面“4大難題”

復(fù)轉(zhuǎn)這些年
2026-04-05 18:00:42
不在群里為全紅嬋說話?陳芋汐遭無妄之災(zāi)!她被網(wǎng)暴時 全妹也無力阻止

不在群里為全紅嬋說話?陳芋汐遭無妄之災(zāi)!她被網(wǎng)暴時 全妹也無力阻止

東方不敗然多多
2026-04-09 07:30:10
日本老人存款8000萬,大吃大喝高消費(fèi)只為"死前財產(chǎn)清零",和孩子因此關(guān)系疏遠(yuǎn),但他并不后悔…

日本老人存款8000萬,大吃大喝高消費(fèi)只為"死前財產(chǎn)清零",和孩子因此關(guān)系疏遠(yuǎn),但他并不后悔…

英國那些事兒
2026-03-21 23:16:20
美高層曾提議:中國可以用1萬多億美債,從美國手中"贖回"臺灣

美高層曾提議:中國可以用1萬多億美債,從美國手中"贖回"臺灣

別讓往昔的悲傷和對未來的恐懼
2026-04-09 00:05:19
全紅嬋報警!282人集體群聊霸凌,陳芋汐卷入漩渦沉默令人寒心

全紅嬋報警!282人集體群聊霸凌,陳芋汐卷入漩渦沉默令人寒心

林大師熱點(diǎn)
2026-04-08 16:38:38
這樣的“規(guī)則”太“霸王” !無法說話,四肢癱瘓,16歲女孩誤購演唱會門票求退票,平臺規(guī)則“概不退票”

這樣的“規(guī)則”太“霸王” !無法說話,四肢癱瘓,16歲女孩誤購演唱會門票求退票,平臺規(guī)則“概不退票”

新民晚報
2026-04-08 12:58:55
10年內(nèi)入獄2次,爆火后“包一晚”40萬,如今的她過得怎么樣?

10年內(nèi)入獄2次,爆火后“包一晚”40萬,如今的她過得怎么樣?

寶哥精彩賽事
2026-04-07 15:43:13
7戰(zhàn)6場被雪藏!火箭7連勝,1人成雞肋?休賽期搭上首輪也要交易他

7戰(zhàn)6場被雪藏!火箭7連勝,1人成雞肋?休賽期搭上首輪也要交易他

熊哥愛籃球
2026-04-09 10:23:37
2026-04-09 10:56:49
moonfdd incentive-icons
moonfdd
福大大架構(gòu)師每日一題
1172文章數(shù) 63關(guān)注度
往期回顧 全部

科技要聞

Meta凌晨首發(fā)閉源大模型 扎克伯格又行了?

頭條要聞

福建45歲女子駕車墜河5人遇難有3名兒童 家屬最新發(fā)聲

頭條要聞

福建45歲女子駕車墜河5人遇難有3名兒童 家屬最新發(fā)聲

體育要聞

40歲,但實(shí)力倒退12年

娛樂要聞

具俊曄最新露面,又黑又瘦情緒低迷

財經(jīng)要聞

談判基礎(chǔ)已被破壞!霍爾木茲海峽關(guān)閉

汽車要聞

8155芯片+L2智駕 瑞虎5運(yùn)動版上市 置換補(bǔ)貼價6.79萬元起

態(tài)度原創(chuàng)

親子
房產(chǎn)
健康
旅游
手機(jī)

親子要聞

如何判斷孩子肚子里有沒有蛔蟲?兒科醫(yī)生來教你

房產(chǎn)要聞

超級卷王登場!??谑讉€抬板四代宅,徹底刷新認(rèn)知!

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

旅游要聞

文旅新探|當(dāng)海棠花遇見小洋樓,天津最美的春天藏在這里

手機(jī)要聞

蘋果要花3年重新定義iPhone!探索無開孔終極形態(tài)

無障礙瀏覽 進(jìn)入關(guān)懷版