国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

北大牽頭:解決大語(yǔ)言模型對(duì)話卡頓問(wèn)題的"雙車道方案"

0
分享至


這項(xiàng)由北京大學(xué)計(jì)算機(jī)科學(xué)學(xué)院牽頭,聯(lián)合清華大學(xué)和DeepSeek-AI公司共同完成的研究,發(fā)表于2026年2月的arXiv預(yù)印本,論文編號(hào)為arXiv:2602.21548v1。有興趣深入了解的讀者可以通過(guò)這個(gè)編號(hào)查詢完整論文。

當(dāng)我們和聊天機(jī)器人進(jìn)行對(duì)話時(shí),特別是那種需要多輪交互的復(fù)雜任務(wù),你有沒(méi)有發(fā)現(xiàn)它有時(shí)會(huì)卡頓很久才給出回應(yīng)?這就像一個(gè)健談的朋友突然變得吞吞吐吐,讓人很不舒服。這個(gè)問(wèn)題背后隱藏著一個(gè)技術(shù)難題,而北京大學(xué)的研究團(tuán)隊(duì)找到了一個(gè)巧妙的解決方案。

現(xiàn)在的AI聊天機(jī)器人已經(jīng)不再是簡(jiǎn)單的一問(wèn)一答工具,它們更像是能夠處理復(fù)雜任務(wù)的智能助手。比如,你讓它幫你寫(xiě)代碼、分析數(shù)據(jù)或者協(xié)助完成項(xiàng)目時(shí),它需要記住之前所有的對(duì)話內(nèi)容,還要能夠調(diào)用各種工具來(lái)完成任務(wù)。這種多輪對(duì)話的模式讓AI變得更加智能,但也帶來(lái)了一個(gè)嚴(yán)重的技術(shù)瓶頸:每次對(duì)話時(shí),AI都需要重新加載之前的所有記憶內(nèi)容,這就像每次見(jiàn)面都要重新自我介紹一樣低效。

在技術(shù)層面,這些"記憶內(nèi)容"被稱為KV緩存,可以把它理解為AI的"筆記本",里面記錄著之前對(duì)話的所有關(guān)鍵信息。隨著對(duì)話輪次增加,這個(gè)筆記本變得越來(lái)越厚,每次翻閱都需要更長(zhǎng)時(shí)間。目前的技術(shù)架構(gòu)就像一條單車道高速公路,所有的數(shù)據(jù)加載都必須走同一條路,當(dāng)交通量增大時(shí)自然就會(huì)擁堵。

這個(gè)問(wèn)題在實(shí)際應(yīng)用中表現(xiàn)得尤為突出。研究團(tuán)隊(duì)收集的數(shù)據(jù)顯示,在典型的智能編程助手場(chǎng)景中,平均每個(gè)對(duì)話包含157輪交互,平均上下文長(zhǎng)度達(dá)到32700個(gè)詞匯,但每輪新增內(nèi)容只有429個(gè)詞匯。這意味著每次處理時(shí),有98.7%的內(nèi)容都是需要從存儲(chǔ)中重新加載的歷史信息,只有1.3%是真正的新內(nèi)容。就好比你每次和朋友聊天時(shí),都要把之前所有聊天記錄重新讀一遍,才能繼續(xù)今天的話題。

一、現(xiàn)有技術(shù)的困境:?jiǎn)诬嚨罁矶聠?wèn)題

為了理解這個(gè)問(wèn)題的嚴(yán)重性,我們可以把現(xiàn)在的AI推理系統(tǒng)想象成一個(gè)大型餐廳的運(yùn)營(yíng)模式。這個(gè)餐廳采用了所謂的"預(yù)制菜+現(xiàn)做菜"的模式:有些廚師專門(mén)負(fù)責(zé)準(zhǔn)備食材和預(yù)制菜(這叫預(yù)填充引擎),有些廚師專門(mén)負(fù)責(zé)最后的烹飪和出菜(這叫解碼引擎)。這種分工本來(lái)是為了提高效率,讓不同類型的工作可以并行進(jìn)行。

在這個(gè)餐廳里,預(yù)制菜廚師需要從倉(cāng)庫(kù)(存儲(chǔ)系統(tǒng))獲取大量食材來(lái)準(zhǔn)備菜品。但是,整個(gè)餐廳只有一條從倉(cāng)庫(kù)到廚房的通道(存儲(chǔ)網(wǎng)絡(luò)帶寬),所有的食材運(yùn)輸都必須走這條路。當(dāng)業(yè)務(wù)繁忙時(shí),預(yù)制菜廚師需要的食材量急劇增加,這條通道很快就被堵得水泄不通。與此同時(shí),負(fù)責(zé)最后烹飪的廚師雖然工作相對(duì)輕松,但他們身邊也有通往倉(cāng)庫(kù)的通道,這些通道卻大部分時(shí)間都閑置著。

這就是目前AI推理系統(tǒng)面臨的核心問(wèn)題。在處理多輪對(duì)話任務(wù)時(shí),預(yù)填充引擎需要從存儲(chǔ)中加載大量的歷史對(duì)話記錄,這些數(shù)據(jù)加載完全依賴單一的存儲(chǔ)網(wǎng)絡(luò)連接。而解碼引擎雖然也配備了同樣的網(wǎng)絡(luò)設(shè)備,但在傳統(tǒng)架構(gòu)下,這些設(shè)備基本處于閑置狀態(tài)。這種資源浪費(fèi)導(dǎo)致了嚴(yán)重的性能瓶頸。

研究團(tuán)隊(duì)通過(guò)深入分析發(fā)現(xiàn),這個(gè)問(wèn)題變得越來(lái)越嚴(yán)重的原因有三個(gè)。首先,智能對(duì)話任務(wù)的特點(diǎn)決定了緩存命中率極高,通常達(dá)到95%以上,這意味著絕大部分工作都是數(shù)據(jù)加載而非計(jì)算。其次,硬件發(fā)展趨勢(shì)并不友好:近年來(lái)GPU的計(jì)算能力增長(zhǎng)了28.8倍,但網(wǎng)絡(luò)帶寬只增長(zhǎng)了2倍,存儲(chǔ)容量增長(zhǎng)了2.4倍,這種不平衡的發(fā)展使得I/O成為越來(lái)越突出的瓶頸。最后,現(xiàn)有架構(gòu)設(shè)計(jì)導(dǎo)致存儲(chǔ)網(wǎng)絡(luò)帶寬利用極不均衡,預(yù)填充側(cè)長(zhǎng)期過(guò)載,而解碼側(cè)大量閑置。

這種現(xiàn)狀就像城市交通規(guī)劃中的常見(jiàn)問(wèn)題:雖然總的道路容量足夠,但由于設(shè)計(jì)不合理,導(dǎo)致某些路段長(zhǎng)期擁堵,而其他路段卻車流稀少。簡(jiǎn)單地增加預(yù)填充引擎的帶寬配置成本高昂,而且在通用集群中往往不現(xiàn)實(shí)。因此,如何充分利用所有引擎的I/O帶寬,而不是讓預(yù)填充引擎獨(dú)自承擔(dān)重負(fù),成為了亟待解決的關(guān)鍵問(wèn)題。

二、雙車道解決方案:DualPath系統(tǒng)架構(gòu)

面對(duì)這個(gè)困境,研究團(tuán)隊(duì)提出了一個(gè)名為DualPath的創(chuàng)新解決方案。這個(gè)方案的核心思想非常直觀:既然解碼引擎的存儲(chǔ)網(wǎng)絡(luò)大部分時(shí)間都閑置著,為什么不讓它們也參與到數(shù)據(jù)加載工作中來(lái)?就像在擁堵的單車道高速公路旁邊新開(kāi)一條輔助車道,讓交通壓力得到緩解。

DualPath系統(tǒng)的工作原理可以用一個(gè)快遞配送的比喻來(lái)解釋。傳統(tǒng)模式下,所有快遞包裹都必須直接從倉(cāng)庫(kù)送到主處理中心(預(yù)填充引擎),就像所有包裹都要走同一條路線。而DualPath系統(tǒng)引入了一個(gè)新的配送策略:部分包裹可以先送到就近的分揀點(diǎn)(解碼引擎),然后通過(guò)高速內(nèi)部運(yùn)輸網(wǎng)絡(luò)(RDMA計(jì)算網(wǎng)絡(luò))快速轉(zhuǎn)送到主處理中心。

這種雙路徑設(shè)計(jì)的巧妙之處在于充分利用了現(xiàn)代AI數(shù)據(jù)中心的網(wǎng)絡(luò)架構(gòu)特點(diǎn)。在這些數(shù)據(jù)中心里,計(jì)算網(wǎng)絡(luò)的帶寬通常遠(yuǎn)大于存儲(chǔ)網(wǎng)絡(luò)的帶寬。每個(gè)節(jié)點(diǎn)通常配備8個(gè)400Gbps的計(jì)算網(wǎng)絡(luò)連接,但只有1個(gè)400Gbps的存儲(chǔ)網(wǎng)絡(luò)連接。傳統(tǒng)架構(gòu)下,只有存儲(chǔ)網(wǎng)絡(luò)被用于數(shù)據(jù)加載,而大量的計(jì)算網(wǎng)絡(luò)帶寬被浪費(fèi)了。DualPath通過(guò)讓部分?jǐn)?shù)據(jù)先加載到解碼引擎,再通過(guò)高速計(jì)算網(wǎng)絡(luò)傳輸?shù)筋A(yù)填充引擎,實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)資源的充分利用。

具體的工作流程是這樣的:當(dāng)系統(tǒng)需要處理一個(gè)新的對(duì)話請(qǐng)求時(shí),調(diào)度器會(huì)根據(jù)當(dāng)前的負(fù)載情況動(dòng)態(tài)決定數(shù)據(jù)加載路徑。如果預(yù)填充引擎的存儲(chǔ)網(wǎng)絡(luò)比較空閑,就采用傳統(tǒng)的直接加載方式;如果預(yù)填充側(cè)負(fù)載較重,就讓部分?jǐn)?shù)據(jù)通過(guò)解碼引擎的存儲(chǔ)網(wǎng)絡(luò)加載,然后通過(guò)計(jì)算網(wǎng)絡(luò)快速傳輸過(guò)來(lái)。這種動(dòng)態(tài)調(diào)度確保了整個(gè)系統(tǒng)的負(fù)載均衡,避免了單點(diǎn)瓶頸。

為了實(shí)現(xiàn)這種雙路徑架構(gòu),研究團(tuán)隊(duì)還需要解決幾個(gè)技術(shù)挑戰(zhàn)。首先是數(shù)據(jù)傳輸?shù)木?xì)化管理。由于采用了逐層處理的方式來(lái)突破顯存限制,數(shù)據(jù)被分解成大量的小塊,需要在存儲(chǔ)、主機(jī)內(nèi)存和GPU顯存之間頻繁傳輸。DualPath采用了一種巧妙的設(shè)計(jì):將這些小塊數(shù)據(jù)的傳輸和計(jì)算過(guò)程重疊進(jìn)行,就像流水線作業(yè)一樣,最大化系統(tǒng)的整體效率。

其次是流量隔離的問(wèn)題。新增的數(shù)據(jù)傳輸路徑可能會(huì)干擾模型推理過(guò)程中的關(guān)鍵通信,就像修路時(shí)可能會(huì)影響正常交通一樣。研究團(tuán)隊(duì)采用了一種稱為"計(jì)算網(wǎng)絡(luò)中心化"的流量管理策略,通過(guò)虛擬通道技術(shù)將不同類型的流量嚴(yán)格分離。所有的模型推理通信都被分配到高優(yōu)先級(jí)通道,享有99%的帶寬保障,而數(shù)據(jù)加載流量則使用低優(yōu)先級(jí)通道,利用剩余的帶寬資源。這樣既不會(huì)影響推理性能,又能充分利用網(wǎng)絡(luò)資源。

三、智能調(diào)度算法:動(dòng)態(tài)平衡的藝術(shù)

僅僅有雙路徑架構(gòu)還不夠,關(guān)鍵在于如何智能地在兩條路徑之間分配任務(wù)。這就像交通管制中心需要根據(jù)實(shí)時(shí)路況來(lái)引導(dǎo)車流選擇最優(yōu)路線一樣。DualPath系統(tǒng)配備了一套復(fù)雜的調(diào)度算法,能夠?qū)崟r(shí)監(jiān)控系統(tǒng)狀態(tài),并做出最優(yōu)的路徑選擇決策。

這個(gè)調(diào)度算法的工作方式可以想象成一個(gè)經(jīng)驗(yàn)豐富的餐廳經(jīng)理。他需要同時(shí)關(guān)注多個(gè)指標(biāo):各個(gè)廚師的工作負(fù)荷、食材庫(kù)存情況、顧客等待時(shí)間,以及廚房設(shè)備的使用狀況?;谶@些信息,他動(dòng)態(tài)地調(diào)整任務(wù)分配,確保整個(gè)餐廳運(yùn)營(yíng)的平衡和高效。

在技術(shù)層面,調(diào)度算法采用了層次化的設(shè)計(jì)。第一層是引擎間調(diào)度,負(fù)責(zé)決定每個(gè)請(qǐng)求應(yīng)該分配給哪個(gè)預(yù)填充引擎和解碼引擎對(duì),以及選擇哪種數(shù)據(jù)加載路徑。算法會(huì)綜合考慮引擎的當(dāng)前負(fù)載、所在節(jié)點(diǎn)的存儲(chǔ)讀取隊(duì)列長(zhǎng)度等因素。如果某個(gè)節(jié)點(diǎn)的存儲(chǔ)網(wǎng)絡(luò)較為空閑,就優(yōu)先使用直接加載路徑;如果預(yù)填充側(cè)普遍繁忙,就更多地采用通過(guò)解碼引擎中轉(zhuǎn)的路徑。

第二層是引擎內(nèi)調(diào)度,主要針對(duì)預(yù)填充引擎的批處理優(yōu)化。由于AI推理中采用了數(shù)據(jù)并行的方式,多個(gè)GPU需要在每個(gè)注意力計(jì)算階段進(jìn)行同步。如果各個(gè)GPU的工作負(fù)載不均衡,就會(huì)出現(xiàn)"木桶效應(yīng)",快的GPU需要等待慢的GPU完成。因此,調(diào)度算法會(huì)預(yù)估每個(gè)請(qǐng)求的計(jì)算時(shí)間,通過(guò)精細(xì)的批次組合來(lái)最小化這種等待時(shí)間。

這種調(diào)度策略的巧妙之處在于它能夠同時(shí)平衡多個(gè)維度的資源利用:GPU計(jì)算資源、存儲(chǔ)網(wǎng)絡(luò)帶寬、計(jì)算網(wǎng)絡(luò)帶寬,以及主機(jī)內(nèi)存。傳統(tǒng)系統(tǒng)往往只關(guān)注單一資源的優(yōu)化,而DualPath通過(guò)全局視角的資源協(xié)調(diào),實(shí)現(xiàn)了系統(tǒng)整體性能的最大化。

調(diào)度算法還具備自適應(yīng)能力。它會(huì)持續(xù)監(jiān)控系統(tǒng)的運(yùn)行狀態(tài),并根據(jù)工作負(fù)載的變化動(dòng)態(tài)調(diào)整調(diào)度策略。比如,在系統(tǒng)啟動(dòng)初期,預(yù)填充引擎的負(fù)載較重,算法會(huì)更多地使用雙路徑加載;隨著時(shí)間推移,當(dāng)更多請(qǐng)求進(jìn)入解碼階段時(shí),預(yù)填充壓力減輕,算法會(huì)相應(yīng)調(diào)整路徑選擇的比例。這種自適應(yīng)機(jī)制確保了系統(tǒng)在不同負(fù)載模式下都能保持最優(yōu)性能。

四、突破性能測(cè)試:顯著的效果驗(yàn)證

為了驗(yàn)證DualPath系統(tǒng)的實(shí)際效果,研究團(tuán)隊(duì)進(jìn)行了大規(guī)模的性能測(cè)試。測(cè)試環(huán)境采用了工業(yè)級(jí)的GPU集群,每個(gè)節(jié)點(diǎn)配備8個(gè)NVIDIA Hopper GPU,通過(guò)InfiniBand網(wǎng)絡(luò)互聯(lián),存儲(chǔ)系統(tǒng)采用分布式設(shè)計(jì)。測(cè)試數(shù)據(jù)來(lái)源于真實(shí)的智能編程助手場(chǎng)景,包含了500個(gè)不同長(zhǎng)度的對(duì)話軌跡,最長(zhǎng)的對(duì)話包含157輪交互。

測(cè)試結(jié)果令人印象深刻。在離線批處理場(chǎng)景中,DualPath相比傳統(tǒng)方案實(shí)現(xiàn)了高達(dá)1.87倍的性能提升。這相當(dāng)于原來(lái)需要3個(gè)小時(shí)完成的任務(wù),現(xiàn)在只需要1個(gè)半小時(shí)就能搞定。更重要的是,這種性能提升是在不增加任何硬件成本的前提下實(shí)現(xiàn)的,純粹通過(guò)更智能的資源利用策略獲得。

在在線服務(wù)場(chǎng)景中,性能提升同樣顯著。研究團(tuán)隊(duì)測(cè)試了系統(tǒng)在不同用戶訪問(wèn)頻率下的表現(xiàn),發(fā)現(xiàn)DualPath能夠支持1.96倍的并發(fā)用戶數(shù),同時(shí)保持相同的響應(yīng)質(zhì)量。這意味著原來(lái)只能同時(shí)服務(wù)100個(gè)用戶的系統(tǒng),現(xiàn)在可以同時(shí)為196個(gè)用戶提供流暢的對(duì)話體驗(yàn)。

特別值得注意的是,DualPath的性能提升在長(zhǎng)對(duì)話場(chǎng)景中表現(xiàn)得更加突出。當(dāng)對(duì)話長(zhǎng)度從32K增加到64K時(shí),傳統(tǒng)系統(tǒng)的性能急劇下降,而DualPath系統(tǒng)依然能夠保持穩(wěn)定的高性能。這正好驗(yàn)證了該方案針對(duì)多輪對(duì)話場(chǎng)景的設(shè)計(jì)目標(biāo)。

為了證明性能提升的根本原因,研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的性能分析。結(jié)果顯示,DualPath成功地將存儲(chǔ)網(wǎng)絡(luò)的利用率從嚴(yán)重不均衡狀態(tài)改善為接近均勻分布。原來(lái)只有預(yù)填充引擎的存儲(chǔ)網(wǎng)絡(luò)接近100%利用率,而解碼引擎的存儲(chǔ)網(wǎng)絡(luò)基本閑置;改進(jìn)后,所有節(jié)點(diǎn)的存儲(chǔ)網(wǎng)絡(luò)利用率都維持在合理水平,消除了系統(tǒng)瓶頸。

研究團(tuán)隊(duì)還進(jìn)行了大規(guī)模的擴(kuò)展性測(cè)試,使用了多達(dá)1152個(gè)GPU來(lái)驗(yàn)證系統(tǒng)在產(chǎn)業(yè)級(jí)部署中的表現(xiàn)。結(jié)果表明,從小規(guī)模擴(kuò)展到大規(guī)模時(shí),系統(tǒng)保持了近乎線性的性能擴(kuò)展,這證明了DualPath架構(gòu)的良好可擴(kuò)展性。

五、技術(shù)創(chuàng)新的深層意義

DualPath系統(tǒng)的成功不僅僅是一個(gè)工程優(yōu)化的勝利,更代表了AI系統(tǒng)設(shè)計(jì)思路的重要轉(zhuǎn)變。傳統(tǒng)的系統(tǒng)設(shè)計(jì)往往采用"功能導(dǎo)向"的方式,不同組件負(fù)責(zé)不同功能,彼此相對(duì)獨(dú)立。而DualPath體現(xiàn)的是"資源導(dǎo)向"的設(shè)計(jì)理念,即根據(jù)資源的實(shí)際利用情況來(lái)動(dòng)態(tài)調(diào)整系統(tǒng)行為。

這種設(shè)計(jì)理念的轉(zhuǎn)變具有重要的啟發(fā)意義。在AI系統(tǒng)日趨復(fù)雜的今天,單純?cè)黾佑布Y源往往不是最經(jīng)濟(jì)的解決方案。通過(guò)更智能的資源調(diào)度和利用策略,可以在現(xiàn)有硬件基礎(chǔ)上挖掘出更大的性能潛力。這對(duì)于降低AI服務(wù)的成本,促進(jìn)AI技術(shù)的普及具有重要意義。

從技術(shù)發(fā)展的角度看,DualPath所采用的動(dòng)態(tài)負(fù)載均衡策略也為其他AI系統(tǒng)優(yōu)化提供了參考?,F(xiàn)在的AI訓(xùn)練和推理系統(tǒng)中存在許多類似的資源利用不均衡問(wèn)題,都可能通過(guò)類似的思路得到改善。比如,在模型訓(xùn)練中的數(shù)據(jù)加載、梯度同步等環(huán)節(jié),都存在優(yōu)化空間。

此外,DualPath系統(tǒng)還展示了現(xiàn)代AI基礎(chǔ)設(shè)施設(shè)計(jì)的一個(gè)重要趨勢(shì):軟硬件協(xié)同優(yōu)化。該系統(tǒng)充分利用了現(xiàn)代數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的特點(diǎn),通過(guò)軟件層面的智能調(diào)度來(lái)最大化硬件資源的利用效率。這種協(xié)同設(shè)計(jì)的方法將成為未來(lái)AI系統(tǒng)發(fā)展的重要方向。

值得注意的是,這項(xiàng)研究還揭示了AI應(yīng)用模式變化對(duì)系統(tǒng)設(shè)計(jì)的深遠(yuǎn)影響。隨著AI從簡(jiǎn)單的問(wèn)答工具發(fā)展為能夠處理復(fù)雜任務(wù)的智能助手,系統(tǒng)的工作負(fù)載模式發(fā)生了根本性變化。傳統(tǒng)的系統(tǒng)設(shè)計(jì)假設(shè)可能不再適用,需要重新審視和優(yōu)化。DualPath正是在這種背景下產(chǎn)生的創(chuàng)新解決方案。

這項(xiàng)研究的成果已經(jīng)在實(shí)際生產(chǎn)環(huán)境中得到驗(yàn)證,顯示出良好的實(shí)用性和穩(wěn)定性。研究團(tuán)隊(duì)表示,相關(guān)技術(shù)將逐步開(kāi)源,為整個(gè)AI社區(qū)提供參考和借鑒。這種開(kāi)放的研究態(tài)度有助于推動(dòng)整個(gè)行業(yè)的技術(shù)進(jìn)步。

說(shuō)到底,DualPath系統(tǒng)解決的不僅僅是一個(gè)技術(shù)問(wèn)題,更是AI服務(wù)質(zhì)量和成本效益的實(shí)際問(wèn)題。在AI技術(shù)日益普及的今天,如何讓更多人能夠享受到流暢、高效的AI服務(wù),是一個(gè)具有重要社會(huì)意義的課題。這項(xiàng)研究為這個(gè)目標(biāo)的實(shí)現(xiàn)提供了有價(jià)值的技術(shù)支撐。

隨著多輪對(duì)話AI應(yīng)用的不斷增長(zhǎng),類似的系統(tǒng)優(yōu)化將變得越來(lái)越重要。DualPath所展示的創(chuàng)新思路和技術(shù)方案,為構(gòu)建下一代高效AI服務(wù)系統(tǒng)奠定了重要基礎(chǔ)。對(duì)于普通用戶來(lái)說(shuō),這意味著未來(lái)的AI助手將變得更加響應(yīng)迅速,能夠更好地理解和處理復(fù)雜的多輪對(duì)話任務(wù),為我們的工作和生活帶來(lái)更大的便利。

Q&A

Q1:DualPath系統(tǒng)的雙車道是什么意思?

A:DualPath的"雙車道"是指兩種不同的數(shù)據(jù)加載路徑。傳統(tǒng)方式是所有數(shù)據(jù)都直接從存儲(chǔ)加載到預(yù)填充引擎,就像單車道高速公路。DualPath新增了一條路徑,讓數(shù)據(jù)先加載到解碼引擎,再通過(guò)高速計(jì)算網(wǎng)絡(luò)傳輸?shù)筋A(yù)填充引擎,就像增加了一條輔助車道來(lái)緩解交通擁堵。

Q2:為什么AI對(duì)話會(huì)出現(xiàn)卡頓問(wèn)題?

A:主要原因是AI需要重復(fù)加載大量歷史對(duì)話記錄。在多輪對(duì)話中,AI要記住之前所有內(nèi)容才能繼續(xù)對(duì)話,這些"記憶"數(shù)據(jù)量很大?,F(xiàn)有系統(tǒng)就像只有一條路運(yùn)輸這些數(shù)據(jù),當(dāng)對(duì)話輪次增多時(shí)就會(huì)擁堵,導(dǎo)致響應(yīng)變慢。研究顯示在典型場(chǎng)景中,98.7%的內(nèi)容都是需要重新加載的歷史信息。

Q3:DualPath系統(tǒng)能帶來(lái)多大的性能提升?

A:測(cè)試結(jié)果顯示,DualPath在離線處理中能實(shí)現(xiàn)最高1.87倍的性能提升,在線服務(wù)中平均能支持1.96倍的并發(fā)用戶數(shù)。這意味著原來(lái)需要3小時(shí)的任務(wù)現(xiàn)在1.5小時(shí)就能完成,原來(lái)只能服務(wù)100個(gè)用戶的系統(tǒng)現(xiàn)在可以同時(shí)為196個(gè)用戶提供服務(wù),而且不需要增加任何硬件成本。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
59歲葉子楣高調(diào)現(xiàn)身商場(chǎng),黃發(fā)綠裙吸睛,身材瘦得比例失衡

59歲葉子楣高調(diào)現(xiàn)身商場(chǎng),黃發(fā)綠裙吸睛,身材瘦得比例失衡

科學(xué)發(fā)掘
2026-02-28 01:07:25
俄軍已經(jīng)動(dòng)了,中國(guó)幫不幫伊朗?中方三句話,沒(méi)一句是美國(guó)想聽(tīng)

俄軍已經(jīng)動(dòng)了,中國(guó)幫不幫伊朗?中方三句話,沒(méi)一句是美國(guó)想聽(tīng)

欽點(diǎn)歷史
2026-02-27 17:33:36
馬筱梅被質(zhì)疑代孕,資深博主爆料懷孕諸多疑點(diǎn),本人曾多次去美國(guó)

馬筱梅被質(zhì)疑代孕,資深博主爆料懷孕諸多疑點(diǎn),本人曾多次去美國(guó)

古希臘掌管月桂的神
2026-02-28 15:00:19
陳幸同意難平,不僅因?yàn)?:4慘敗陳熠,更多在于以下這四點(diǎn):

陳幸同意難平,不僅因?yàn)?:4慘敗陳熠,更多在于以下這四點(diǎn):

林子說(shuō)事
2026-02-28 19:37:05
可打美航母!英媒:中國(guó)或違反聯(lián)合國(guó)規(guī)定,運(yùn)超高音速導(dǎo)彈去伊朗

可打美航母!英媒:中國(guó)或違反聯(lián)合國(guó)規(guī)定,運(yùn)超高音速導(dǎo)彈去伊朗

肖茲探秘說(shuō)
2026-02-26 19:27:01
全身而退!北京一家5口完美套現(xiàn)24億,臨走前又坑了甘肅國(guó)資一把

全身而退!北京一家5口完美套現(xiàn)24億,臨走前又坑了甘肅國(guó)資一把

文史旺旺旺
2025-12-27 18:22:03
【李國(guó)豪】南京長(zhǎng)江大橋設(shè)計(jì)時(shí),他主張6車道,當(dāng)?shù)卣畧?jiān)持4車道

【李國(guó)豪】南京長(zhǎng)江大橋設(shè)計(jì)時(shí),他主張6車道,當(dāng)?shù)卣畧?jiān)持4車道

年之父
2026-02-23 09:10:06
1秒3億、單日突破10億!老鋪黃金創(chuàng)下天貓大促最快銷售紀(jì)錄

1秒3億、單日突破10億!老鋪黃金創(chuàng)下天貓大促最快銷售紀(jì)錄

財(cái)聞
2026-02-27 15:05:28
15年前,那個(gè)當(dāng)著全世界喝下核污染水的日本官員,如今還活著嗎?

15年前,那個(gè)當(dāng)著全世界喝下核污染水的日本官員,如今還活著嗎?

墨蘭史書(shū)
2026-02-09 23:08:35
VIVO從印度成功轉(zhuǎn)走7000億?大批外資企業(yè)撤離,莫迪已嘗到苦果?

VIVO從印度成功轉(zhuǎn)走7000億?大批外資企業(yè)撤離,莫迪已嘗到苦果?

顧史
2026-02-23 23:29:51
吏部尚書(shū)、兵部尚書(shū)、戶部尚書(shū),三者相比,誰(shuí)在實(shí)權(quán)上更勝一籌?

吏部尚書(shū)、兵部尚書(shū)、戶部尚書(shū),三者相比,誰(shuí)在實(shí)權(quán)上更勝一籌?

掠影后有感
2026-02-26 11:28:52
正式道歉!國(guó)際籃聯(lián)認(rèn)錯(cuò),縱容裁判吹黑哨,日媒承認(rèn)吹罰不公正!

正式道歉!國(guó)際籃聯(lián)認(rèn)錯(cuò),縱容裁判吹黑哨,日媒承認(rèn)吹罰不公正!

不期而遇的緣分
2026-02-28 13:28:37
伊朗一小學(xué)遭以色列導(dǎo)彈襲擊,已致40人死亡!俄外交部:美以襲擊伊朗是侵略行為!歐盟發(fā)聲

伊朗一小學(xué)遭以色列導(dǎo)彈襲擊,已致40人死亡!俄外交部:美以襲擊伊朗是侵略行為!歐盟發(fā)聲

每日經(jīng)濟(jì)新聞
2026-02-28 20:30:21
最新任免!金華新任命市政府秘書(shū)長(zhǎng)!

最新任免!金華新任命市政府秘書(shū)長(zhǎng)!

浙中在線
2026-02-28 20:04:13
中國(guó)數(shù)學(xué)會(huì)發(fā)布聲明

中國(guó)數(shù)學(xué)會(huì)發(fā)布聲明

環(huán)球網(wǎng)資訊
2026-02-27 21:05:02
小托馬斯:當(dāng)一切結(jié)束時(shí),杜蘭特會(huì)是歷史得分榜第二

小托馬斯:當(dāng)一切結(jié)束時(shí),杜蘭特會(huì)是歷史得分榜第二

林子說(shuō)事
2026-02-28 15:27:13
看懂抗美援朝,也就懂了伊朗總統(tǒng)萊希死后,中國(guó)為啥在臺(tái)海掀桌子

看懂抗美援朝,也就懂了伊朗總統(tǒng)萊希死后,中國(guó)為啥在臺(tái)海掀桌子

聽(tīng)風(fēng)行江湖
2026-01-03 03:50:34
11:6碾壓老對(duì)手!孫穎莎強(qiáng)勢(shì)晉級(jí)在望,早田希娜難破心魔

11:6碾壓老對(duì)手!孫穎莎強(qiáng)勢(shì)晉級(jí)在望,早田希娜難破心魔

阿晞體育
2026-02-28 20:49:11
中國(guó)隊(duì)逆轉(zhuǎn)次日,“日本主場(chǎng)哨”登熱搜,外國(guó)球迷質(zhì)疑裁判

中國(guó)隊(duì)逆轉(zhuǎn)次日,“日本主場(chǎng)哨”登熱搜,外國(guó)球迷質(zhì)疑裁判

小徐講八卦
2026-02-28 04:59:15
日本男籃戰(zhàn)韓國(guó)12人名單:霍金森正式回歸 佐土原遼替換渡邊飛勇

日本男籃戰(zhàn)韓國(guó)12人名單:霍金森正式回歸 佐土原遼替換渡邊飛勇

狼叔評(píng)論
2026-02-28 17:34:11
2026-02-28 21:23:00
至頂AI實(shí)驗(yàn)室 incentive-icons
至頂AI實(shí)驗(yàn)室
一個(gè)專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實(shí)驗(yàn)室。
1958文章數(shù) 162關(guān)注度
往期回顧 全部

科技要聞

狂攬1100億美元!OpenAI再創(chuàng)融資神話

頭條要聞

最高領(lǐng)袖辦公室附近遭襲 媒體:伊朗領(lǐng)導(dǎo)體系仍具韌性

頭條要聞

最高領(lǐng)袖辦公室附近遭襲 媒體:伊朗領(lǐng)導(dǎo)體系仍具韌性

體育要聞

球隊(duì)主力全報(bào)銷?頂風(fēng)擺爛演都不演了

娛樂(lè)要聞

疑似王一博被爆私密聊天記錄

財(cái)經(jīng)要聞

沈明高提共富建議 百姓持科技股國(guó)家兜底

汽車要聞

嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

態(tài)度原創(chuàng)

本地
教育
親子
藝術(shù)
公開(kāi)課

本地新聞

津南好·四時(shí)總相宜

教育要聞

成都中學(xué)生跳上春晚,幕后還有這些故事

親子要聞

萌娃堅(jiān)稱自己最可愛(ài),給出的理由讓人哭笑不得

藝術(shù)要聞

就是這個(gè)畫(huà)風(fēng),美的我有點(diǎn)兒接受不了!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版