国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Yellow.ai團(tuán)隊(duì)找到了一種讓AI知識(shí)庫(kù)建設(shè)成本降低一半的新方法

0
分享至


這篇由Yellow.ai人工智能研究團(tuán)隊(duì)完成的論文發(fā)表于2026年4月,論文編號(hào)為arXiv:2604.04936v1,分類在計(jì)算機(jī)科學(xué)信息檢索領(lǐng)域(cs.IR)。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過(guò)該編號(hào)在arXiv平臺(tái)查閱完整論文。

一、一個(gè)你每天都在用卻不知道的技術(shù)難題

每當(dāng)你向企業(yè)客服機(jī)器人提問(wèn),或者使用某款A(yù)I助手查詢公司內(nèi)部資料時(shí),背后都有一套叫做"檢索增強(qiáng)生成"(RAG)的系統(tǒng)在運(yùn)轉(zhuǎn)。簡(jiǎn)單來(lái)說(shuō),這套系統(tǒng)的工作原理就像一個(gè)超級(jí)勤快的圖書館員:當(dāng)你提問(wèn)時(shí),它先跑去書架上找到相關(guān)資料,再把資料交給AI來(lái)回答你的問(wèn)題。

但問(wèn)題來(lái)了——這個(gè)圖書館員在整理書架時(shí)有個(gè)頭疼的工序,叫做"文檔切塊"。顧名思義,就是把一篇長(zhǎng)文章切成若干小段落,每段分別貼上標(biāo)簽存好,方便日后快速檢索。這個(gè)工序聽起來(lái)簡(jiǎn)單,做起來(lái)卻大有講究。

以一本汽車維修手冊(cè)為例,里面有"更換輪胎的詳細(xì)步驟"這一節(jié),一共八個(gè)步驟。如果切塊時(shí)恰好把第三步和第四步切開,放進(jìn)了兩個(gè)不同的小段落,那當(dāng)有人問(wèn)"怎么換輪胎"時(shí),AI可能只找到前三步,給出的答案自然是殘缺的。反之,如果把不相干的內(nèi)容——比如"輪胎品牌推薦"和"雨天駕駛技巧"——錯(cuò)誤地拼進(jìn)同一個(gè)段落,AI找到的內(nèi)容就會(huì)像一盤雜菜,答非所問(wèn)。

Yellow.ai的研究團(tuán)隊(duì)正是盯上了這個(gè)問(wèn)題,提出了一套名為"面向網(wǎng)頁(yè)檢索的感知切塊方案",英文縮寫W-RAC。他們的核心思路頗具新意:與其讓AI大模型去讀完整篇文章再重新寫出切好的段落,不如只給它看文章的"目錄骨架",讓它告訴我們?cè)摪涯男┱鹿?jié)編號(hào)歸并在一起——至于文字本身,原封不動(dòng)搬過(guò)去就行。這就像請(qǐng)一位編輯來(lái)整理書稿,你不需要讓他把整本書重新打一遍,只需要他告訴你"第三章和第四章內(nèi)容連貫,應(yīng)該放在同一個(gè)章節(jié)包里"就夠了。

二、現(xiàn)有方法為什么令人頭疼

在W-RAC出現(xiàn)之前,業(yè)界主要有三種切塊方式,各自都有難以回避的缺陷。

最古老的一種叫"固定大小切塊",邏輯非常粗暴——每隔500個(gè)字符或者300個(gè)詞就切一刀,不管這一刀是切在句子中間還是段落邊界。這就像用尺子切蛋糕,不管蛋糕上的花紋圖案,每隔五厘米切一刀,結(jié)果往往把一朵完整的奶油玫瑰從正中間切開。這種方法實(shí)現(xiàn)簡(jiǎn)單、成本極低,但對(duì)檢索質(zhì)量的傷害顯而易見:語(yǔ)義上緊密相關(guān)的內(nèi)容被強(qiáng)行分開,毫不相干的內(nèi)容卻可能湊到了一起。

第二種叫"基于規(guī)則的結(jié)構(gòu)化切塊",稍微聰明一些。它會(huì)識(shí)別文檔中的標(biāo)題、段落標(biāo)簽、HTML標(biāo)簽等結(jié)構(gòu)信號(hào),沿著這些自然邊界來(lái)切割?;氐降案獾谋扔鳎@次是沿著蛋糕的分層切,至少不會(huì)把一層蛋糕胚切成兩半了。然而現(xiàn)實(shí)中的網(wǎng)頁(yè)內(nèi)容五花八門,有些頁(yè)面結(jié)構(gòu)規(guī)整,有些則一團(tuán)混亂,規(guī)則往往跟不上內(nèi)容密度和排列方式的千變?nèi)f化,面對(duì)復(fù)雜內(nèi)容時(shí)依然力不從心。

第三種是最先進(jìn)也最昂貴的"智能體切塊",直接把整篇文章原文喂給大語(yǔ)言模型,讓它理解內(nèi)容之后重新生成一批語(yǔ)義連貫的小段落。這就像請(qǐng)一位真正的編輯從頭到尾讀完整本書,然后用自己的話把精華提煉出來(lái)重寫一遍。效果固然好,但代價(jià)也是最高的——不僅需要消耗大量AI處理費(fèi)用(因?yàn)榧纫x入大量文字,又要生成大量輸出文字),處理速度慢,還有一個(gè)潛在的風(fēng)險(xiǎn):AI在"重寫"時(shí)可能會(huì)悄悄修改原文,產(chǎn)生所謂的"幻覺(jué)",把原文中沒(méi)有的內(nèi)容編進(jìn)去,或者把原文的意思稍微扭曲了。對(duì)于企業(yè)知識(shí)庫(kù)而言,這種信息失真是絕對(duì)不能接受的。

更要命的是,對(duì)于需要持續(xù)大批量爬取、處理網(wǎng)頁(yè)內(nèi)容的系統(tǒng)來(lái)說(shuō),智能體切塊的成本會(huì)隨著文檔數(shù)量線性增長(zhǎng),擴(kuò)展性極差。研究團(tuán)隊(duì)在論文中用一句話概括了這三種方法的共同問(wèn)題:它們都沒(méi)有把"切塊"本身理解為一個(gè)規(guī)劃問(wèn)題,而是把它當(dāng)成了一個(gè)內(nèi)容生成問(wèn)題。

三、W-RAC的核心設(shè)計(jì):只讓AI做它最擅長(zhǎng)的事

W-RAC的設(shè)計(jì)哲學(xué)建立在一個(gè)簡(jiǎn)單卻深刻的區(qū)分之上:文字提取是確定性的機(jī)器活,而語(yǔ)義分組是需要理解力的智慧活。前者應(yīng)該交給程序確定性地完成,后者才值得請(qǐng)大語(yǔ)言模型出馬——但只需要它做規(guī)劃,不需要它做寫作。

整個(gè)W-RAC流程分為三個(gè)清晰的階段,就像一條流水線上的三個(gè)工位。

第一個(gè)工位叫"確定性網(wǎng)頁(yè)解析"。系統(tǒng)把網(wǎng)頁(yè)內(nèi)容從HTML格式轉(zhuǎn)換成結(jié)構(gòu)化的文本表示(經(jīng)過(guò)Markdown這個(gè)中間格式,再進(jìn)一步整理成抽象語(yǔ)法樹結(jié)構(gòu)),然后給每一個(gè)語(yǔ)義單元——每一個(gè)標(biāo)題、每一個(gè)段落——貼上一個(gè)唯一的編號(hào)標(biāo)簽。輸出的結(jié)果不是文字,而是一個(gè)類似這樣的結(jié)構(gòu)化清單:每個(gè)條目包含編號(hào)、文字內(nèi)容、所在行數(shù)、以及它的父級(jí)標(biāo)題是誰(shuí)。此時(shí)文章的完整原文已經(jīng)被安全保存,就像圖書館里一本本完好的原書,等候后續(xù)調(diào)取。

第二個(gè)工位才是大語(yǔ)言模型登場(chǎng)的時(shí)刻,但它收到的任務(wù)單和傳統(tǒng)方式截然不同。系統(tǒng)不把文章原文發(fā)給它,只把那份"骨架清單"發(fā)過(guò)去——也就是各個(gè)段落的編號(hào)、標(biāo)題層級(jí)關(guān)系、父子關(guān)系,以及可選的詞數(shù)統(tǒng)計(jì)等元數(shù)據(jù)。大語(yǔ)言模型讀完這份骨架之后,輸出的也不是文字,而是一份"分組方案":比如"編號(hào)1、2、3、4的段落應(yīng)該歸為一組,編號(hào)1、5、6應(yīng)該歸為另一組"。這份方案用JSON格式表達(dá),里面只有編號(hào),沒(méi)有任何文字內(nèi)容。這就像請(qǐng)一位圖書館員不看書的內(nèi)容,只看書名和章節(jié)目錄,然后告訴你哪幾章應(yīng)該被裝進(jìn)同一個(gè)檢索包里。

第三個(gè)工位是"后處理與索引"。系統(tǒng)按照第二步給出的分組方案,從第一步保存的原始文本庫(kù)里把對(duì)應(yīng)的段落原文取出來(lái)拼合,形成最終的切塊結(jié)果,然后生成向量嵌入并存入檢索數(shù)據(jù)庫(kù)。整個(gè)過(guò)程中,原始文字從未被AI模型處理或改寫,零幻覺(jué)風(fēng)險(xiǎn)。

研究團(tuán)隊(duì)在設(shè)計(jì)W-RAC時(shí)還給系統(tǒng)制定了五條核心原則,這五條原則貫穿始終。第一,絕不重新生成文本,原文原封不動(dòng)保留。第二,切塊要服務(wù)于檢索,而不是服務(wù)于閱讀體驗(yàn),最終目的是讓檢索時(shí)能找到最相關(guān)的段落。第三,最小化AI調(diào)用成本和token消耗。第四,系統(tǒng)行為必須可預(yù)測(cè)、可調(diào)試,每次對(duì)同一份文檔處理的結(jié)果應(yīng)該相同。第五,專門為網(wǎng)頁(yè)內(nèi)容設(shè)計(jì),充分利用網(wǎng)頁(yè)文檔天然的層級(jí)結(jié)構(gòu)。

四、切塊也要"懂查詢":什么叫檢索感知

W-RAC名字里的"檢索感知"四個(gè)字,值得單獨(dú)解釋一下,因?yàn)檫@是區(qū)別它與其他方案的靈魂所在。

絕大多數(shù)傳統(tǒng)切塊方案考慮的問(wèn)題是"這段文字怎么讀起來(lái)完整",而W-RAC考慮的是"當(dāng)用戶提問(wèn)時(shí),哪些內(nèi)容應(yīng)該被一起找到"。這兩個(gè)問(wèn)題的答案有時(shí)相同,有時(shí)卻大相徑庭。

舉個(gè)具體例子:一篇銀行貸款說(shuō)明頁(yè)面,主標(biāo)題是"個(gè)人信貸產(chǎn)品",下面有一個(gè)二級(jí)標(biāo)題"申請(qǐng)條件",再下面有三級(jí)標(biāo)題"收入要求"和"年齡限制"。從閱讀體驗(yàn)來(lái)看,"收入要求"和"年齡限制"是平行的兩個(gè)小節(jié),完全可以分成兩塊。但從檢索角度來(lái)看,當(dāng)用戶問(wèn)"我能申請(qǐng)貸款嗎",他需要同時(shí)了解收入和年齡兩方面的條件,這兩塊應(yīng)該放在一起。W-RAC的切塊方案就會(huì)把這兩個(gè)小節(jié)合并處理。

為了實(shí)現(xiàn)這種檢索感知,W-RAC在進(jìn)行切塊規(guī)劃時(shí)會(huì)綜合考慮多個(gè)維度的信息。標(biāo)題的層級(jí)深度和章節(jié)的隸屬關(guān)系是最基礎(chǔ)的考量,因?yàn)橥粋€(gè)父標(biāo)題下的內(nèi)容往往需要配合閱讀。內(nèi)容的詞數(shù)和長(zhǎng)度也是重要參數(shù),避免單個(gè)切塊過(guò)長(zhǎng)導(dǎo)致檢索時(shí)噪音過(guò)多,或者過(guò)短導(dǎo)致信息不完整。此外,系統(tǒng)還會(huì)區(qū)分不同類型的內(nèi)容——比如表格數(shù)據(jù)和說(shuō)明性段落就應(yīng)該采用不同的切塊策略,步驟性的操作指南則無(wú)論如何都必須保持完整,絕不能從中間截?cái)唷?/p>

這些規(guī)則都被編碼進(jìn)了發(fā)給大語(yǔ)言模型的提示詞里,讓它在規(guī)劃分組方案時(shí)自動(dòng)遵循。值得一提的是,研究團(tuán)隊(duì)在論文附錄中公開了完整的提示詞內(nèi)容,這為后來(lái)者復(fù)現(xiàn)或改進(jìn)這套方案提供了極大的便利。

五、用真實(shí)數(shù)據(jù)檢驗(yàn):成本和質(zhì)量各有幾分

光說(shuō)原理不夠,研究團(tuán)隊(duì)用一個(gè)專門構(gòu)建的測(cè)試集來(lái)檢驗(yàn)W-RAC的實(shí)際表現(xiàn)。這個(gè)測(cè)試集名為RAG-Multi-Corpus,包含來(lái)自五個(gè)虛構(gòu)企業(yè)的236份文檔,文檔格式涵蓋PDF、Markdown、HTML、Word文檔和PowerPoint演示文稿,模擬真實(shí)企業(yè)知識(shí)庫(kù)的多樣性。在這236份文檔之上,研究團(tuán)隊(duì)精心設(shè)計(jì)了786個(gè)問(wèn)答對(duì),每個(gè)問(wèn)題都有明確的參考答案和答案來(lái)源文檔。

這五個(gè)虛構(gòu)企業(yè)分別屬于汽車、教育、企業(yè)科技和銀行金融四個(gè)行業(yè),涵蓋了從產(chǎn)品說(shuō)明到政策規(guī)定、從操作流程到財(cái)務(wù)報(bào)告的各類文檔。786個(gè)問(wèn)題按照類型分成七大類:描述性問(wèn)題(比如"XX產(chǎn)品的功能是什么")、分析性問(wèn)題(需要推理和解讀)、比較性問(wèn)題("A方案和B方案有什么區(qū)別")、是非判斷題、時(shí)間序列問(wèn)題、步驟性操作問(wèn)題("如何完成XX流程"),以及需要跨文檔綜合的開放性問(wèn)題。這種分類設(shè)計(jì)確保了評(píng)測(cè)覆蓋了檢索場(chǎng)景的各種難度梯度。

所有實(shí)驗(yàn)都在GPT-4.1大語(yǔ)言模型上運(yùn)行,同一套基礎(chǔ)設(shè)施,同一批文檔,唯一的變量是切塊方式——一批用傳統(tǒng)的智能體切塊,一批用W-RAC。

**成本方面的結(jié)果令人印象深刻。**整個(gè)236份文檔的處理流程,傳統(tǒng)智能體切塊共花費(fèi)了3.64美元,W-RAC只花了1.75美元,降幅達(dá)到51.7%,節(jié)省了約1.89美元。這個(gè)數(shù)字乍看不大,但按比例來(lái)算意義重大——如果一家企業(yè)每天要處理數(shù)千份新網(wǎng)頁(yè),一年節(jié)省的費(fèi)用就相當(dāng)可觀了。

拆開來(lái)看,成本節(jié)省的來(lái)源非常清晰。在"輸入token"(也就是發(fā)給AI的內(nèi)容量)上,W-RAC實(shí)際上比傳統(tǒng)方法多花了約50%——因?yàn)榻Y(jié)構(gòu)化的元數(shù)據(jù)清單本身也有一定篇幅。但在"輸出token"(AI生成的內(nèi)容量)上,W-RAC減少了驚人的84.64%,從平均每份文件輸出1467個(gè)token下降到僅227個(gè)。這是因?yàn)锳I只需要輸出一串編號(hào),而不是把文字段落完整重新寫出來(lái)。關(guān)鍵在于,在當(dāng)前的AI服務(wù)定價(jià)體系下,輸出token的費(fèi)率通常是輸入token的四倍。少輸出84%的內(nèi)容,就是少付出絕大部分的錢。

處理速度同樣有顯著改善。平均每份文檔的處理時(shí)間從9.23秒縮短到3.78秒,降幅59.1%。更重要的是,這種加速在極端情況下同樣成立——P90延遲(代表處理最慢的那10%文檔所需的時(shí)間)從12.78秒降到5.83秒,P95延遲從14.67秒降到7.17秒。這意味著W-RAC不只是在平均情況下更快,在面對(duì)復(fù)雜文檔時(shí)也保持了穩(wěn)定的速度優(yōu)勢(shì),這對(duì)于生產(chǎn)環(huán)境的系統(tǒng)設(shè)計(jì)至關(guān)重要。

**檢索質(zhì)量方面的結(jié)果同樣值得細(xì)看,但畫風(fēng)有些微妙。**研究團(tuán)隊(duì)用四個(gè)標(biāo)準(zhǔn)指標(biāo)來(lái)衡量檢索效果:Recall@K(在返回的K個(gè)結(jié)果里,正確答案被找到的比例)、Precision@K(返回的K個(gè)結(jié)果里有多少是真正相關(guān)的)、MRR(第一個(gè)正確結(jié)果排在第幾位)以及NDCG(綜合考慮排名質(zhì)量的指標(biāo))。K分別取3和6來(lái)測(cè)試。

W-RAC在精確率上的表現(xiàn)明顯優(yōu)于傳統(tǒng)方法。以Precision@3(前三個(gè)結(jié)果里的準(zhǔn)確率)為例,綜合所有文檔和問(wèn)題類型,W-RAC的得分是0.71,而傳統(tǒng)方法只有0.55,提升了約29%。放到各個(gè)企業(yè)分別來(lái)看,差距更加明顯:ZX銀行的Precision@3從0.54提升到0.81,提升了50%;Cendara大學(xué)從0.46提升到0.76,提升了65%。

召回率方面,傳統(tǒng)方法略有優(yōu)勢(shì):Recall@6整體上傳統(tǒng)方法得0.93,W-RAC得0.91,差距很小但確實(shí)存在。研究團(tuán)隊(duì)對(duì)此給出了合理的解讀:對(duì)于生產(chǎn)級(jí)別的RAG系統(tǒng),高精確率往往比高召回率更有價(jià)值。返回三個(gè)高度相關(guān)的結(jié)果,遠(yuǎn)比返回六個(gè)里面有四個(gè)不相關(guān)的結(jié)果更有用。精確率的大幅提升意味著W-RAC產(chǎn)生的切塊"更干凈",每塊內(nèi)容的語(yǔ)義邊界更清晰,相關(guān)內(nèi)容被更好地歸攏在一起。

按問(wèn)題類型細(xì)分的數(shù)據(jù)揭示了一些有趣的規(guī)律。時(shí)間序列類問(wèn)題(比如"XX政策從什么時(shí)候開始生效")上,W-RAC的Precision@3從0.43飆升到0.79,提升了84%,說(shuō)明W-RAC在保留時(shí)間上下文方面有明顯優(yōu)勢(shì)。比較類問(wèn)題("A和B有什么不同")上,W-RAC的Precision@3達(dá)到0.77,是所有類型中最高的,驗(yàn)證了W-RAC在把同一主題下的對(duì)比性內(nèi)容聚合在一起方面的能力。步驟性操作問(wèn)題上,W-RAC的Precision@3從0.50提升到0.68,說(shuō)明不切斷操作步驟的規(guī)則確實(shí)有效。

六、系統(tǒng)的可觀測(cè)性:一個(gè)容易被忽略的隱藏優(yōu)勢(shì)

在論文的結(jié)論部分,研究團(tuán)隊(duì)特別強(qiáng)調(diào)了W-RAC的另一個(gè)優(yōu)勢(shì),這個(gè)優(yōu)勢(shì)在實(shí)際工程中往往比論文里的數(shù)字更加重要:系統(tǒng)的可觀測(cè)性和可調(diào)試性。

傳統(tǒng)智能體切塊是個(gè)黑盒子——你把原文丟進(jìn)去,AI輸出一堆切好的段落,但你很難追蹤為什么某段內(nèi)容被切在這里而不是那里,也很難在出問(wèn)題時(shí)快速定位原因。如果某個(gè)用戶的問(wèn)題始終得不到好的回答,你不知道是切塊方式的問(wèn)題、檢索策略的問(wèn)題,還是AI生成答案的問(wèn)題。

W-RAC的切塊計(jì)劃是完全透明的——它就是一份編號(hào)列表,你可以直接看到"這個(gè)段落被歸入了哪個(gè)切塊,那個(gè)切塊包含了哪些段落"。當(dāng)發(fā)現(xiàn)某個(gè)檢索結(jié)果不理想時(shí),工程師可以迅速定位到具體的切塊,檢查是哪兩個(gè)段落被錯(cuò)誤地分開了,或者哪些不相關(guān)的內(nèi)容被錯(cuò)誤地合并了,然后有針對(duì)性地調(diào)整提示詞或參數(shù)。

此外,由于每次處理相同文檔的結(jié)果是確定性的(相同的輸入必然得到相同的編號(hào)分組方案),系統(tǒng)的行為是可復(fù)現(xiàn)的。這對(duì)于需要在多個(gè)環(huán)境中部署、或者需要做A/B測(cè)試的企業(yè)系統(tǒng)來(lái)說(shuō),是非常寶貴的特性。同一份切塊計(jì)劃還可以被緩存,當(dāng)文檔內(nèi)容沒(méi)有變化時(shí),不需要重新調(diào)用大語(yǔ)言模型,進(jìn)一步降低了運(yùn)營(yíng)成本。

研究團(tuán)隊(duì)在論文中還展望了W-RAC框架的擴(kuò)展?jié)摿?。由于切塊結(jié)果是結(jié)構(gòu)化的編號(hào)計(jì)劃,未來(lái)可以在上面疊加更多高級(jí)功能:比如根據(jù)文檔中識(shí)別出的實(shí)體關(guān)系來(lái)優(yōu)化切塊邊界(實(shí)體感知切塊),或者把多份文檔的切塊結(jié)果用圖結(jié)構(gòu)聯(lián)系起來(lái)(基于圖的檢索),甚至根據(jù)不同用戶群體或使用場(chǎng)景動(dòng)態(tài)調(diào)整切塊策略(策略驅(qū)動(dòng)的切塊重組)。這些擴(kuò)展在傳統(tǒng)智能體切塊框架下幾乎無(wú)法實(shí)現(xiàn),因?yàn)槟抢锏那袎K是生成出來(lái)的文字,難以進(jìn)行結(jié)構(gòu)化操作。

七、研究的局限與值得進(jìn)一步思考的地方

盡管W-RAC的實(shí)驗(yàn)結(jié)果相當(dāng)出色,這項(xiàng)研究也有一些值得正視的局限。

測(cè)試集RAG-Multi-Corpus的236份文檔來(lái)自五個(gè)虛構(gòu)企業(yè),這意味著測(cè)試結(jié)果在多大程度上適用于真實(shí)世界的企業(yè)知識(shí)庫(kù),仍然需要進(jìn)一步驗(yàn)證。真實(shí)企業(yè)的文檔往往有更多的噪音——比如掃描件質(zhì)量差、網(wǎng)頁(yè)爬取內(nèi)容帶有大量廣告和導(dǎo)航菜單、文檔格式不規(guī)范等,這些情況在論文的實(shí)驗(yàn)設(shè)置里并未得到充分體現(xiàn)。

此外,W-RAC在召回率上的輕微劣勢(shì)也不應(yīng)被忽視。在某些場(chǎng)景下,比如需要檢索非常分散的知識(shí)點(diǎn)來(lái)回答復(fù)雜問(wèn)題時(shí),稍低的召回率可能意味著系統(tǒng)偶爾會(huì)漏掉關(guān)鍵信息。研究團(tuán)隊(duì)的判斷是"對(duì)于大多數(shù)生產(chǎn)場(chǎng)景,精確率更重要",但這個(gè)判斷并不普適,具體場(chǎng)景還需要具體分析。

還有一點(diǎn)值得關(guān)注:W-RAC目前主要面向網(wǎng)頁(yè)結(jié)構(gòu)化內(nèi)容設(shè)計(jì),對(duì)于掃描PDF、復(fù)雜學(xué)術(shù)論文、包含大量圖表的財(cái)報(bào)等非結(jié)構(gòu)化文檔,其適用性如何,論文中并未給出充分的實(shí)驗(yàn)數(shù)據(jù),值得后續(xù)研究跟進(jìn)。

說(shuō)到底,W-RAC做的事情其實(shí)很樸素:它發(fā)現(xiàn)了一個(gè)長(zhǎng)期被忽視的浪費(fèi)點(diǎn),并用一個(gè)精妙的工程思路把它省掉了。與其讓AI大模型既當(dāng)讀者又當(dāng)作者,不如讓它只當(dāng)規(guī)劃師——讀的是骨架,寫的是編號(hào),原文一字不動(dòng)。結(jié)果是成本省了一半,速度快了六成,準(zhǔn)確率還提高了。這個(gè)研究給從業(yè)者的啟示不僅限于切塊這一個(gè)技術(shù)問(wèn)題,更是一種系統(tǒng)設(shè)計(jì)哲學(xué):在AI系統(tǒng)里,每個(gè)環(huán)節(jié)都應(yīng)該想清楚"我真正需要AI做什么",而不是本能地把所有工作都扔給它。AI能力越強(qiáng),用錯(cuò)方向的代價(jià)就越大,用對(duì)方向的收益也越高。如果你對(duì)這套方法的完整技術(shù)細(xì)節(jié)感興趣,可以通過(guò)論文編號(hào)arXiv:2604.04936v1找到原文,其中附錄里公開的完整提示詞對(duì)實(shí)際工程師來(lái)說(shuō)尤其值得參考。

**Q&A**

Q1:W-RAC方案和傳統(tǒng)智能體切塊方案相比,在成本上具體能省多少?

A:根據(jù)論文的實(shí)驗(yàn)數(shù)據(jù),處理同樣的236份文檔,傳統(tǒng)智能體切塊的總費(fèi)用是3.64美元,W-RAC只需1.75美元,總體節(jié)省約51.7%。這主要來(lái)自輸出token的大幅減少——W-RAC的輸出token比傳統(tǒng)方法少了84.64%,而輸出token的定價(jià)通常是輸入token的四倍,因此這一部分的節(jié)省非??捎^。與此同時(shí),處理每份文檔的平均時(shí)間也從9.23秒縮短到了3.78秒。

Q2:W-RAC在檢索準(zhǔn)確率上是否真的比傳統(tǒng)方法更好,召回率會(huì)不會(huì)變差?

A:W-RAC在精確率上有明顯優(yōu)勢(shì),綜合所有問(wèn)題類型,Precision@3從0.55提升到0.71,提升約29%。但召回率上傳統(tǒng)方法略有優(yōu)勢(shì),Recall@6分別是0.93對(duì)0.91,差距較小。研究團(tuán)隊(duì)認(rèn)為對(duì)于實(shí)際應(yīng)用場(chǎng)景,更高的精確率更有價(jià)值,因?yàn)榉祷馗俚鼫?zhǔn)確的結(jié)果,比返回很多但不相關(guān)的結(jié)果更實(shí)用。不過(guò)具體哪種指標(biāo)更重要,還是要看實(shí)際的應(yīng)用場(chǎng)景需求。

Q3:W-RAC切塊方案適合處理哪些類型的文檔?

A:W-RAC目前主要針對(duì)網(wǎng)頁(yè)文檔設(shè)計(jì),能夠很好地利用HTML頁(yè)面天然的層級(jí)結(jié)構(gòu)(標(biāo)題、段落、父子關(guān)系等)。論文測(cè)試中涵蓋了PDF、Markdown、HTML、Word文檔和PowerPoint等多種格式,均有較好表現(xiàn)。對(duì)于結(jié)構(gòu)清晰的企業(yè)知識(shí)庫(kù)文檔效果尤其好。但對(duì)于掃描版PDF、圖表密集的財(cái)報(bào)、或者格式高度不規(guī)范的文檔,論文中沒(méi)有提供足夠的實(shí)驗(yàn)數(shù)據(jù),實(shí)際效果有待進(jìn)一步驗(yàn)證。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國(guó)家下死命令:2027年城投清零!中小城市的公交、供水會(huì)漲價(jià)嗎?

國(guó)家下死命令:2027年城投清零!中小城市的公交、供水會(huì)漲價(jià)嗎?

顧史
2026-04-21 05:44:11
法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒(méi)有未來(lái)

法塔赫勝選、哈馬斯出局,殘害平民失去人心,恐怖主義沒(méi)有未來(lái)

壹家言
2026-04-28 11:11:27
王洪文被捕前,對(duì)秘書說(shuō):我這頂“烏紗帽”,說(shuō)不定哪天就被摘掉

王洪文被捕前,對(duì)秘書說(shuō):我這頂“烏紗帽”,說(shuō)不定哪天就被摘掉

銅臭的歷史味
2026-04-29 00:22:02
哭窮了!一線男1號(hào)片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

哭窮了!一線男1號(hào)片酬跌至巔峰期3折,網(wǎng)友:待遇比醫(yī)生差才合理

火山詩(shī)話
2026-04-28 07:27:33
600678,將被“ST”!

600678,將被“ST”!

中國(guó)基金報(bào)
2026-04-28 23:15:48
情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

新歐洲
2026-04-21 19:37:05
外交部:按一國(guó)兩制叫“臺(tái)灣特別行政區(qū)行政長(zhǎng)官”“臺(tái)灣省省長(zhǎng)”

外交部:按一國(guó)兩制叫“臺(tái)灣特別行政區(qū)行政長(zhǎng)官”“臺(tái)灣省省長(zhǎng)”

阿七說(shuō)史
2026-04-28 15:41:47
辛柏青回應(yīng)吳越撮合,沒(méi)有翻臉沒(méi)有接梗,把分寸和家人穩(wěn)穩(wěn)守住

辛柏青回應(yīng)吳越撮合,沒(méi)有翻臉沒(méi)有接梗,把分寸和家人穩(wěn)穩(wěn)守住

一盅情懷
2026-04-28 17:18:29
妹子,你露個(gè)大白胸脯,在這兒干什么呢?

妹子,你露個(gè)大白胸脯,在這兒干什么呢?

飛娛日記
2026-04-18 10:48:09
中國(guó)聯(lián)通推出全新手機(jī)套餐品牌“魔方”,自由組合,階梯定價(jià),39元起

中國(guó)聯(lián)通推出全新手機(jī)套餐品牌“魔方”,自由組合,階梯定價(jià),39元起

TMT流程審計(jì)
2026-04-28 10:35:38
誰(shuí)敢相信!去年跟腱撕裂,今年滿血回歸,季后賽場(chǎng)均24分

誰(shuí)敢相信!去年跟腱撕裂,今年滿血回歸,季后賽場(chǎng)均24分

球毛鬼胎
2026-04-28 22:07:08
張雪就聲援余承東引發(fā)爭(zhēng)議進(jìn)行回應(yīng),稱自己不是網(wǎng)紅也不靠這吃飯

張雪就聲援余承東引發(fā)爭(zhēng)議進(jìn)行回應(yīng),稱自己不是網(wǎng)紅也不靠這吃飯

IT之家
2026-04-28 16:13:50
政治局會(huì)議,傳遞三重利好

政治局會(huì)議,傳遞三重利好

劉勝軍經(jīng)濟(jì)學(xué)大局觀
2026-04-28 15:41:45
美伊大戰(zhàn)暴露了中國(guó)家底,美國(guó)這才明白,為啥中國(guó)人底氣能這么足

美伊大戰(zhàn)暴露了中國(guó)家底,美國(guó)這才明白,為啥中國(guó)人底氣能這么足

觸摸史跡
2026-04-28 15:13:05
世乒賽戰(zhàn)況:杜凱琹獨(dú)砍兩分,朱雨玲澳隊(duì)剃光頭國(guó)乒大戰(zhàn)韓隊(duì)

世乒賽戰(zhàn)況:杜凱琹獨(dú)砍兩分,朱雨玲澳隊(duì)剃光頭國(guó)乒大戰(zhàn)韓隊(duì)

阿晞體育
2026-04-28 22:41:00
王思聰是真頹了?被拍到在洛杉磯,整個(gè)人都“垮了”

王思聰是真頹了?被拍到在洛杉磯,整個(gè)人都“垮了”

西樓知趣雜談
2026-04-28 22:09:13
誰(shuí)拍下了那張后臺(tái)照片?

誰(shuí)拍下了那張后臺(tái)照片?

追星雷達(dá)站
2026-04-27 09:58:59
43歲蔡卓妍官宣結(jié)婚,婚戒照好幸福,老公比她小10歲是健身教練

43歲蔡卓妍官宣結(jié)婚,婚戒照好幸福,老公比她小10歲是健身教練

扒蝦侃娛
2026-04-28 12:34:53
倒查13年,央國(guó)企開始慌了

倒查13年,央國(guó)企開始慌了

職場(chǎng)資深秘書
2026-04-28 22:06:07
聚焦服務(wù)業(yè)擴(kuò)能提質(zhì)|我國(guó)養(yǎng)老服務(wù)業(yè)發(fā)展邁出新步伐

聚焦服務(wù)業(yè)擴(kuò)能提質(zhì)|我國(guó)養(yǎng)老服務(wù)業(yè)發(fā)展邁出新步伐

新華社
2026-04-27 22:04:28
2026-04-29 03:20:49
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

頭條要聞

19歲中國(guó)女孩被困緬甸 交20萬(wàn)贖金園區(qū)仍未放人

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂(lè)要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長(zhǎng)在未來(lái)審美點(diǎn)上

態(tài)度原創(chuàng)

家居
教育
旅游
健康
公開課

家居要聞

江景風(fēng)格 流動(dòng)的秩序

教育要聞

教育部通知,今年9月份開始,上學(xué)的規(guī)則全變了

旅游要聞

莫讓內(nèi)卷式競(jìng)爭(zhēng)削弱旅游消費(fèi)信心

干細(xì)胞治療燒燙傷三大優(yōu)勢(shì)!

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版