国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Yellow.ai團(tuán)隊(duì)找到了一種讓AI知識(shí)庫建設(shè)成本降低一半的新方法

0
分享至


這篇由Yellow.ai人工智能研究團(tuán)隊(duì)完成的論文發(fā)表于2026年4月,論文編號(hào)為arXiv:2604.04936v1,分類在計(jì)算機(jī)科學(xué)信息檢索領(lǐng)域(cs.IR)。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過該編號(hào)在arXiv平臺(tái)查閱完整論文。

一、一個(gè)你每天都在用卻不知道的技術(shù)難題

每當(dāng)你向企業(yè)客服機(jī)器人提問,或者使用某款A(yù)I助手查詢公司內(nèi)部資料時(shí),背后都有一套叫做"檢索增強(qiáng)生成"(RAG)的系統(tǒng)在運(yùn)轉(zhuǎn)。簡(jiǎn)單來說,這套系統(tǒng)的工作原理就像一個(gè)超級(jí)勤快的圖書館員:當(dāng)你提問時(shí),它先跑去書架上找到相關(guān)資料,再把資料交給AI來回答你的問題。

但問題來了——這個(gè)圖書館員在整理書架時(shí)有個(gè)頭疼的工序,叫做"文檔切塊"。顧名思義,就是把一篇長(zhǎng)文章切成若干小段落,每段分別貼上標(biāo)簽存好,方便日后快速檢索。這個(gè)工序聽起來簡(jiǎn)單,做起來卻大有講究。

以一本汽車維修手冊(cè)為例,里面有"更換輪胎的詳細(xì)步驟"這一節(jié),一共八個(gè)步驟。如果切塊時(shí)恰好把第三步和第四步切開,放進(jìn)了兩個(gè)不同的小段落,那當(dāng)有人問"怎么換輪胎"時(shí),AI可能只找到前三步,給出的答案自然是殘缺的。反之,如果把不相干的內(nèi)容——比如"輪胎品牌推薦"和"雨天駕駛技巧"——錯(cuò)誤地拼進(jìn)同一個(gè)段落,AI找到的內(nèi)容就會(huì)像一盤雜菜,答非所問。

Yellow.ai的研究團(tuán)隊(duì)正是盯上了這個(gè)問題,提出了一套名為"面向網(wǎng)頁檢索的感知切塊方案",英文縮寫W-RAC。他們的核心思路頗具新意:與其讓AI大模型去讀完整篇文章再重新寫出切好的段落,不如只給它看文章的"目錄骨架",讓它告訴我們?cè)摪涯男┱鹿?jié)編號(hào)歸并在一起——至于文字本身,原封不動(dòng)搬過去就行。這就像請(qǐng)一位編輯來整理書稿,你不需要讓他把整本書重新打一遍,只需要他告訴你"第三章和第四章內(nèi)容連貫,應(yīng)該放在同一個(gè)章節(jié)包里"就夠了。

二、現(xiàn)有方法為什么令人頭疼

在W-RAC出現(xiàn)之前,業(yè)界主要有三種切塊方式,各自都有難以回避的缺陷。

最古老的一種叫"固定大小切塊",邏輯非常粗暴——每隔500個(gè)字符或者300個(gè)詞就切一刀,不管這一刀是切在句子中間還是段落邊界。這就像用尺子切蛋糕,不管蛋糕上的花紋圖案,每隔五厘米切一刀,結(jié)果往往把一朵完整的奶油玫瑰從正中間切開。這種方法實(shí)現(xiàn)簡(jiǎn)單、成本極低,但對(duì)檢索質(zhì)量的傷害顯而易見:語義上緊密相關(guān)的內(nèi)容被強(qiáng)行分開,毫不相干的內(nèi)容卻可能湊到了一起。

第二種叫"基于規(guī)則的結(jié)構(gòu)化切塊",稍微聰明一些。它會(huì)識(shí)別文檔中的標(biāo)題、段落標(biāo)簽、HTML標(biāo)簽等結(jié)構(gòu)信號(hào),沿著這些自然邊界來切割?;氐降案獾谋扔?,這次是沿著蛋糕的分層切,至少不會(huì)把一層蛋糕胚切成兩半了。然而現(xiàn)實(shí)中的網(wǎng)頁內(nèi)容五花八門,有些頁面結(jié)構(gòu)規(guī)整,有些則一團(tuán)混亂,規(guī)則往往跟不上內(nèi)容密度和排列方式的千變?nèi)f化,面對(duì)復(fù)雜內(nèi)容時(shí)依然力不從心。

第三種是最先進(jìn)也最昂貴的"智能體切塊",直接把整篇文章原文喂給大語言模型,讓它理解內(nèi)容之后重新生成一批語義連貫的小段落。這就像請(qǐng)一位真正的編輯從頭到尾讀完整本書,然后用自己的話把精華提煉出來重寫一遍。效果固然好,但代價(jià)也是最高的——不僅需要消耗大量AI處理費(fèi)用(因?yàn)榧纫x入大量文字,又要生成大量輸出文字),處理速度慢,還有一個(gè)潛在的風(fēng)險(xiǎn):AI在"重寫"時(shí)可能會(huì)悄悄修改原文,產(chǎn)生所謂的"幻覺",把原文中沒有的內(nèi)容編進(jìn)去,或者把原文的意思稍微扭曲了。對(duì)于企業(yè)知識(shí)庫而言,這種信息失真是絕對(duì)不能接受的。

更要命的是,對(duì)于需要持續(xù)大批量爬取、處理網(wǎng)頁內(nèi)容的系統(tǒng)來說,智能體切塊的成本會(huì)隨著文檔數(shù)量線性增長(zhǎng),擴(kuò)展性極差。研究團(tuán)隊(duì)在論文中用一句話概括了這三種方法的共同問題:它們都沒有把"切塊"本身理解為一個(gè)規(guī)劃問題,而是把它當(dāng)成了一個(gè)內(nèi)容生成問題。

三、W-RAC的核心設(shè)計(jì):只讓AI做它最擅長(zhǎng)的事

W-RAC的設(shè)計(jì)哲學(xué)建立在一個(gè)簡(jiǎn)單卻深刻的區(qū)分之上:文字提取是確定性的機(jī)器活,而語義分組是需要理解力的智慧活。前者應(yīng)該交給程序確定性地完成,后者才值得請(qǐng)大語言模型出馬——但只需要它做規(guī)劃,不需要它做寫作。

整個(gè)W-RAC流程分為三個(gè)清晰的階段,就像一條流水線上的三個(gè)工位。

第一個(gè)工位叫"確定性網(wǎng)頁解析"。系統(tǒng)把網(wǎng)頁內(nèi)容從HTML格式轉(zhuǎn)換成結(jié)構(gòu)化的文本表示(經(jīng)過Markdown這個(gè)中間格式,再進(jìn)一步整理成抽象語法樹結(jié)構(gòu)),然后給每一個(gè)語義單元——每一個(gè)標(biāo)題、每一個(gè)段落——貼上一個(gè)唯一的編號(hào)標(biāo)簽。輸出的結(jié)果不是文字,而是一個(gè)類似這樣的結(jié)構(gòu)化清單:每個(gè)條目包含編號(hào)、文字內(nèi)容、所在行數(shù)、以及它的父級(jí)標(biāo)題是誰。此時(shí)文章的完整原文已經(jīng)被安全保存,就像圖書館里一本本完好的原書,等候后續(xù)調(diào)取。

第二個(gè)工位才是大語言模型登場(chǎng)的時(shí)刻,但它收到的任務(wù)單和傳統(tǒng)方式截然不同。系統(tǒng)不把文章原文發(fā)給它,只把那份"骨架清單"發(fā)過去——也就是各個(gè)段落的編號(hào)、標(biāo)題層級(jí)關(guān)系、父子關(guān)系,以及可選的詞數(shù)統(tǒng)計(jì)等元數(shù)據(jù)。大語言模型讀完這份骨架之后,輸出的也不是文字,而是一份"分組方案":比如"編號(hào)1、2、3、4的段落應(yīng)該歸為一組,編號(hào)1、5、6應(yīng)該歸為另一組"。這份方案用JSON格式表達(dá),里面只有編號(hào),沒有任何文字內(nèi)容。這就像請(qǐng)一位圖書館員不看書的內(nèi)容,只看書名和章節(jié)目錄,然后告訴你哪幾章應(yīng)該被裝進(jìn)同一個(gè)檢索包里。

第三個(gè)工位是"后處理與索引"。系統(tǒng)按照第二步給出的分組方案,從第一步保存的原始文本庫里把對(duì)應(yīng)的段落原文取出來拼合,形成最終的切塊結(jié)果,然后生成向量嵌入并存入檢索數(shù)據(jù)庫。整個(gè)過程中,原始文字從未被AI模型處理或改寫,零幻覺風(fēng)險(xiǎn)。

研究團(tuán)隊(duì)在設(shè)計(jì)W-RAC時(shí)還給系統(tǒng)制定了五條核心原則,這五條原則貫穿始終。第一,絕不重新生成文本,原文原封不動(dòng)保留。第二,切塊要服務(wù)于檢索,而不是服務(wù)于閱讀體驗(yàn),最終目的是讓檢索時(shí)能找到最相關(guān)的段落。第三,最小化AI調(diào)用成本和token消耗。第四,系統(tǒng)行為必須可預(yù)測(cè)、可調(diào)試,每次對(duì)同一份文檔處理的結(jié)果應(yīng)該相同。第五,專門為網(wǎng)頁內(nèi)容設(shè)計(jì),充分利用網(wǎng)頁文檔天然的層級(jí)結(jié)構(gòu)。

四、切塊也要"懂查詢":什么叫檢索感知

W-RAC名字里的"檢索感知"四個(gè)字,值得單獨(dú)解釋一下,因?yàn)檫@是區(qū)別它與其他方案的靈魂所在。

絕大多數(shù)傳統(tǒng)切塊方案考慮的問題是"這段文字怎么讀起來完整",而W-RAC考慮的是"當(dāng)用戶提問時(shí),哪些內(nèi)容應(yīng)該被一起找到"。這兩個(gè)問題的答案有時(shí)相同,有時(shí)卻大相徑庭。

舉個(gè)具體例子:一篇銀行貸款說明頁面,主標(biāo)題是"個(gè)人信貸產(chǎn)品",下面有一個(gè)二級(jí)標(biāo)題"申請(qǐng)條件",再下面有三級(jí)標(biāo)題"收入要求"和"年齡限制"。從閱讀體驗(yàn)來看,"收入要求"和"年齡限制"是平行的兩個(gè)小節(jié),完全可以分成兩塊。但從檢索角度來看,當(dāng)用戶問"我能申請(qǐng)貸款嗎",他需要同時(shí)了解收入和年齡兩方面的條件,這兩塊應(yīng)該放在一起。W-RAC的切塊方案就會(huì)把這兩個(gè)小節(jié)合并處理。

為了實(shí)現(xiàn)這種檢索感知,W-RAC在進(jìn)行切塊規(guī)劃時(shí)會(huì)綜合考慮多個(gè)維度的信息。標(biāo)題的層級(jí)深度和章節(jié)的隸屬關(guān)系是最基礎(chǔ)的考量,因?yàn)橥粋€(gè)父標(biāo)題下的內(nèi)容往往需要配合閱讀。內(nèi)容的詞數(shù)和長(zhǎng)度也是重要參數(shù),避免單個(gè)切塊過長(zhǎng)導(dǎo)致檢索時(shí)噪音過多,或者過短導(dǎo)致信息不完整。此外,系統(tǒng)還會(huì)區(qū)分不同類型的內(nèi)容——比如表格數(shù)據(jù)和說明性段落就應(yīng)該采用不同的切塊策略,步驟性的操作指南則無論如何都必須保持完整,絕不能從中間截?cái)唷?/p>

這些規(guī)則都被編碼進(jìn)了發(fā)給大語言模型的提示詞里,讓它在規(guī)劃分組方案時(shí)自動(dòng)遵循。值得一提的是,研究團(tuán)隊(duì)在論文附錄中公開了完整的提示詞內(nèi)容,這為后來者復(fù)現(xiàn)或改進(jìn)這套方案提供了極大的便利。

五、用真實(shí)數(shù)據(jù)檢驗(yàn):成本和質(zhì)量各有幾分

光說原理不夠,研究團(tuán)隊(duì)用一個(gè)專門構(gòu)建的測(cè)試集來檢驗(yàn)W-RAC的實(shí)際表現(xiàn)。這個(gè)測(cè)試集名為RAG-Multi-Corpus,包含來自五個(gè)虛構(gòu)企業(yè)的236份文檔,文檔格式涵蓋PDF、Markdown、HTML、Word文檔和PowerPoint演示文稿,模擬真實(shí)企業(yè)知識(shí)庫的多樣性。在這236份文檔之上,研究團(tuán)隊(duì)精心設(shè)計(jì)了786個(gè)問答對(duì),每個(gè)問題都有明確的參考答案和答案來源文檔。

這五個(gè)虛構(gòu)企業(yè)分別屬于汽車、教育、企業(yè)科技和銀行金融四個(gè)行業(yè),涵蓋了從產(chǎn)品說明到政策規(guī)定、從操作流程到財(cái)務(wù)報(bào)告的各類文檔。786個(gè)問題按照類型分成七大類:描述性問題(比如"XX產(chǎn)品的功能是什么")、分析性問題(需要推理和解讀)、比較性問題("A方案和B方案有什么區(qū)別")、是非判斷題、時(shí)間序列問題、步驟性操作問題("如何完成XX流程"),以及需要跨文檔綜合的開放性問題。這種分類設(shè)計(jì)確保了評(píng)測(cè)覆蓋了檢索場(chǎng)景的各種難度梯度。

所有實(shí)驗(yàn)都在GPT-4.1大語言模型上運(yùn)行,同一套基礎(chǔ)設(shè)施,同一批文檔,唯一的變量是切塊方式——一批用傳統(tǒng)的智能體切塊,一批用W-RAC。

**成本方面的結(jié)果令人印象深刻。**整個(gè)236份文檔的處理流程,傳統(tǒng)智能體切塊共花費(fèi)了3.64美元,W-RAC只花了1.75美元,降幅達(dá)到51.7%,節(jié)省了約1.89美元。這個(gè)數(shù)字乍看不大,但按比例來算意義重大——如果一家企業(yè)每天要處理數(shù)千份新網(wǎng)頁,一年節(jié)省的費(fèi)用就相當(dāng)可觀了。

拆開來看,成本節(jié)省的來源非常清晰。在"輸入token"(也就是發(fā)給AI的內(nèi)容量)上,W-RAC實(shí)際上比傳統(tǒng)方法多花了約50%——因?yàn)榻Y(jié)構(gòu)化的元數(shù)據(jù)清單本身也有一定篇幅。但在"輸出token"(AI生成的內(nèi)容量)上,W-RAC減少了驚人的84.64%,從平均每份文件輸出1467個(gè)token下降到僅227個(gè)。這是因?yàn)锳I只需要輸出一串編號(hào),而不是把文字段落完整重新寫出來。關(guān)鍵在于,在當(dāng)前的AI服務(wù)定價(jià)體系下,輸出token的費(fèi)率通常是輸入token的四倍。少輸出84%的內(nèi)容,就是少付出絕大部分的錢。

處理速度同樣有顯著改善。平均每份文檔的處理時(shí)間從9.23秒縮短到3.78秒,降幅59.1%。更重要的是,這種加速在極端情況下同樣成立——P90延遲(代表處理最慢的那10%文檔所需的時(shí)間)從12.78秒降到5.83秒,P95延遲從14.67秒降到7.17秒。這意味著W-RAC不只是在平均情況下更快,在面對(duì)復(fù)雜文檔時(shí)也保持了穩(wěn)定的速度優(yōu)勢(shì),這對(duì)于生產(chǎn)環(huán)境的系統(tǒng)設(shè)計(jì)至關(guān)重要。

**檢索質(zhì)量方面的結(jié)果同樣值得細(xì)看,但畫風(fēng)有些微妙。**研究團(tuán)隊(duì)用四個(gè)標(biāo)準(zhǔn)指標(biāo)來衡量檢索效果:Recall@K(在返回的K個(gè)結(jié)果里,正確答案被找到的比例)、Precision@K(返回的K個(gè)結(jié)果里有多少是真正相關(guān)的)、MRR(第一個(gè)正確結(jié)果排在第幾位)以及NDCG(綜合考慮排名質(zhì)量的指標(biāo))。K分別取3和6來測(cè)試。

W-RAC在精確率上的表現(xiàn)明顯優(yōu)于傳統(tǒng)方法。以Precision@3(前三個(gè)結(jié)果里的準(zhǔn)確率)為例,綜合所有文檔和問題類型,W-RAC的得分是0.71,而傳統(tǒng)方法只有0.55,提升了約29%。放到各個(gè)企業(yè)分別來看,差距更加明顯:ZX銀行的Precision@3從0.54提升到0.81,提升了50%;Cendara大學(xué)從0.46提升到0.76,提升了65%。

召回率方面,傳統(tǒng)方法略有優(yōu)勢(shì):Recall@6整體上傳統(tǒng)方法得0.93,W-RAC得0.91,差距很小但確實(shí)存在。研究團(tuán)隊(duì)對(duì)此給出了合理的解讀:對(duì)于生產(chǎn)級(jí)別的RAG系統(tǒng),高精確率往往比高召回率更有價(jià)值。返回三個(gè)高度相關(guān)的結(jié)果,遠(yuǎn)比返回六個(gè)里面有四個(gè)不相關(guān)的結(jié)果更有用。精確率的大幅提升意味著W-RAC產(chǎn)生的切塊"更干凈",每塊內(nèi)容的語義邊界更清晰,相關(guān)內(nèi)容被更好地歸攏在一起。

按問題類型細(xì)分的數(shù)據(jù)揭示了一些有趣的規(guī)律。時(shí)間序列類問題(比如"XX政策從什么時(shí)候開始生效")上,W-RAC的Precision@3從0.43飆升到0.79,提升了84%,說明W-RAC在保留時(shí)間上下文方面有明顯優(yōu)勢(shì)。比較類問題("A和B有什么不同")上,W-RAC的Precision@3達(dá)到0.77,是所有類型中最高的,驗(yàn)證了W-RAC在把同一主題下的對(duì)比性內(nèi)容聚合在一起方面的能力。步驟性操作問題上,W-RAC的Precision@3從0.50提升到0.68,說明不切斷操作步驟的規(guī)則確實(shí)有效。

六、系統(tǒng)的可觀測(cè)性:一個(gè)容易被忽略的隱藏優(yōu)勢(shì)

在論文的結(jié)論部分,研究團(tuán)隊(duì)特別強(qiáng)調(diào)了W-RAC的另一個(gè)優(yōu)勢(shì),這個(gè)優(yōu)勢(shì)在實(shí)際工程中往往比論文里的數(shù)字更加重要:系統(tǒng)的可觀測(cè)性和可調(diào)試性。

傳統(tǒng)智能體切塊是個(gè)黑盒子——你把原文丟進(jìn)去,AI輸出一堆切好的段落,但你很難追蹤為什么某段內(nèi)容被切在這里而不是那里,也很難在出問題時(shí)快速定位原因。如果某個(gè)用戶的問題始終得不到好的回答,你不知道是切塊方式的問題、檢索策略的問題,還是AI生成答案的問題。

W-RAC的切塊計(jì)劃是完全透明的——它就是一份編號(hào)列表,你可以直接看到"這個(gè)段落被歸入了哪個(gè)切塊,那個(gè)切塊包含了哪些段落"。當(dāng)發(fā)現(xiàn)某個(gè)檢索結(jié)果不理想時(shí),工程師可以迅速定位到具體的切塊,檢查是哪兩個(gè)段落被錯(cuò)誤地分開了,或者哪些不相關(guān)的內(nèi)容被錯(cuò)誤地合并了,然后有針對(duì)性地調(diào)整提示詞或參數(shù)。

此外,由于每次處理相同文檔的結(jié)果是確定性的(相同的輸入必然得到相同的編號(hào)分組方案),系統(tǒng)的行為是可復(fù)現(xiàn)的。這對(duì)于需要在多個(gè)環(huán)境中部署、或者需要做A/B測(cè)試的企業(yè)系統(tǒng)來說,是非常寶貴的特性。同一份切塊計(jì)劃還可以被緩存,當(dāng)文檔內(nèi)容沒有變化時(shí),不需要重新調(diào)用大語言模型,進(jìn)一步降低了運(yùn)營(yíng)成本。

研究團(tuán)隊(duì)在論文中還展望了W-RAC框架的擴(kuò)展?jié)摿ΑS捎谇袎K結(jié)果是結(jié)構(gòu)化的編號(hào)計(jì)劃,未來可以在上面疊加更多高級(jí)功能:比如根據(jù)文檔中識(shí)別出的實(shí)體關(guān)系來優(yōu)化切塊邊界(實(shí)體感知切塊),或者把多份文檔的切塊結(jié)果用圖結(jié)構(gòu)聯(lián)系起來(基于圖的檢索),甚至根據(jù)不同用戶群體或使用場(chǎng)景動(dòng)態(tài)調(diào)整切塊策略(策略驅(qū)動(dòng)的切塊重組)。這些擴(kuò)展在傳統(tǒng)智能體切塊框架下幾乎無法實(shí)現(xiàn),因?yàn)槟抢锏那袎K是生成出來的文字,難以進(jìn)行結(jié)構(gòu)化操作。

七、研究的局限與值得進(jìn)一步思考的地方

盡管W-RAC的實(shí)驗(yàn)結(jié)果相當(dāng)出色,這項(xiàng)研究也有一些值得正視的局限。

測(cè)試集RAG-Multi-Corpus的236份文檔來自五個(gè)虛構(gòu)企業(yè),這意味著測(cè)試結(jié)果在多大程度上適用于真實(shí)世界的企業(yè)知識(shí)庫,仍然需要進(jìn)一步驗(yàn)證。真實(shí)企業(yè)的文檔往往有更多的噪音——比如掃描件質(zhì)量差、網(wǎng)頁爬取內(nèi)容帶有大量廣告和導(dǎo)航菜單、文檔格式不規(guī)范等,這些情況在論文的實(shí)驗(yàn)設(shè)置里并未得到充分體現(xiàn)。

此外,W-RAC在召回率上的輕微劣勢(shì)也不應(yīng)被忽視。在某些場(chǎng)景下,比如需要檢索非常分散的知識(shí)點(diǎn)來回答復(fù)雜問題時(shí),稍低的召回率可能意味著系統(tǒng)偶爾會(huì)漏掉關(guān)鍵信息。研究團(tuán)隊(duì)的判斷是"對(duì)于大多數(shù)生產(chǎn)場(chǎng)景,精確率更重要",但這個(gè)判斷并不普適,具體場(chǎng)景還需要具體分析。

還有一點(diǎn)值得關(guān)注:W-RAC目前主要面向網(wǎng)頁結(jié)構(gòu)化內(nèi)容設(shè)計(jì),對(duì)于掃描PDF、復(fù)雜學(xué)術(shù)論文、包含大量圖表的財(cái)報(bào)等非結(jié)構(gòu)化文檔,其適用性如何,論文中并未給出充分的實(shí)驗(yàn)數(shù)據(jù),值得后續(xù)研究跟進(jìn)。

說到底,W-RAC做的事情其實(shí)很樸素:它發(fā)現(xiàn)了一個(gè)長(zhǎng)期被忽視的浪費(fèi)點(diǎn),并用一個(gè)精妙的工程思路把它省掉了。與其讓AI大模型既當(dāng)讀者又當(dāng)作者,不如讓它只當(dāng)規(guī)劃師——讀的是骨架,寫的是編號(hào),原文一字不動(dòng)。結(jié)果是成本省了一半,速度快了六成,準(zhǔn)確率還提高了。這個(gè)研究給從業(yè)者的啟示不僅限于切塊這一個(gè)技術(shù)問題,更是一種系統(tǒng)設(shè)計(jì)哲學(xué):在AI系統(tǒng)里,每個(gè)環(huán)節(jié)都應(yīng)該想清楚"我真正需要AI做什么",而不是本能地把所有工作都扔給它。AI能力越強(qiáng),用錯(cuò)方向的代價(jià)就越大,用對(duì)方向的收益也越高。如果你對(duì)這套方法的完整技術(shù)細(xì)節(jié)感興趣,可以通過論文編號(hào)arXiv:2604.04936v1找到原文,其中附錄里公開的完整提示詞對(duì)實(shí)際工程師來說尤其值得參考。

**Q&A**

Q1:W-RAC方案和傳統(tǒng)智能體切塊方案相比,在成本上具體能省多少?

A:根據(jù)論文的實(shí)驗(yàn)數(shù)據(jù),處理同樣的236份文檔,傳統(tǒng)智能體切塊的總費(fèi)用是3.64美元,W-RAC只需1.75美元,總體節(jié)省約51.7%。這主要來自輸出token的大幅減少——W-RAC的輸出token比傳統(tǒng)方法少了84.64%,而輸出token的定價(jià)通常是輸入token的四倍,因此這一部分的節(jié)省非常可觀。與此同時(shí),處理每份文檔的平均時(shí)間也從9.23秒縮短到了3.78秒。

Q2:W-RAC在檢索準(zhǔn)確率上是否真的比傳統(tǒng)方法更好,召回率會(huì)不會(huì)變差?

A:W-RAC在精確率上有明顯優(yōu)勢(shì),綜合所有問題類型,Precision@3從0.55提升到0.71,提升約29%。但召回率上傳統(tǒng)方法略有優(yōu)勢(shì),Recall@6分別是0.93對(duì)0.91,差距較小。研究團(tuán)隊(duì)認(rèn)為對(duì)于實(shí)際應(yīng)用場(chǎng)景,更高的精確率更有價(jià)值,因?yàn)榉祷馗俚鼫?zhǔn)確的結(jié)果,比返回很多但不相關(guān)的結(jié)果更實(shí)用。不過具體哪種指標(biāo)更重要,還是要看實(shí)際的應(yīng)用場(chǎng)景需求。

Q3:W-RAC切塊方案適合處理哪些類型的文檔?

A:W-RAC目前主要針對(duì)網(wǎng)頁文檔設(shè)計(jì),能夠很好地利用HTML頁面天然的層級(jí)結(jié)構(gòu)(標(biāo)題、段落、父子關(guān)系等)。論文測(cè)試中涵蓋了PDF、Markdown、HTML、Word文檔和PowerPoint等多種格式,均有較好表現(xiàn)。對(duì)于結(jié)構(gòu)清晰的企業(yè)知識(shí)庫文檔效果尤其好。但對(duì)于掃描版PDF、圖表密集的財(cái)報(bào)、或者格式高度不規(guī)范的文檔,論文中沒有提供足夠的實(shí)驗(yàn)數(shù)據(jù),實(shí)際效果有待進(jìn)一步驗(yàn)證。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
繼續(xù)破紀(jì)錄,72小時(shí)訂單超10萬:比亞迪大唐這次會(huì)動(dòng)M9的蛋糕嗎?

繼續(xù)破紀(jì)錄,72小時(shí)訂單超10萬:比亞迪大唐這次會(huì)動(dòng)M9的蛋糕嗎?

藍(lán)色海邊
2026-04-28 14:24:53
刻不容緩!中央政治局定調(diào),釋放大信號(hào)!看清大局,中國(guó)全面出手!

刻不容緩!中央政治局定調(diào),釋放大信號(hào)!看清大局,中國(guó)全面出手!

互聯(lián)網(wǎng)思想
2026-04-28 23:24:38
美股三大指數(shù)集體收跌,道指跌0.06%,納指跌0.9%,標(biāo)普500指數(shù)跌0.49%,熱門科技股多數(shù)下跌,博通跌超4%,英偉達(dá)跌超1%。

美股三大指數(shù)集體收跌,道指跌0.06%,納指跌0.9%,標(biāo)普500指數(shù)跌0.49%,熱門科技股多數(shù)下跌,博通跌超4%,英偉達(dá)跌超1%。

財(cái)聯(lián)社
2026-04-29 04:08:08
夏洛特公主長(zhǎng)相絕了!有戴妃的甜美,凱特的凌厲,也有女王的霸氣

夏洛特公主長(zhǎng)相絕了!有戴妃的甜美,凱特的凌厲,也有女王的霸氣

小魚愛魚樂
2026-04-28 09:28:11
斯諾克賽程:趙心童2次出場(chǎng)對(duì)陣墨菲,吳宜澤先戰(zhàn)8局,世界冠軍PK

斯諾克賽程:趙心童2次出場(chǎng)對(duì)陣墨菲,吳宜澤先戰(zhàn)8局,世界冠軍PK

劉姚堯的文字城堡
2026-04-28 09:37:20
美股收盤:OpenAI相關(guān)股票承壓 三大指數(shù)集體下跌

美股收盤:OpenAI相關(guān)股票承壓 三大指數(shù)集體下跌

財(cái)聯(lián)社
2026-04-29 05:39:18
陳思誠(chéng)找小21歲阮巨不是瞎了眼:他比誰都精,要的是情緒穩(wěn)定

陳思誠(chéng)找小21歲阮巨不是瞎了眼:他比誰都精,要的是情緒穩(wěn)定

小貓娛樂叭叭
2026-04-27 20:42:52
溫州民商銀行9.9%股權(quán)易主,浙商大佬仇建平輾轉(zhuǎn)入局

溫州民商銀行9.9%股權(quán)易主,浙商大佬仇建平輾轉(zhuǎn)入局

達(dá)摩財(cái)經(jīng)
2026-04-26 09:32:45
美聯(lián)合10國(guó)對(duì)中國(guó)發(fā)起猛攻,中方不隔夜強(qiáng)力反制

美聯(lián)合10國(guó)對(duì)中國(guó)發(fā)起猛攻,中方不隔夜強(qiáng)力反制

至今
2026-04-29 03:03:01
砸進(jìn)六個(gè)師,談判桌都不給!鐵了心的以色列,真主黨在劫難逃嗎?

砸進(jìn)六個(gè)師,談判桌都不給!鐵了心的以色列,真主黨在劫難逃嗎?

寰球經(jīng)緯所
2026-04-27 23:35:08
5月1日正式開刀!3萬就立案,所有打工人都要警惕

5月1日正式開刀!3萬就立案,所有打工人都要警惕

洞見小能手
2026-04-27 21:17:44
1976年,江青被捕入獄后,兩個(gè)人趁著深夜去看她,江青丑態(tài)畢露

1976年,江青被捕入獄后,兩個(gè)人趁著深夜去看她,江青丑態(tài)畢露

兵鑒史
2026-04-29 03:01:16
下課!曝張慶鵬無緣率隊(duì)進(jìn)季后賽將卸任北控主帥 僅執(zhí)教一季

下課!曝張慶鵬無緣率隊(duì)進(jìn)季后賽將卸任北控主帥 僅執(zhí)教一季

醉臥浮生
2026-04-28 21:15:10
驚掉下巴!39 歲鄭欣宜暴瘦現(xiàn)身,整張臉瘦脫形,差點(diǎn)沒認(rèn)出來

驚掉下巴!39 歲鄭欣宜暴瘦現(xiàn)身,整張臉瘦脫形,差點(diǎn)沒認(rèn)出來

橙星文娛
2026-04-28 09:29:00
南京二級(jí)高級(jí)警長(zhǎng)李才玉案2026年5月9日開庭

南京二級(jí)高級(jí)警長(zhǎng)李才玉案2026年5月9日開庭

安志軍律師
2026-04-28 19:00:40
泡泡瑪特推出Labubu冰箱,售價(jià)5999元,上千人預(yù)約

泡泡瑪特推出Labubu冰箱,售價(jià)5999元,上千人預(yù)約

大象新聞
2026-04-26 13:01:02
云南“14歲男生奸殺同班女生”被判無期,受害人家屬將申請(qǐng)抗訴

云南“14歲男生奸殺同班女生”被判無期,受害人家屬將申請(qǐng)抗訴

新京報(bào)
2026-04-28 19:36:18
阿sa蔡卓妍宣布結(jié)婚,阿嬌鐘欣潼發(fā)文祝福:很開心你等到了那個(gè)合拍又珍視你的人,看著你被愛意包裹,滿心滿眼都是溫柔幸福,真的好欣慰

阿sa蔡卓妍宣布結(jié)婚,阿嬌鐘欣潼發(fā)文祝福:很開心你等到了那個(gè)合拍又珍視你的人,看著你被愛意包裹,滿心滿眼都是溫柔幸福,真的好欣慰

極目新聞
2026-04-28 13:14:42
放話了,太陽隊(duì)老板在球隊(duì)被雷霆隊(duì)首輪橫掃后稱已開始籌劃下一步

放話了,太陽隊(duì)老板在球隊(duì)被雷霆隊(duì)首輪橫掃后稱已開始籌劃下一步

好火子
2026-04-29 00:26:37
比披絲巾更可怕的是“瑜伽褲外穿”,廉價(jià)又卡襠,三角區(qū)更尷尬

比披絲巾更可怕的是“瑜伽褲外穿”,廉價(jià)又卡襠,三角區(qū)更尷尬

生命之泉的奧秘
2026-03-20 03:56:49
2026-04-29 06:27:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

美國(guó):對(duì)35個(gè)伊朗相關(guān)實(shí)體及個(gè)人實(shí)施制裁

頭條要聞

美國(guó):對(duì)35個(gè)伊朗相關(guān)實(shí)體及個(gè)人實(shí)施制裁

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長(zhǎng)在未來審美點(diǎn)上

態(tài)度原創(chuàng)

本地
家居
游戲
房產(chǎn)
軍事航空

本地新聞

用青花瓷的方式,打開西溪濕地

家居要聞

江景風(fēng)格 流動(dòng)的秩序

這不爽翻了?曝PS6或能穩(wěn)穩(wěn)運(yùn)行60幀+光追的游戲畫面

房產(chǎn)要聞

紅利爆發(fā)!海南,沖到全國(guó)人口增量第4?。?/h3>

軍事要聞

德國(guó)總理默茨:美國(guó)正遭受伊朗領(lǐng)導(dǎo)層的羞辱

無障礙瀏覽 進(jìn)入關(guān)懷版