国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

RAG系統(tǒng)優(yōu)化:三大維度提升AI助手效能

0
分享至



今天咱們不聊那些虛頭巴腦的宏大敘事,什么“AGI時代降臨”、“大模型顛覆一切”。咱們關(guān)起門來,聊一個極其痛、極其現(xiàn)實,而且每天都在各大廠和小廠的會議室里真實發(fā)生的問題:

你們公司砸了錢、費了幾個月搞出來的那個基于大模型的“知識庫”或者“智能客服”(也就是大家常說的RAG系統(tǒng)),上線之后為什么表現(xiàn)得像個“人工智障”?更要命的是,作為產(chǎn)品經(jīng)理,你到底該怎么對這玩意兒進行業(yè)務(wù)驗收?

然后產(chǎn)品經(jīng)理和研發(fā)兄弟們吭哧吭哧搞了一個月,用LangChain搭了個管線,接了個向量數(shù)據(jù)庫,選了個開源大模型或者調(diào)了個API,跑通了幾個Demo。在會議室里給老板演示的時候,問了幾個設(shè)定的好問題,回答得有模有樣,老板連連點頭。

結(jié)果一灰度上線,面對真實用戶的千奇百怪的問題,徹底崩盤了: 用戶問:“退貨運費誰出?” AI答:“根據(jù)《消費者權(quán)益保護法》,退貨運費需視具體情況而定……”(廢話連篇,就是不給確切答案)。 用戶問:“你們系統(tǒng)怎么又崩了?” AI答:“抱歉,我沒有找到關(guān)于‘系統(tǒng)又崩了’的相關(guān)信息?!?。

這時候,業(yè)務(wù)方開始罵,老板開始拍桌子。你跑去找算法工程師,算法同學(xué)兩手一攤:“模型能力就這樣,知識庫切片沒命中,大模型產(chǎn)生了幻覺,這屬于行業(yè)技術(shù)瓶頸,我能怎么辦?”

作為這口大黑鍋的最終接盤俠——產(chǎn)品經(jīng)理,你是不是覺得特別憋屈?

憋屈的根源在于:面對AI這種“生成式”的黑盒產(chǎn)品,我們過去那套互聯(lián)網(wǎng)時代的“軟件驗收標(biāo)準(zhǔn)”徹底失效了。

以前做個電商APP,下個單,要么成功要么失敗,用自動化測試跑一遍用例(Test Case),Yes or No,清清楚楚。但現(xiàn)在,面對一個用自然語言回答問題的AI,你沒法用Yes/No去衡量。它可能答對了一半,可能用錯了一個詞,可能態(tài)度很好但給的是錯誤信息。

如果你不能建立一套科學(xué)的、能落地的、能跟算法團隊拉齊認(rèn)知的“RAG業(yè)務(wù)驗收標(biāo)準(zhǔn)”,你在這個AI時代就只是個畫線框圖的原型仔,隨時被替代。

今天,我就把壓箱底的實戰(zhàn)經(jīng)驗掏出來,手把手教你建立一套RAG系統(tǒng)的評價體系。字?jǐn)?shù)有點多,但全是干貨,建議先收藏再看。

在聊怎么評估之前,咱們得先統(tǒng)一一下認(rèn)知:RAG到底是個什么玩意兒?

它分為兩個核心動作: 第一步是“檢索(Retrieval)”:用戶提問后,系統(tǒng)去你們建好的知識庫里,把跟這個問題相關(guān)的資料找出來。 第二步是“生成(Generation)”:把找出來的資料,連同用戶的問題,一起塞給大模型,讓大模型看著資料總結(jié)出一個答案。

認(rèn)清了這個本質(zhì),你就能明白一個極其重要的事實:RAG系統(tǒng)里90%的“智障”表現(xiàn),根本不是大模型變笨了,而是你的“檢索”做得很爛!

這就是所謂的“Garbage in, garbage out(垃圾進,垃圾出)”。如果用戶問A商品怎么退貨,你的系統(tǒng)從知識庫里找出來的是B商品的維修說明,然后喂給大模型。大模型再聰明,也只能基于B商品的說明給你瞎編一段。這時候你去罵大模型有“幻覺”,大模型比你還冤。

所以,評估RAG系統(tǒng),絕對不能只盯著最后的答案看。你必須把這個黑盒拆開,分段驗收。

一套真正能在業(yè)務(wù)線跑通的RAG驗收標(biāo)準(zhǔn),必須包含三個維度:找得準(zhǔn)不準(zhǔn)(檢索質(zhì)量)、答得對不對(生成質(zhì)量)、用得爽不爽(業(yè)務(wù)體驗)。

別怕這些名詞,我用產(chǎn)品經(jīng)理的語言給你翻譯。

這是整個RAG的命根子。作為PM,你要逼著算法同學(xué)給你看這里的漏斗數(shù)據(jù),絕對不能只看最終答案。

怎么評估檢索好不好?你主要盯三個點:

2. 準(zhǔn)確率(Precision)與噪音控制大白話解釋:系統(tǒng)撈出來的這5段資料里,有幾段是真正有用的? 實戰(zhàn)場景: 有時候命中率挺高,但找出來的5段資料里,只有1段有用,剩下4段全是毫不相干的廢話。這會導(dǎo)致什么結(jié)果?這會嚴(yán)重干擾大模型的注意力(這就叫Context Window的噪音污染),大模型一看這么多資料,腦子一亂,最后總結(jié)出來的答案就極其容易跑偏。這就要求你去優(yōu)化“切片策略(Chunking)”,別一撈就撈一大坨無關(guān)內(nèi)容。

好,現(xiàn)在檢索系統(tǒng)沒問題了,給大模型的資料都是精準(zhǔn)的。這時候我們再來評估大模型那張嘴靠不靠譜。這里也有三個極其關(guān)鍵的黃金指標(biāo)(脫胎于業(yè)界的RAGAS框架,但我給你講透徹):

1. 忠實度(Faithfulness):最核心的紅線!含義: 大模型的回答,必須、絕對、完全能夠從你提供的資料里推導(dǎo)出來,不能有一絲一毫的自由發(fā)揮。 舉個致命例子: 資料里寫“本產(chǎn)品退貨運費由買家承擔(dān)”。大模型回答:“本產(chǎn)品支持7天無理由退貨,通常情況下運費由買家承擔(dān),但如果是Plus會員可以免運費。”(這里的Plus會員免運費可能大模型從自己肚子里掏出來的公域知識,但你們公司根本沒有這個規(guī)定)。 PM怎么驗收: 這叫“典型的RAG幻覺”。在業(yè)務(wù)線,你可以答非所問,但絕對不能瞎編亂造給業(yè)務(wù)挖坑。一旦發(fā)現(xiàn)忠實度低,必須通過修改Prompt(提示詞),死死按住大模型:“如果資料里沒有提到,你就必須回答‘資料未提供’,嚴(yán)禁你自己補充信息!”

2. 答案相關(guān)性(Answer Relevance):能不能說人話,直擊痛點?含義: 回答是不是直接解答了用戶的問題?有沒有兜圈子?有沒有說廢話? 舉個例子: 用戶問:“北京到上海今天還有高鐵票嗎?”資料里有相關(guān)的列車時刻表。大模型回答:“高鐵是中國重要的高速鐵路交通工具,北京到上海是熱門航線。根據(jù)資料,今天下午3點和5點還有G123和G124次列車的車票?!?PM怎么驗收: 這種回答雖然沒造假(忠實度合格),但極其啰嗦,答案相關(guān)性低。特別是在移動端屏幕那么小,用戶沒耐心看廢話。這時候你需要優(yōu)化Prompt:“請用最簡練的語言,一句話直接給出結(jié)論,再補充細(xì)節(jié)?!?/p>

到了這一步,才算是回到了咱們產(chǎn)品經(jīng)理的絕對主場。不管前面算法指標(biāo)吹得多天花亂墜,最終我們要看業(yè)務(wù)漏斗。一套RAG系統(tǒng)到底成沒成,看這幾個真實世界的指標(biāo):

1. 首字響應(yīng)耗時(TTFT – Time To First Token)別扯什么大模型推理慢。在C端互聯(lián)網(wǎng),如果用戶發(fā)完問題,界面上出現(xiàn)那個“正在輸入…”的加載圈超過了3秒鐘還沒吐出第一個字,50%的用戶就切出去看微信了;超過5秒,這個功能宣告死亡。 你必須跟架構(gòu)師死磕這個指標(biāo):是檢索太慢?還是向量庫拉胯?還是大模型API響應(yīng)太慢?怎么做并發(fā)流式輸出(Streaming)?這是極其硬核的用戶體驗。

2. 采納率 / 任務(wù)完成率(Task Success Rate)千萬別只看那個大拇指(點贊)和踩(點踩)。我跟你講句實話:用戶在覺得好用的時候,是絕對不會去點贊的,他拿了答案就走了;只有在答案極其弱智惹怒他的時候,他才會去點個踩。所以你要看“隱性行為反饋”。什么叫采納?

3. 會話輪數(shù)與追問率(Session Depth)這是個雙刃劍,要結(jié)合業(yè)務(wù)場景看。如果是客服場景,輪數(shù)越少越好,說明一次性解決了問題;如果是陪伴型或者探索型的知識Agent,輪數(shù)越多說明用戶越有探索欲,產(chǎn)品越粘人。產(chǎn)品經(jīng)理必須提前定義好你的北極星指標(biāo)到底是什么方向。

現(xiàn)在市面上流行一種做法,叫LLM-as-a-Judge(用大模型做裁判)。

什么意思呢?就是因為人工評估幾百上千個問答對太累了,有些聰明的研發(fā)就寫個腳本:把用戶的提問、RAG系統(tǒng)的回答,打包扔給GPT-4,寫一段Prompt說:“你現(xiàn)在是一個嚴(yán)厲的裁判,請給這個回答打分,滿分10分?!?/strong>

老板一看,太高效了!自動化測試!降本增效!

我在此鄭重警告各位:在RAG系統(tǒng)上線的初期(冷啟動和MVP階段),不能用這套自動化評估。

為什么?老兵給你總結(jié)了三大坑:

坑一:AI會包庇AI(自帶偏見)大模型有一種天然的“冗長偏好(Verbosity Bias)”和“自我肯定”。它看到那種長篇大論、用了大量連詞的廢話,會天然覺得“寫得真好”,給你打個高分。哪怕這個回答根本沒解決業(yè)務(wù)問題。

坑二:大模型不懂你們的業(yè)務(wù)潛規(guī)則你讓GPT-4當(dāng)裁判,GPT-4哪知道你們公司退費的特殊流程?哪知道你們內(nèi)部黑話里的“盤活”、“抓手”是什么意思?它只能從語言學(xué)上判斷邏輯通不通,根本判斷不了業(yè)務(wù)上的“致命錯誤”。

坑三:把黑盒交給了另一個黑盒你本來就搞不懂你的RAG為什么答錯,現(xiàn)在你引入了一個裁判大模型,它給你打了個6分。你既不知道為什么你的RAG答錯了,也不知道裁判為什么給6分。系統(tǒng)徹底成了玄學(xué),你還怎么優(yōu)化?

那么,正確的做法是什么?—— 放棄幻想,老老實實去建“黃金數(shù)據(jù)集(Ground Truth)”!

什么叫黃金數(shù)據(jù)集?這是產(chǎn)品經(jīng)理在AI時代最重要的資產(chǎn),比代碼還值錢。 你需要拉著你們最資深的客服、最懂業(yè)務(wù)的運營,甚至你自己親自下場,手工梳理出100到200個用戶在真實場景下最常問、最刁鉆的問題。

然后,對于每一個問題,人工寫出標(biāo)準(zhǔn)答案(標(biāo)準(zhǔn)不一定是一段話,可以是幾個必須包含的關(guān)鍵知識點)。

這就成了你的“黃金標(biāo)尺”。以后算法團隊每調(diào)一次參、每換一個大模型,你先把這100個問題跑一遍。

具體的盲測方法(強烈建議收藏):拉上業(yè)務(wù)線的同學(xué),把問題打亂。左邊放舊版本的回答,右邊放新版本的回答,隱去版本號。讓業(yè)務(wù)同學(xué)像品酒師一樣盲測:“A更好,還是B更好?好在哪里?” 只有人工盲測的勝率超過了某個閾值,這個版本才允許灰度上線。

前期的臟活累活,是為了后期系統(tǒng)不至于徹底失控。沒有任何捷徑可走,誰想偷懶,誰就會在生產(chǎn)環(huán)境被用戶的投訴教做人。

以前我們做產(chǎn)品,畫個原型,寫個PRD,扔給開發(fā),然后就等著驗收UI和交互了。 現(xiàn)在做AI產(chǎn)品,交互極其簡單,就是一個對話框。你難道天天去調(diào)整對話框的圓角大小嗎?

在Agent和RAG時代,產(chǎn)品經(jīng)理的核心價值,已經(jīng)從“畫界面”變成了“定義規(guī)則和建立數(shù)據(jù)飛輪”。

一個懂行的AI產(chǎn)品經(jīng)理,在負(fù)責(zé)RAG項目時,他的工作日常應(yīng)該是這樣的:

2. 建立常態(tài)化的 Bad Case Review(錯題本審查機制)系統(tǒng)上線后,每天都會產(chǎn)生大量的糟糕回答(Bad Case)。你必須搭建一個后臺工具,把那些被用戶點踩的、引發(fā)用戶長篇大論怒罵的對話全抓出來。 每周拉著算法工程師和業(yè)務(wù)方開“錯題本復(fù)盤會”。 拿著一個錯誤的回答,順藤摸瓜:

3. 設(shè)計優(yōu)雅的“人工接管”防線(HITL – Human in the Loop)無論你評估做得多好,大模型一定會犯錯。產(chǎn)品經(jīng)理必須要有兜底思維。 在RAG系統(tǒng)里,什么是底線?比如涉及法律糾紛、涉及金融轉(zhuǎn)賬、涉及嚴(yán)重客訴。你必須在系統(tǒng)里設(shè)定一個規(guī)則:當(dāng)用戶的問題觸發(fā)了某些敏感詞(比如“起訴”、“賠償”、“報警”),或者大模型給自己的輸出置信度很低時,系統(tǒng)必須立刻閉嘴,并將對話無縫轉(zhuǎn)接給人工客服。不讓AI惹禍,比讓AI出彩更考驗產(chǎn)品經(jīng)理的功力。

這大半年,隨著百模大戰(zhàn)的冷卻,大家已經(jīng)看明白了:卷大模型的參數(shù)是硅谷巨頭和國內(nèi)大廠的事情,對于剩下的99%的移動互聯(lián)網(wǎng)從業(yè)者來說,真正的戰(zhàn)場在“應(yīng)用落地”。

而應(yīng)用落地最硬的骨頭,就是怎么把那個“經(jīng)常胡說八道”的模型,調(diào)教成一個“能在特定業(yè)務(wù)場景里穩(wěn)定產(chǎn)出價值”的系統(tǒng)。

不要去迷信那些學(xué)術(shù)界搞出來的跑分榜單(Leaderboard)。一個大模型在考試?yán)锬苣玫谝?,不代表它能處理好你們公司?fù)雜的退費政策。

評測標(biāo)準(zhǔn),永遠(yuǎn)掌握在離用戶最近、離業(yè)務(wù)最近的人手里——那就是你,產(chǎn)品經(jīng)理。

建立黃金測試集、盯死首字響應(yīng)耗時、每周復(fù)盤Bad Case、搭建隱性反饋飛輪。當(dāng)你把這套“臟活累活”真正跑通的時候,你就不再是一個在AI浪潮里感到焦慮的旁觀者,而是一個真正掌握了AI定價權(quán)、能駕馭這種新質(zhì)生產(chǎn)力的系統(tǒng)架構(gòu)師。

聲明:個人原創(chuàng),僅供參考

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
一路走好?趙本山靈堂、大衣哥跳樓身亡、劉曉慶去世,謠言太離譜

一路走好?趙本山靈堂、大衣哥跳樓身亡、劉曉慶去世,謠言太離譜

長歌侃娛
2026-04-13 10:32:42
漲粉78萬!劉雨鑫帶火莫氏雞煲后全身而退,贏麻了

漲粉78萬!劉雨鑫帶火莫氏雞煲后全身而退,贏麻了

雷科技
2026-04-13 16:15:35
讓中國的光刻機“變廢鐵”,日本對華下狠手,外媒:比美國人還絕

讓中國的光刻機“變廢鐵”,日本對華下狠手,外媒:比美國人還絕

一曲一場談
2026-04-12 21:54:14
世錦賽戰(zhàn)報:147,常冰玉豪取135萬獎金!再爆大冷4號種子7-10出局

世錦賽戰(zhàn)報:147,常冰玉豪取135萬獎金!再爆大冷4號種子7-10出局

求球不落諦
2026-04-13 05:28:55
鄭麗文返臺發(fā)表講話,賴清德急了,民眾黨暴露真面目,不簡單

鄭麗文返臺發(fā)表講話,賴清德急了,民眾黨暴露真面目,不簡單

DS北風(fēng)
2026-04-12 19:36:09
500萬拍下張雪機車的“洗臉熊”:門店訂單量翻倍,年初多地門店陷入“跑路”風(fēng)波

500萬拍下張雪機車的“洗臉熊”:門店訂單量翻倍,年初多地門店陷入“跑路”風(fēng)波

藍(lán)鯨新聞
2026-04-12 21:43:41
周杰倫新MV神秘老外帥到搶鏡 驚爆真實身份「是昆凌的叔叔」!

周杰倫新MV神秘老外帥到搶鏡 驚爆真實身份「是昆凌的叔叔」!

ETtoday星光云
2026-04-13 17:04:11
警惕別有用心者將臺灣推入深淵

警惕別有用心者將臺灣推入深淵

烽火瞭望者
2026-04-13 06:23:17
特朗普公開罵教皇“喜歡犯罪” 美梵陷入數(shù)十年來最尖銳對立

特朗普公開罵教皇“喜歡犯罪” 美梵陷入數(shù)十年來最尖銳對立

娛樂的宅急便
2026-04-13 16:47:34
港口滯留費用暴漲,美國終于下場,中方心意已決,巴拿馬苦不堪言

港口滯留費用暴漲,美國終于下場,中方心意已決,巴拿馬苦不堪言

何轐說
2026-04-01 15:30:30
浪姐史上翻車最快的人出現(xiàn)了,網(wǎng)友:人不紅果然是有原因的

浪姐史上翻車最快的人出現(xiàn)了,網(wǎng)友:人不紅果然是有原因的

阿坹武器裝備科普
2026-04-13 06:37:44
溫氏股份回應(yīng)送莫叔1000只雞:莫叔有了更多合作想法,公司要走相應(yīng)流程,中間需要時間

溫氏股份回應(yīng)送莫叔1000只雞:莫叔有了更多合作想法,公司要走相應(yīng)流程,中間需要時間

金融界
2026-04-13 14:05:01
歐爾班若落選,是匈牙利整個國家悲劇的開始

歐爾班若落選,是匈牙利整個國家悲劇的開始

清濱酒客
2026-04-12 11:14:36
歐冠2006冠軍名單被提前泄露,12年后全中,歐足聯(lián)至今沒吭聲

歐冠2006冠軍名單被提前泄露,12年后全中,歐足聯(lián)至今沒吭聲

籃壇第一線
2026-04-13 14:48:02
暖心!廣州增城蔗農(nóng)擺23圍流水席答謝游客 20余天清空50多畝滯銷甘蔗

暖心!廣州增城蔗農(nóng)擺23圍流水席答謝游客 20余天清空50多畝滯銷甘蔗

朗威談星座
2026-04-13 14:41:12
被網(wǎng)友的“舊衣服消耗大法”驚到了,一件都別扔,用途很廣

被網(wǎng)友的“舊衣服消耗大法”驚到了,一件都別扔,用途很廣

室內(nèi)設(shè)計師有料兒
2026-04-07 22:14:58
北方稀土:一季度凈利潤同比預(yù)增109.14%—118.43%

北方稀土:一季度凈利潤同比預(yù)增109.14%—118.43%

證券時報
2026-04-13 16:52:05
浙江富豪1家4口慘遭滅門,丈夫裝死幸存,兇手說出真相全場愣住

浙江富豪1家4口慘遭滅門,丈夫裝死幸存,兇手說出真相全場愣住

清茶淺談
2025-04-09 19:22:36
歐爾班敗選,最大輸家是普京,其次是特朗普,最大贏家是澤連斯基

歐爾班敗選,最大輸家是普京,其次是特朗普,最大贏家是澤連斯基

書紀(jì)文譚
2026-04-13 18:11:31
人均600萬到欠400億,毀掉"天下第一村"的不是別人,是他們自己

人均600萬到欠400億,毀掉"天下第一村"的不是別人,是他們自己

聞香閣
2026-04-11 08:40:49
2026-04-13 19:15:00
真正能保護你的
真正能保護你的
真正能保護你的
447文章數(shù) 167關(guān)注度
往期回顧 全部

科技要聞

"抄作業(yè)"近四年,馬斯克版微信周五上線

頭條要聞

特朗普"罕見承認(rèn)"政治后果 被指考慮恢復(fù)對伊有限打擊

頭條要聞

特朗普"罕見承認(rèn)"政治后果 被指考慮恢復(fù)對伊有限打擊

體育要聞

一支球隊不夠爛,也是一種悲哀

娛樂要聞

賈玲減重后現(xiàn)身馮鞏生日宴 身材未反彈

財經(jīng)要聞

起底AI"造黃"灰產(chǎn):19.9元"一鍵脫衣"

汽車要聞

不止命名更純粹 領(lǐng)克10/10+要做純電操控新王

態(tài)度原創(chuàng)

旅游
家居
手機
健康
游戲

旅游要聞

千城勝景|山東巨野:春花盛放盡顯繽紛春色

家居要聞

復(fù)古風(fēng)格 自然簡約

手機要聞

傳音Infinix Note 60 Pro發(fā)布:后置點陣屏成新機最大亮點

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

Steam主機要發(fā)售了!曝首批Steam手柄已準(zhǔn)備就緒

無障礙瀏覽 進入關(guān)懷版