国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Milvus開源語義高亮模型:砍掉80%檢索上下文

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū),始終堅持“中立、開放、共建、共創(chuàng)、合作”五項基本原則,歡迎加入共同成長。

RAG與agent用到深水區(qū),一定會遇到這個問題:明明架構(gòu)很完美,私有數(shù)據(jù)也做了接入,但項目上線三天,不但token賬單爆了,模型輸出結(jié)果也似乎總差點意思。原因在于,針對大模型的RAG、agent架構(gòu),其檢索模塊,本質(zhì)上可視為傳統(tǒng)搜索做的衍生變體。

這就導(dǎo)致了一個問題,傳統(tǒng)搜索系統(tǒng),比如搜索引擎、推薦系統(tǒng)等,需要飽和式輸出,保證用戶能夠收到關(guān)于檢索結(jié)果所有召回信息,然后人類會自動在其中選擇適合的信息消化吸收。但這一思路,遷移到RAG上,一次query,就能召回10段文檔給LLM,然后每篇文檔幾千字,這就導(dǎo)致一個query就要消耗幾萬個token。但問題是,這10篇文檔里,真正有用的句子可能只有幾十句,而剩下的,全是噪音。大量的噪音灌入,不僅浪費token,也分散了LLM注意力。


那么,怎么解決RAG召回上下文太長的問題?

不妨借鑒傳統(tǒng)搜索中的重點內(nèi)容Highlight高亮能力,來為大模型做精準的上下文剪枝。歡迎體驗zilliz最新開源的中英文雙語語義高亮模型Semantic Highlight!模型已經(jīng)發(fā)布在始智AI wisemodel社區(qū):


模型地址

https://wisemodel.cn/models/zilliz/semantic-highlight-bilingual-v1

01

SOTA模型Semantic Highlight

要解決RAG召回上下文太長的問題,一個最簡單的辦法就是,把召回文檔里真正與query語義相關(guān)的句子高亮出來,只把高亮的句子發(fā)給LLM。這樣,不僅token數(shù)量能直接減少70-80%,LLM不再被噪音干擾,也能直觀看到這個文檔的重點;并且,在RAG狀態(tài)不理想時,也能直接復(fù)盤是檢索策略的問題,還是chunking策略的問題。


目前,市面上也已經(jīng)出現(xiàn)了一些能夠初步解決這些問題的模型,但它們要么只支持英文,要么上下文窗口太小(512 token),要么協(xié)議不友好(不允許商業(yè)使用)。沒有一個能同時滿足:中英文都強、窗口夠大、泛化能力好、協(xié)議友好。所以,zilliz開源了內(nèi)部最新的Semantic Highlight(語義高亮)模型。

作為一款支持中英文雙語處理的輕量級模型,它不僅能快速在生產(chǎn)環(huán)境完成部署,幫助用戶更好的理解高亮核心內(nèi)容,裁掉無關(guān)上下文,大幅降低RAG成本。與此同時,由于Semantic Highlight 和 Context Pruning 上下文剪枝本質(zhì)是同一技術(shù)的一體兩面。因此,這款模型也能用于 Context Pruning 場景,在 Agent 應(yīng)用中對上下文做精準裁剪,降低大模型的 token 成本。目前模型權(quán)重已經(jīng)開源,MIT協(xié)議,歡迎使用~

從數(shù)據(jù)上看,在中英文數(shù)據(jù)集上的評測,模型都達到了SOTA水平。


這是out-of-domain測試。也就是說,測試數(shù)據(jù)和訓(xùn)練數(shù)據(jù)的分布完全不同。模型在所有四個數(shù)據(jù)集上都是第一。同時,這是唯一一個在中英文數(shù)據(jù)集上都表現(xiàn)優(yōu)秀的模型。其他模型要么只支持英文,要么在中文上明顯下降。比如XProvence系列,在中文wikitext2上只有0.45-0.47,Semantic Highlight 是0.60。

02

Semantic Highlight工作原理

Semantic Highlight的推理過程其實很簡單。

  1. 將輸入拼接為 [BOS] + Query + Context

  2. 對上下文中的每個 token 打分(0 到 1 之間)

  3. 將每個句子內(nèi)的 token 分數(shù)平均,得到句子分數(shù)

  4. 高亮高分句子,移除低分句子



這套思路,借鑒了來自Provence的輕量Encoder-Only模型思路,把修剪上下文當(dāng)成一個給每個token打分的任務(wù)來做。(Provence是一個專門做Context Pruning的模型,由Naver在ICLR 2025發(fā)表。)


Encoder-Only雖然是上古時代的架構(gòu),但它用0.6B上下的參數(shù)就能完成token打分任務(wù),其速度和效率,比現(xiàn)在的LLM快得多?,F(xiàn)在主流的大模型(Decoder-Only架構(gòu)),通常是一個一個token地吐詞,緩慢輸出。而Encoder-Only是并行處理,一次性給所有位置打分。而基于Encoder-Only的打分結(jié)果,再將每個句子的token得分聚合成句子得分,就可以得到每個句子的相關(guān)性分數(shù),高于閾值的句子即為highlight句子。具體的模型選擇上,選擇了BGE-M3 Reranker v2作為基礎(chǔ)模型。因為它是Encoder架構(gòu),更適配token/句子打分;多語言方面,中英文都是重點優(yōu)化語言。并且其上下文窗口能做到8192 tokens,適合RAG里更長的文檔。0.6B的參數(shù)量,在保證效率的同時,也確?;A(chǔ)模型本身有足夠好的世界知識。而且BGE-M3 Reranker v2本身就是針對Reranking需求訓(xùn)練出來的,用于做token打分這種相似性任務(wù)時,遷移學(xué)習(xí)更省力。

03

訓(xùn)練數(shù)據(jù)準備

模型架構(gòu)選好之后,需要思考的下一步是訓(xùn)練數(shù)據(jù)從哪里來?參考了Open Provence里的數(shù)據(jù)構(gòu)造和組織形式,并對其進行改進優(yōu)化(Open Provence是Provence的開源復(fù)現(xiàn)項目)。Open Provence好的一點是,它的數(shù)據(jù)來自公開的問答數(shù)據(jù)集,然后使用了一個小的LLM,對句子相關(guān)度進行標注,并生成 silver label(銀標簽)。但其不足在于,直接讓LLM直接生成標注結(jié)果,輸出結(jié)果會變得不穩(wěn)定且難以后期優(yōu)化;但傳統(tǒng)人工標注,又會成本、時間雙雙失控。因此,讓LLM在輸出標簽的時候,把推理過程也寫出來。也就是說,每條訓(xùn)練樣本除了Query、Context、Sentence Spans等字段,還有一個很重要的字段:Think process(思考過程),從而讓標注更準確,因為寫推理過程相當(dāng)于自檢一遍,可以保證更低的錯誤率。具體來說,讓模型帶上思考過程,會帶來了三個更多的優(yōu)勢:可觀測(模型為什么選這句的原因)、可調(diào)試(能快速知道標錯的內(nèi)容,是prompt問題還是知識問題)、可復(fù)用(后續(xù)即使換模型重標注,也有現(xiàn)成參考答案。)標注流程如下:


這里用于標注數(shù)據(jù)的模型,用的是本地部署的Qwen3 8B。它有天然的思考模式,可以用輸出推理過程,成本也相對可控。最終,構(gòu)造了500萬+雙語訓(xùn)練樣本,中英文各一半。英文數(shù)據(jù)來自MS MARCO、Natural Questions、GooAQ,中文數(shù)據(jù)來自DuReader、Wikipedia中文、mmarco_chinese。 其中,一部分數(shù)據(jù)是來自 Open Provence 等模型訓(xùn)練數(shù)據(jù)的重新標注,另一部分使用原始語料生成query和context,再進行標注。全部標注好的訓(xùn)練數(shù)據(jù)也開源在HuggingFace上了,方便大家二次開發(fā)或參考訓(xùn)練。https://huggingface.co/zilliz/datasets


準備好了模型架構(gòu)和數(shù)據(jù)集,接下來,在8張A100上訓(xùn)練了3個epoch,約9小時,Semantic Highlight終于成功出爐。目前,Semantic Highlight模型已經(jīng)開源,MIT協(xié)議,可以放心用在商業(yè)項目中,也歡迎大家基于這個模型的二次開發(fā)和改進,讓開源的力量薪火相傳。另外,在Zilliz Cloud云服務(wù)上,也即將上線Semantic Highlight的在線推理服務(wù),主打開箱即用。

04

致謝

Semantic Highlight模型的訓(xùn)練,離不開前人的工作,參考了Provence的理論基礎(chǔ)。它提出了用輕量級Encoder模型做上下文修剪的思路,這個思路非常優(yōu)雅。也使用了Open Provence的代碼框架(開源協(xié)議),它把訓(xùn)練流程、數(shù)據(jù)管道、模型都實現(xiàn)好了,不用重復(fù)造輪子,只需要做少量的調(diào)整。在這些基礎(chǔ)上,加入了自己的創(chuàng)新:用帶思考過程的LLM標注提升數(shù)據(jù)質(zhì)量;創(chuàng)建了500萬+雙語訓(xùn)練樣本,覆蓋中英文場景,更符合實際業(yè)務(wù)需求;選擇了更適合RAG場景的基礎(chǔ)模型(BGE-M3 Reranker v2)。只訓(xùn)練Pruning Head,專注在Semantic Highlight任務(wù)上,沒有訓(xùn)練Rerank Head。在此,向Provence團隊和Open Provence項目的貢獻者們致以誠摯的感謝。

05

  • Open Provence 項目:hotchpotch/open_provence

  • Provence 論文:arXiv:2501.16214

  • Provence 官方介紹文章:Provence: efficient and robust context pruning for retrieval-augmented generation

  • Milvus:milvus.io

  • Zilliz Cloud:zilliz.com

作者介紹


張晨

Zilliz Algorithm Engineer

----- END -----

wisemodel相關(guān):

系列模型:


關(guān)于wisemodel更多


1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核?、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
萬科創(chuàng)始人妻子解除邊控

萬科創(chuàng)始人妻子解除邊控

地產(chǎn)微資訊
2026-03-26 20:23:02
伊朗女藥劑師拒絕撤離,空襲第10天在“精準”打擊下被“誤殺”

伊朗女藥劑師拒絕撤離,空襲第10天在“精準”打擊下被“誤殺”

網(wǎng)易新聞出品
2026-03-26 11:16:13
6900萬元!摩洛哥要求塞內(nèi)加爾歸還非洲杯獎金+獎牌 后者強硬拒絕

6900萬元!摩洛哥要求塞內(nèi)加爾歸還非洲杯獎金+獎牌 后者強硬拒絕

風(fēng)過鄉(xiāng)
2026-03-26 19:13:28
張雪峰前女友哭紅眼,喊話不要給他潑臟水,曝兩人分手原因

張雪峰前女友哭紅眼,喊話不要給他潑臟水,曝兩人分手原因

茶韻浮生
2026-03-26 20:26:51
所有人都在盯中東打仗,中國卻悄悄干了件大事:歐洲突然賺麻了

所有人都在盯中東打仗,中國卻悄悄干了件大事:歐洲突然賺麻了

青青子衿
2026-03-26 01:37:03
一覺醒來,愛吃活魚的人天塌了,央視曝光的內(nèi)幕真可怕!

一覺醒來,愛吃活魚的人天塌了,央視曝光的內(nèi)幕真可怕!

濤哥銳評
2026-03-26 17:57:04
全國高速明天大調(diào)整!車主集體歡呼:早該這么干了

全國高速明天大調(diào)整!車主集體歡呼:早該這么干了

沙雕小琳琳
2026-03-26 02:05:39
張雪峰員工:辦公室已拆掉紅色錦旗,員工徹夜難眠,家長電話打爆

張雪峰員工:辦公室已拆掉紅色錦旗,員工徹夜難眠,家長電話打爆

每日人物
2026-03-26 13:34:51
堅決反對中國任何城市申辦奧運會,國際奧委會這次怕是真失算了

堅決反對中國任何城市申辦奧運會,國際奧委會這次怕是真失算了

南權(quán)先生
2026-03-25 15:25:11
姐弟倆被繼母逼吃大便、熱水燙下體、垃圾桶覓食、渾身淤青......生父威脅鄰居別管閑事,已被逮捕!

姐弟倆被繼母逼吃大便、熱水燙下體、垃圾桶覓食、渾身淤青......生父威脅鄰居別管閑事,已被逮捕!

新民周刊
2026-03-26 19:12:17
繼張雪峰之后,中醫(yī)大師黃貴華被曝心梗去世,社交賬號已變黑白

繼張雪峰之后,中醫(yī)大師黃貴華被曝心梗去世,社交賬號已變黑白

180視角
2026-03-26 11:52:12
勇敢發(fā)聲!科威特記者聯(lián)合國痛批“反以儀式”

勇敢發(fā)聲!科威特記者聯(lián)合國痛批“反以儀式”

Nee看
2026-03-26 14:15:21
跌麻了!筆記本開年銷量暴跌40%近乎腰斬:沒人買了

跌麻了!筆記本開年銷量暴跌40%近乎腰斬:沒人買了

中國能源網(wǎng)
2026-03-26 14:13:04
昨天杭州有醫(yī)院門診突然多了不少“跑友”,主動要求檢查心臟功能!醫(yī)生:長期跑步不等于心肺功能沒問題

昨天杭州有醫(yī)院門診突然多了不少“跑友”,主動要求檢查心臟功能!醫(yī)生:長期跑步不等于心肺功能沒問題

都市快報橙柿互動
2026-03-26 08:00:05
張雪峰去世真相!網(wǎng)友:偌大的公司靠他個人ip養(yǎng)活,早死是必然的

張雪峰去世真相!網(wǎng)友:偌大的公司靠他個人ip養(yǎng)活,早死是必然的

火山詩話
2026-03-25 09:18:58
“大概有幾十萬”,重慶一小區(qū)有人高空撒錢,物業(yè)稱撿回幾大桶,撒錢者正配合調(diào)查

“大概有幾十萬”,重慶一小區(qū)有人高空撒錢,物業(yè)稱撿回幾大桶,撒錢者正配合調(diào)查

新京報
2026-03-26 20:41:35
喪夫僅5個月,49歲翁帆突傳“喜訊”高調(diào)露面,狀態(tài)好到出人意料

喪夫僅5個月,49歲翁帆突傳“喜訊”高調(diào)露面,狀態(tài)好到出人意料

冷紫葉
2026-03-24 19:12:36
網(wǎng)友在烏茲別克斯坦偶遇“佛山三水城巴”,佛山方面回應(yīng):車子被轉(zhuǎn)賣到了國外

網(wǎng)友在烏茲別克斯坦偶遇“佛山三水城巴”,佛山方面回應(yīng):車子被轉(zhuǎn)賣到了國外

極目新聞
2026-03-26 17:01:19
商務(wù)部:中方將自5月1日起對所有非洲建交國全面實施零關(guān)稅舉措

商務(wù)部:中方將自5月1日起對所有非洲建交國全面實施零關(guān)稅舉措

界面新聞
2026-03-26 16:08:24
萬科高管被要求退還薪酬

萬科高管被要求退還薪酬

地產(chǎn)微資訊
2026-03-26 12:22:04
2026-03-26 22:59:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

美團發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財經(jīng)要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

旅游
教育
手機
公開課
軍事航空

旅游要聞

探訪資中文旅新地標 邂逅千年古城的詩與遠方

教育要聞

罵人沒有殺傷力?那不是白忙活嗎?

手機要聞

OPPO K15 Pro 系列定檔,嵐影呼吸燈搭配金屬中框

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時盡力摧毀伊設(shè)施

無障礙瀏覽 進入關(guān)懷版