国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

重新定義嵌入模型標(biāo)桿,“源”EB 2.0檢索排序雙SOTA

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國(guó)的中立開(kāi)放的AI開(kāi)源社區(qū)。正在,歡迎加入共同成長(zhǎng)。

浪潮信息AI團(tuán)隊(duì)正式發(fā)布"源"Yuan-EB 2.0系列模型(Yuan-embedding-2.0,嵌入模型)。根據(jù)HuggingFace權(quán)威評(píng)測(cè)榜單MTEB和C-MTEB最新更新顯示,"源"Yuan-EB 2.0模型在檢索任務(wù)(Retrieval)與排序任務(wù)(Reranking)雙榜單中,斬獲"雙SOTA"的絕佳成績(jī)。中文模型在C-MTEB榜單檢索任務(wù)獲得81.76分、排序任務(wù)獲得77.94分;英文模型在MTEB榜單檢索任務(wù)獲得70.69分、排序任務(wù)獲得53.27分,展現(xiàn)了其在自然語(yǔ)言處理領(lǐng)域的強(qiáng)大能力。

尤其值得關(guān)注的是,"源"Yuan-EB 2.0模型僅以0.3B和0.6B的輕量級(jí)參數(shù)規(guī)模,全面超越眾多大參數(shù)量主流模型,樹(shù)立了"小參數(shù)、高性能、低開(kāi)銷"的技術(shù)新標(biāo)桿,為檢索增強(qiáng)生成(RAG)、語(yǔ)義搜索等應(yīng)用落地提供了更優(yōu)的技術(shù)方案。已上線始智AI-wisemodel開(kāi)源社區(qū),歡迎體驗(yàn)。


模型地址

https://wisemodel.cn/models/IEIT-Yuan/Yuan-embedding-2.0-zh

https://wisemodel.cn/models/IEIT-Yuan/Yuan-embedding-2.0-en/file

01.

源Yuan-EB2.0斬獲

檢索與排序任務(wù)雙項(xiàng)第一

"源"Yuan-EB 2.0系列模型由浪潮信息自主研發(fā),創(chuàng)新性地利用源大模型進(jìn)行高質(zhì)量訓(xùn)練數(shù)據(jù)構(gòu)建,通過(guò)強(qiáng)化型Reranker損失函數(shù)、多階段漸進(jìn)式訓(xùn)練方案、動(dòng)態(tài)難負(fù)例挖掘等技術(shù)突破,顯著提升了模型在檢索與排序任務(wù)上的表現(xiàn)。作為RAG系統(tǒng)的核心組件,嵌入模型負(fù)責(zé)將文本轉(zhuǎn)換為向量形式,直接決定檢索的精準(zhǔn)性和效率。"源"Yuan-EB 2.0模型包括中文和英文兩個(gè)模型,分別針對(duì)中英文語(yǔ)義特性進(jìn)行深度優(yōu)化,并在醫(yī)療、法律、金融、電商等垂直領(lǐng)域進(jìn)行針對(duì)性訓(xùn)練,確保模型在專業(yè)場(chǎng)景下的優(yōu)異表現(xiàn)。

中文版本,C-MTEB榜單

C-MTEB(Chinese Massive Text Embedding Benchmark)是業(yè)界公認(rèn)的中文Embedding模型權(quán)威評(píng)測(cè)基準(zhǔn),涵蓋Classification、Clustering、Pair Classification、Reranking、Retrieval、STS等六大任務(wù)類型,共35個(gè)公開(kāi)數(shù)據(jù)集。Yuan-embedding-2.0-zh在Retrieval和Reranking任務(wù)上表現(xiàn)突出,分別以81.76分和77.94分的成績(jī)奪得雙料冠軍,全面超越業(yè)界主流大參數(shù)量模型,展現(xiàn)了卓越的中文語(yǔ)義理解與檢索能力。


英文版本:MTEB榜單

MTEB(Massive Text Embedding Benchmark)是全球最權(quán)威的多語(yǔ)言Embedding模型評(píng)測(cè)基準(zhǔn),涵蓋8大任務(wù)類型、58個(gè)數(shù)據(jù)集、112種語(yǔ)言。其中英文評(píng)測(cè)集作為最具競(jìng)爭(zhēng)力的賽道,匯聚了全球頂尖Embedding模型。Yuan-embedding-2.0-en英文版本在該榜單中取得突破性成績(jī),在Retrieval任務(wù)獲得70.69分、Reranking任務(wù)獲得53.27分,僅以0.6B的輕量級(jí)參數(shù)規(guī)模擊敗眾多大參數(shù)模型,充分證明了其技術(shù)創(chuàng)新的有效性和先進(jìn)性。


02.

樹(shù)立“小參數(shù)、高性能、低開(kāi)銷”技術(shù)新標(biāo)桿

“源”Yuan-EB 2.0模型以輕量級(jí)的 0.3B 和 0.6B 參數(shù)規(guī)模,實(shí)現(xiàn)了對(duì)諸多大參數(shù)模型的性能反超,重新定義了“小參數(shù)、高性能、低開(kāi)銷”的技術(shù)新標(biāo)桿,其背后得益于研發(fā)團(tuán)隊(duì)在技術(shù)架構(gòu)與訓(xùn)練方法上的多項(xiàng)原創(chuàng)性創(chuàng)新:

強(qiáng)化型Reranker損失函數(shù)

浪潮信息AI團(tuán)隊(duì)設(shè)計(jì)了一種創(chuàng)新的強(qiáng)化型Reranker損失函數(shù),通過(guò)三個(gè)自適應(yīng)機(jī)制的協(xié)同作用,實(shí)現(xiàn)了訓(xùn)練過(guò)程的智能化調(diào)節(jié):

其中:

  • 動(dòng)態(tài)Margin機(jī)制:基于樣本得分方差自動(dòng)調(diào)整優(yōu)化目標(biāo),當(dāng)模型對(duì)樣本區(qū)分度高時(shí)提升margin要求,反之則適當(dāng)降低,實(shí)現(xiàn)因材施教的訓(xùn)練效果;

  • 難例加權(quán)策略:采用指數(shù)衰減函數(shù)自動(dòng)識(shí)別并重點(diǎn)優(yōu)化邊界樣本,將計(jì)算資源聚焦在真正有價(jià)值的難分樣本上,大幅提升訓(xùn)練效率;

  • 自適應(yīng)溫度調(diào)節(jié):根據(jù)正負(fù)樣本得分差距動(dòng)態(tài)調(diào)整損失函數(shù)的陡峭程度,有效防止對(duì)簡(jiǎn)單樣本的過(guò)擬合,增強(qiáng)模型泛化能力;

這種三位一體的設(shè)計(jì)使得損失函數(shù)能夠智能感知樣本特性并自動(dòng)調(diào)整優(yōu)化策略,顯著提升了Reranking任務(wù)的精排能力。該方法具有自動(dòng)聚焦難樣本、避免過(guò)度擬合易樣本的優(yōu)勢(shì),訓(xùn)練過(guò)程穩(wěn)定、收斂快,同時(shí)對(duì)搜索、問(wèn)答、對(duì)話等不同任務(wù)場(chǎng)景展現(xiàn)出強(qiáng)大的適應(yīng)性。

多階段漸進(jìn)式訓(xùn)練

模型訓(xùn)練采用精心設(shè)計(jì)的多階段漸進(jìn)式方案:


  • 大規(guī)模弱監(jiān)督預(yù)訓(xùn)練:利用海量配對(duì)數(shù)據(jù)進(jìn)行對(duì)比學(xué)習(xí),構(gòu)建扎實(shí)的語(yǔ)義表征基礎(chǔ);

  • 高質(zhì)量監(jiān)督微調(diào):基于人工標(biāo)注的高質(zhì)量數(shù)據(jù)集進(jìn)行精細(xì)化訓(xùn)練,提升模型在特定任務(wù)上的表現(xiàn);

  • 任務(wù)特定優(yōu)化:針對(duì)Retrieval和Reranking任務(wù)分別設(shè)計(jì)優(yōu)化策略,充分發(fā)揮模型在不同場(chǎng)景下的潛力;


動(dòng)態(tài)難負(fù)例挖掘

浪潮信息AI團(tuán)隊(duì)創(chuàng)新性地提出了動(dòng)態(tài)難負(fù)例挖掘方法,在訓(xùn)練過(guò)程中實(shí)時(shí)識(shí)別并利用高質(zhì)量負(fù)樣本,能夠提供:


  • 自動(dòng)過(guò)濾偽負(fù)例,避免噪聲樣本對(duì)模型訓(xùn)練的干擾;

  • 動(dòng)態(tài)調(diào)整負(fù)例難度,確保模型始終在最佳學(xué)習(xí)區(qū)間內(nèi)訓(xùn)練;

  • 有效提升模型對(duì)細(xì)粒度語(yǔ)義差異的判別能力;


多語(yǔ)言深度優(yōu)化

針對(duì)語(yǔ)言特性進(jìn)行專項(xiàng)優(yōu)化:


  • 語(yǔ)義理解增強(qiáng):針對(duì)中英文語(yǔ)言的詞語(yǔ)搭配、語(yǔ)法結(jié)構(gòu)和語(yǔ)義關(guān)聯(lián)特點(diǎn)進(jìn)行深度訓(xùn)練,準(zhǔn)確捕捉不同語(yǔ)言表達(dá)的細(xì)微語(yǔ)義差異;

  • 多領(lǐng)域覆蓋:在通用領(lǐng)域和垂直行業(yè)場(chǎng)景中進(jìn)行廣泛訓(xùn)練,提升模型對(duì)不同領(lǐng)域文本的檢索和排序能力;

  • 高效編碼與泛化:優(yōu)化文本的向量表征效率,通過(guò)多樣化數(shù)據(jù)訓(xùn)練增強(qiáng)模型在不同應(yīng)用場(chǎng)景下的泛化能力,在保持高精度的同時(shí)提升檢索響應(yīng)速度;


元腦企智EPAI平臺(tái)集成“源”Yuan-EB 2.0模型,加速知識(shí)庫(kù)構(gòu)建與性能提升

目前,"源"Yuan-EB 2.0模型現(xiàn)已完成在元腦企智EPAI平臺(tái)的全面部署。針對(duì)智能搜索、RAG增強(qiáng)、智能客服等業(yè)務(wù)需求,企業(yè)用戶可直接在平臺(tái)上調(diào)用該模型,體驗(yàn)低算力成本下的極致語(yǔ)義理解與精排效果。通過(guò)與元腦企智EPAI平臺(tái)多階段RAG檢索增強(qiáng)技術(shù),實(shí)現(xiàn)企業(yè)私有數(shù)據(jù)、行業(yè)專業(yè)知識(shí)與通用知識(shí)的高效整合,攻克大模型知識(shí)時(shí)效性難題,為業(yè)務(wù)場(chǎng)景提供精準(zhǔn)、專業(yè)的生成內(nèi)容保障。

依托元腦企智EPAI平臺(tái)完整的工具鏈支持,企業(yè)無(wú)需深厚的技術(shù)技術(shù)積累即可快速搭建智能應(yīng)用。"源"Yuan-EB 2.0模型優(yōu)異的檢索與排序性能,配合平臺(tái)的一站式開(kāi)發(fā)能力,使企業(yè)能夠以更低成本、更高效率構(gòu)建專屬知識(shí)庫(kù)系統(tǒng),切實(shí)釋放數(shù)據(jù)價(jià)值,全面提升企業(yè)的智能化水平。

----- END -----


wisemodel相關(guān):

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開(kāi)源社區(qū)建設(shè)需要長(zhǎng)期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開(kāi)源社區(qū)的志愿者計(jì)劃和開(kāi)源共創(chuàng)計(jì)劃。期待更多開(kāi)發(fā)者將開(kāi)源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開(kāi)放的AI開(kāi)源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請(qǐng)加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開(kāi)源社區(qū)動(dòng)態(tài)。

2

歡迎加盟wisemodel開(kāi)源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來(lái),逐漸成為影響力日益擴(kuò)大的中立開(kāi)放的AI開(kāi)源社區(qū),為了加快公司發(fā)展,我們長(zhǎng)期需要技術(shù)、運(yùn)營(yíng)等人才加盟,技術(shù)側(cè)重在AI infra、后端開(kāi)發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開(kāi)發(fā)者生態(tài)運(yùn)營(yíng)的成員,歡迎感興趣的朋友加盟,可以通過(guò)添加wisemodel微信,或者將簡(jiǎn)歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵(lì)高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開(kāi)源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開(kāi)源社區(qū)

始智AI wisemodel.cn開(kāi)源社區(qū)由清華校友總會(huì)AI大數(shù)據(jù)專委會(huì)副秘書(shū)長(zhǎng)劉道全創(chuàng)立,旨在打造和建設(shè)中立開(kāi)放的AI開(kāi)源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開(kāi)源社區(qū),匯聚主要AI開(kāi)源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核?、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開(kāi)發(fā)者,以及政府部門、學(xué)會(huì)協(xié)會(huì)、聯(lián)盟、基金會(huì)等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開(kāi)源創(chuàng)新生態(tài)。

向上滑動(dòng)查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
黃金、白銀,直線跳水!特朗普,大消息!

黃金、白銀,直線跳水!特朗普,大消息!

證券時(shí)報(bào)e公司
2026-03-26 14:47:48
3月26日下午中國(guó)女排!傳來(lái)朱婷、李盈瑩、袁心玥最新消息

3月26日下午中國(guó)女排!傳來(lái)朱婷、李盈瑩、袁心玥最新消息

民哥臺(tái)球解說(shuō)
2026-03-26 16:17:49
太扎心!遼寧一中年男子小便怒斥妻子舉布遮擋稍高,就撒手人寰了

太扎心!遼寧一中年男子小便怒斥妻子舉布遮擋稍高,就撒手人寰了

火山詩(shī)話
2026-03-26 06:16:11
寫小說(shuō)判十年,把生殖器放女孩嘴巴里判兩年九個(gè)月

寫小說(shuō)判十年,把生殖器放女孩嘴巴里判兩年九個(gè)月

昊軒看世界
2026-03-24 19:56:42
教育部宣布中考重大變革,取消 5:5 分流,升學(xué)規(guī)則將全面調(diào)整?

教育部宣布中考重大變革,取消 5:5 分流,升學(xué)規(guī)則將全面調(diào)整?

今朝牛馬
2026-03-26 20:22:18
丞相是丞相,宰相是宰相,兩者一字之差卻天壤之別,可別分不清楚

丞相是丞相,宰相是宰相,兩者一字之差卻天壤之別,可別分不清楚

觀史搜尋著
2026-03-26 01:10:50
央視發(fā)文,60歲釋永信再迎噩耗,被他害慘的4個(gè)明星也出了口惡氣

央視發(fā)文,60歲釋永信再迎噩耗,被他害慘的4個(gè)明星也出了口惡氣

輝哥說(shuō)動(dòng)漫
2026-03-25 12:20:14
特朗普真要來(lái)?美媒公布其訪華時(shí)間后,匈牙利直言:中國(guó)不可戰(zhàn)勝

特朗普真要來(lái)?美媒公布其訪華時(shí)間后,匈牙利直言:中國(guó)不可戰(zhàn)勝

講者普拉斯
2026-03-26 22:09:39
20億美元還不夠!中企對(duì)巴拿馬索賠漲價(jià),巴政府內(nèi)部已經(jīng)亂套了

20億美元還不夠!中企對(duì)巴拿馬索賠漲價(jià),巴政府內(nèi)部已經(jīng)亂套了

悄悄史話
2026-03-26 14:09:05
宋美齡書(shū)法對(duì)比:鋼筆字似小學(xué)生,英文手稿如中學(xué)生!

宋美齡書(shū)法對(duì)比:鋼筆字似小學(xué)生,英文手稿如中學(xué)生!

書(shū)畫(huà)相約
2026-03-26 07:49:18
港口管控升級(jí)!滯留中國(guó)巴拿馬船暴漲3倍,巴拿馬政府吃不消了

港口管控升級(jí)!滯留中國(guó)巴拿馬船暴漲3倍,巴拿馬政府吃不消了

肖茲探秘說(shuō)
2026-03-26 20:07:23
2個(gè)重大信號(hào)出現(xiàn)!要反轉(zhuǎn)了?

2個(gè)重大信號(hào)出現(xiàn)!要反轉(zhuǎn)了?

說(shuō)股鯨
2026-03-26 22:00:03
撿漏成功!廣州市一棟三層別墅拍賣,被人撿漏170.6萬(wàn)就競(jìng)得,還要啥套間

撿漏成功!廣州市一棟三層別墅拍賣,被人撿漏170.6萬(wàn)就競(jìng)得,還要啥套間

阿離家居
2026-03-26 16:52:37
國(guó)際油價(jià)漲幅擴(kuò)大 布倫特原油期貨站上105美元/桶

國(guó)際油價(jià)漲幅擴(kuò)大 布倫特原油期貨站上105美元/桶

每日經(jīng)濟(jì)新聞
2026-03-26 15:11:37
長(zhǎng)護(hù)險(xiǎn)制度全面推開(kāi)!國(guó)家醫(yī)保局:參保人無(wú)論來(lái)自農(nóng)村還是城市,從同一個(gè)資金池報(bào)銷費(fèi)用

長(zhǎng)護(hù)險(xiǎn)制度全面推開(kāi)!國(guó)家醫(yī)保局:參保人無(wú)論來(lái)自農(nóng)村還是城市,從同一個(gè)資金池報(bào)銷費(fèi)用

紅星新聞
2026-03-26 11:28:05
3.73-1.79!國(guó)足傳來(lái)好消息,2-1爆冷世界杯魚(yú)腩隊(duì)?比賽時(shí)間如下

3.73-1.79!國(guó)足傳來(lái)好消息,2-1爆冷世界杯魚(yú)腩隊(duì)?比賽時(shí)間如下

侃球熊弟
2026-03-26 21:09:11
美伊談崩內(nèi)幕:伊萬(wàn)卡是“肉票”,特朗普女婿是“以色列內(nèi)線”?

美伊談崩內(nèi)幕:伊萬(wàn)卡是“肉票”,特朗普女婿是“以色列內(nèi)線”?

矚望云霄
2026-03-25 18:20:59
國(guó)足VS庫(kù)拉索:留洋小將坐鎮(zhèn)中場(chǎng),韋世豪王鈺棟領(lǐng)銜,張玉寧沖鋒

國(guó)足VS庫(kù)拉索:留洋小將坐鎮(zhèn)中場(chǎng),韋世豪王鈺棟領(lǐng)銜,張玉寧沖鋒

零度眼看球
2026-03-26 07:23:48
中央定調(diào),養(yǎng)老金調(diào)整方向明確,2026年若上漲,企退能多漲3%嗎?

中央定調(diào),養(yǎng)老金調(diào)整方向明確,2026年若上漲,企退能多漲3%嗎?

有范又有料
2026-03-26 14:35:52
1958年周恩來(lái)突然提出辭去總理職務(wù),毛主席聽(tīng)后只說(shuō)了一句話,全場(chǎng)沉默

1958年周恩來(lái)突然提出辭去總理職務(wù),毛主席聽(tīng)后只說(shuō)了一句話,全場(chǎng)沉默

文史明鑒
2026-03-24 18:49:17
2026-03-26 22:52:49
wisemodel開(kāi)源社區(qū) incentive-icons
wisemodel開(kāi)源社區(qū)
始智AI wisemodel.cn開(kāi)源社區(qū),打造中國(guó)版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣大戰(zhàn)后成績(jī)單:虧損超200億

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產(chǎn):二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂(lè)要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開(kāi)啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

教育
本地
親子
時(shí)尚
公開(kāi)課

教育要聞

罵人沒(méi)有殺傷力?那不是白忙活嗎?

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬(wàn)遍

親子要聞

你好,我是饅頭,快開(kāi)門!

這些才是適合春季的穿搭!不沉悶、不單調(diào),大方靚麗又減齡

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版