国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網易首頁 > 網易號 > 正文 申請入駐

“百模大戰(zhàn)”,夯實基礎模型,方是大模型發(fā)展之路

0
分享至

今年以來,ChatGPT引領了全球人工智能的新一輪創(chuàng)新浪潮。以中國為例,據《2023—2024年中國人工智能計算力發(fā)展評估報告》顯示,截至2023年10月,中國累計發(fā)布兩百余個大模型(包括基礎和行業(yè)類),已進入“百模大戰(zhàn)”的新時代,在彰顯我國人工智能領域創(chuàng)新實力和發(fā)展?jié)摿Φ耐瑫r,對如何選擇和走出具有中國特色的大模型發(fā)展之路也提出了挑戰(zhàn)。

心急吃不了熱豆腐,“全能”基礎大模型才是基石

提及國內的“百模大戰(zhàn)”,可謂是百花齊放,但從屬性上分,基本為基礎和行業(yè)模型兩大類,出于盡早進入市場,嘗試盡快實現(xiàn)商業(yè)變現(xiàn)的需求,國內大模型的發(fā)展有向行業(yè)模型傾斜的趨勢,甚至出現(xiàn)了針對基礎模型不要“重復造輪子”的論調。事實真的如此嗎?

2021年8月,李飛飛和100多位學者聯(lián)名發(fā)表一份200多頁的研究報告《On the Opportunities andRisk of Foundation Models》中提出了基礎模型(Foundation Model)(《On the Opportunities and Risk of Foundation Models》,國際上稱為預訓練模型,即通過在大規(guī)模寬泛的數(shù)據上進行訓練后能適應一系列下游任務的模型。

相較于小模型或者所謂行業(yè)模型(針對特定場景需求、使用行業(yè)數(shù)據訓練出來的模型),基礎模型優(yōu)勢主要體現(xiàn)在以下幾個方面。

首先是涌現(xiàn)能力,它指的是模型規(guī)模超過某個參數(shù)閾值后,AI效果將不再是隨機概率事件。在通用領域,參數(shù)量越大,智能通常涌現(xiàn)的可能性就越大,AI準確率也會更高。在專用垂直領域,基礎模型裁剪優(yōu)化后更容易獲得精確的效果;

其次是適用場景廣泛。人工智能大模型通過在海量、多類型的場景數(shù)據中學習,能夠總結不同場景、不同業(yè)務下的通用能力,擺脫了小模型場景碎片化、難以復用的局限性,為大規(guī)模落地人工智能應用提供可能;

最后是研發(fā)效率提高。傳統(tǒng)小模型研發(fā)普遍為手工作坊式,高度依賴人工標注數(shù)據和人工調優(yōu)調參,研發(fā)成本高、周期長、效率低。大模型則將研發(fā)模式升級為大規(guī)模工廠式,采用自監(jiān)督學習方法,減少對特定數(shù)據的依賴,顯著降低人力成本、提升研發(fā)效率。

此外,基礎大模型還具有同質化特性,即基礎模型的能力是智能的中心與核心,它的任何一點改進會迅速覆蓋整個社區(qū),反之隱患在于大模型的缺陷也會被所有下游模型所繼承。而這又從反面證明了基礎大模型作為小模型基礎的重要性。

以當下流行的GPT-4為例,其實它就是一個能力強大的基礎大模型,沒有行業(yè)屬性,通用智能是其最核心的部分,對于所謂的小模型或者面向行業(yè)場景的行業(yè)模型來說,基礎大模型結合行業(yè)數(shù)據和行業(yè)知識庫,就可以在行業(yè)中實現(xiàn)更高效的落地,這里最典型的例子就是微軟推出的基于GPT-4平臺的新Bing和Copilot應用。而其背后揭示的則是通過發(fā)展基礎大模型,構建技能模型,進而落地行業(yè)模型,符合大模型自身技術發(fā)展規(guī)律的必由之路。

所謂心急吃不了熱豆腐。當我們在基礎大模型這塊基石尚不牢固,盲目追求所謂落地的技能和行業(yè)模型的速度,很可能是重復造輪子,同時,鑒于目前以GPT為代表的基礎模型迭代很快,性能提升明顯,屆時,我們的技能和行業(yè)模型還面臨技術過時(行業(yè)和技能模型還不如基礎模型)的風險而事倍功半。

夯實基礎模型,面臨高質量數(shù)據與算法創(chuàng)新挑戰(zhàn)

既然我們理解了基礎模型基石的技術邏輯和作用,夯實基礎模型自然是重中之重。但對于國內來說,夯實基礎大模型卻面臨不小的新挑戰(zhàn)。

首先是缺少多樣化、高質量的訓練數(shù)據。

以GPT為例,在數(shù)據多樣化方面,GPT-1使用的訓練語料以書籍為主、如BookCorpus等;GPT-2則使用了如Reddit links等新聞類數(shù)據,文本規(guī)范質量高,同時又包含了部分人們日常交流的社交數(shù)據;進入GPT-3,模型的數(shù)據規(guī)模呈數(shù)十倍增長,Reddit links、Common Crawl、WebText2、Wikipedia等數(shù)據集的加入,大大提高了數(shù)據的多樣性;GPT-4階段更引入了GitHub代碼、對話數(shù)據以及一些數(shù)學應用題,甚至增加了多模態(tài)數(shù)據。

在數(shù)據質量方面,以GPT-3模型為例,其訓練需要的語料75%是英文,3%是中文,還有一些西班牙文、法文、德文等語料集,這些學習語料可通過公開數(shù)據(如維基百科、百度百科、微博、知乎等)、開源數(shù)據集、網頁爬?。ㄓ柧欸PT-3爬取了31億個網頁,約3000億詞)、私有數(shù)據集(如OpenAI的WebText數(shù)據集,收集了Reddit平臺上的800萬篇高贊文章,約150億詞)等方式獲取。這些語料中,英文語料公開數(shù)據更多、質量更高。

需要說明的是,盡管上述已是高質量的數(shù)據,但其來源于維基百科、書籍及學術期刊等的高質量數(shù)據也僅占其數(shù)據集的17.8%,但其在模型訓練中的權重卻占到了40%,數(shù)據質量精益求精和重要性可見一斑。

對此,有業(yè)內分析認為,當高質量數(shù)據量到達一定臨界值的時候,將會無限拉近不同算法帶來的準確率差距,某種程度上會決定模型訓練的質量,不僅讓訓練變得更加高效,同時可以大幅削減訓練成本。

相比之下,中文開源高質量數(shù)據少,特別是構建基礎大模型的百科類、問答類、圖書文獻、學術論文、報紙雜志等高質量中文內容。同時,國內專業(yè)數(shù)據服務還處于起步階段,可用于人工智能模型訓練的經過加工、清洗、標注的高質量數(shù)據集還相對匱乏。

由此可見,缺少高質量、多樣化的訓練數(shù)據已成為國內基礎模型訓練的核心痛點之一,也是最大的挑戰(zhàn)。

除了高質量的數(shù)據之外,縱觀當前國內的大模型,基本都是基于Transformer架構,技術原理業(yè)內都相當清楚,但為什么ChatGPT就是比其他大模型表現(xiàn)得更好?由于GPT-3之后,OpenAI的所有模型沒有再開源,GPT-4的運行機制是什么,國內企業(yè)仍無從得知,但在業(yè)內看來,其核心理應是算法的創(chuàng)新和優(yōu)化。

這里以Transformer架構為例,如上述,目前學術界大部分的工作都是圍繞如何提升Transformer的效率展開,硬件結構也都是圍繞如何優(yōu)化Transformer的方式而設計,雖然其為業(yè)內帶來了創(chuàng)新突破,但仍然存在某些局限性。例如,對于長序列的處理和對序列中的順序信息的處理算法,會增加算力消耗和成本,而這為改進注意力機制、剪枝和量化等這些當前未曾突破的瓶頸與值得創(chuàng)新的發(fā)展方向提出了挑戰(zhàn),即想從架構上對Transformer進行創(chuàng)新,需要的是勇氣與探索能力。

對癥下藥,開源、開放的源2.0帶來了什么?

俗話說:挑戰(zhàn)與機遇并存,而將挑戰(zhàn)化為機遇的方法就是對癥下藥。而在這方面,浪潮信息日前發(fā)布的源2.0基礎大模型頗值得我們拿來探究。

例如在應對我們前述的缺少多樣化、高質量的訓練數(shù)據挑戰(zhàn)方面,源2.0的數(shù)據來源包含三個部分,分別是業(yè)界的開源數(shù)據、從互聯(lián)網上清洗的數(shù)據和模型合成的數(shù)據。浪潮信息的模型團隊不僅對2018年至2023年的互聯(lián)網數(shù)據進行了清洗,從總量12PB左右的數(shù)據中僅獲取到約10GB的中文數(shù)學數(shù)據,而為進一步彌補高質量數(shù)據集的匱乏,還基于大模型構建了一批多樣性的高質量數(shù)據,為此,浪潮信息提出了基于主題詞或Q&A問答對自動生成編程題目和答案的數(shù)據集生成流程,大幅提高了數(shù)據集問題的多樣性。同時,輔以基于單元測試的數(shù)據清洗方法,讓高質量數(shù)據集的獲取更加高效,進一步提高訓練效率。

具體來說,在構建高質量的數(shù)學和代碼數(shù)據時,團隊會隨機選取一批種子數(shù)據,然后對其進行擴充,讓大模型生成一批合適的問題,再把它們送到模型里,從而產生合適的答案。并將其補充到訓練數(shù)據集當中。

不僅如此,即便是基于大模型構建的高質量數(shù)據,浪潮信息還會通過額外構建的數(shù)據清洗流程,力求將更高質量的社群、代碼數(shù)據應用到模型的預訓練過程中??梢娫?.0對于數(shù)據的質量也是精益求精。而未來,浪潮信息的模型團隊還會利用自己的模型生成更高質量的數(shù)據,形成數(shù)據循環(huán),持續(xù)迭代并提升大模型的能力。

同樣在應對算法挑戰(zhàn)方面,源2.0也進行了重大創(chuàng)新,在我們上述的Transformer結構中完全替換了自注意力層,創(chuàng)新性地提出新型Attention結構,即局部注意力過濾增強機制LFA(LocalizedFiltering-based Attention),通過先強化相鄰詞之間的關聯(lián)性,然后再計算全局關聯(lián)性的方法,模型能夠更好地處理自然語言的語序排列問題,對于中文語境的關聯(lián)語義理解更準確、更人性,提升了模型的自然語言表達能力,進而提升了模型精度。

而消融實驗的結果顯示,相比傳統(tǒng)注意力結構,LFA模型精度提高了3.53%;在最終的模型訓練上,基于LFA算法的源2.0-102B模型,訓練288B token的train loss為1.18,相比之下,源1.0 245B模型訓練180B token的train loss為1.64。也就是說,從源1.0到源2.0,train loss降低了28%。

除上述之外,在算力上,源2.0采用了非均勻流水并行的方法,綜合運用流水線并行+優(yōu)化器參數(shù)并行+數(shù)據并行的策略,讓模型在流水并行各階段的顯存占用量分布更均衡,避免出現(xiàn)顯存瓶頸導致的訓練效率降低的問題,該方法顯著降低了大模型對芯片間P2P帶寬的需求,為硬件差異較大訓練環(huán)境提供了一種高性能的訓練方法。

值一提的是,從當前大模型算力建設、模型開發(fā)和應用落地的實際需求出發(fā),浪潮信息還開發(fā)出了全棧全流程的智算軟件棧OGAI,以提供完善的工程化、自動化工具軟件堆棧,幫助更多企業(yè)順利跨越大模型研發(fā)應用門檻,充分釋放大模型創(chuàng)新生產力。

所謂眾人拾柴火焰高,這很好地詮釋了開源、開放的理念。

具體基礎大模型,不可否認的事實是,當前中國做大模型的公司與OpenAI仍存在較大差距,而開源能夠釋放整個社區(qū)的智慧,一起進行生態(tài)和能力的建設,這也是我們除了上述數(shù)據和算法的創(chuàng)新外,盡快追趕國外領先公司基礎大模型的可行路徑。

以浪潮信息近期公布的源大模型共訓計劃為例,其針對開發(fā)者自己的應用或場景需求,通過自研數(shù)據平臺生成訓練數(shù)據并對源大模型進行增強訓練,訓練后的模型依然在社區(qū)開源。開發(fā)者只需要提出需求,說清楚具體的應用場景、對大模型的能力需求以及1~2條示例,由源團隊來進行數(shù)據準備、模型訓練并開源。

由此可見,這種共享底層數(shù)據、算法和代碼的共訓計劃,有利于打破大模型孤島,促進模型之間協(xié)作和更新迭代,并推動AI開發(fā)變得更加靈活和高效。同時,開源開放有利于推進“技術+行業(yè)”的閉環(huán),以更豐富的高質量行業(yè)數(shù)據反哺模型,克服數(shù)據分布偏移可能造成的基礎大模型性能下降,打造更強的技術產品,加速商業(yè)化進程。

寫在最后:綜上,我們認為,“百模大戰(zhàn)”,基礎大模型為基,構建技能模型,進而落地行業(yè)模型,理應成為國內大模型現(xiàn)在和未來發(fā)展的共識,更是具有中國特色的大模型發(fā)展之路,而開源、開放的源2.0基礎大模型的探索與實踐只是開始!

聲明:個人原創(chuàng),僅供參考

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
他是央視名嘴,北大外交系出身,隱婚女演員,妻子是我們熟悉的她

他是央視名嘴,北大外交系出身,隱婚女演員,妻子是我們熟悉的她

以茶帶書
2026-04-03 14:17:57
萬萬沒想到,全球局勢中“最亂”的竟是中國

萬萬沒想到,全球局勢中“最亂”的竟是中國

安安說
2026-01-23 09:12:29
意大利頂替伊朗?意媒:世界杯遞補球隊大概率來自亞洲

意大利頂替伊朗?意媒:世界杯遞補球隊大概率來自亞洲

湖報體育
2026-04-03 18:04:33
王傳君夫妻疑街頭爭吵!齊溪皺眉咄咄逼人,膀大腰圓像個保鏢

王傳君夫妻疑街頭爭吵!齊溪皺眉咄咄逼人,膀大腰圓像個保鏢

童叔不飆車
2026-04-02 20:46:58
1比5大潰?。 敖颖P俠”鄭智高位接盤:起個大早趕了晚集

1比5大潰??!“接盤俠”鄭智高位接盤:起個大早趕了晚集

足球大腕
2026-04-03 22:41:05
太陽報:利物浦今夏大清洗,麥卡、加克波等球員或被出售

太陽報:利物浦今夏大清洗,麥卡、加克波等球員或被出售

懂球帝
2026-04-03 18:45:14
中國下場了?外交部四字破局,拆穿美以攪局詭計,絕不當冤大頭

中國下場了?外交部四字破局,拆穿美以攪局詭計,絕不當冤大頭

春序娛樂
2026-04-04 01:00:06
終于改了!中國移動正式發(fā)通知:從4月30日起,全國統(tǒng)一執(zhí)行!

終于改了!中國移動正式發(fā)通知:從4月30日起,全國統(tǒng)一執(zhí)行!

林子說事
2026-04-02 12:42:16
重磅!中國工程院院士,入職復旦大學

重磅!中國工程院院士,入職復旦大學

TOP大學來了
2026-04-03 22:08:37
4萬一輛的中國“小電驢”,正被歐美老錢瘋搶

4萬一輛的中國“小電驢”,正被歐美老錢瘋搶

觀察者網
2026-04-02 14:35:02
3月銷量"慘案":長城汽車,已被"四座大山"壓成第二梯隊?

3月銷量"慘案":長城汽車,已被"四座大山"壓成第二梯隊?

沙雕小琳琳
2026-04-03 15:28:47
NBA MVP榜:文班亞馬仍居首,亞歷山大第二,前五名無變化

NBA MVP榜:文班亞馬仍居首,亞歷山大第二,前五名無變化

懂球帝
2026-04-04 01:28:14
4月,一個新的A股時代來了!

4月,一個新的A股時代來了!

郭小凡財經
2026-04-01 09:58:29
為黃金叛逃臺灣,陳寶忠駕機遭朝軍攔截,最終下場悲慘

為黃金叛逃臺灣,陳寶忠駕機遭朝軍攔截,最終下場悲慘

磊子講史
2026-03-31 11:28:08
格列茲曼:還有幾個月就將離開馬競,我必須在球場上傾其所有

格列茲曼:還有幾個月就將離開馬競,我必須在球場上傾其所有

懂球帝
2026-04-04 01:26:11
德乒男隊全員出局!申裕斌展望對陣陳幸同,郭焱點出溫瑞博不足

德乒男隊全員出局!申裕斌展望對陣陳幸同,郭焱點出溫瑞博不足

排球黃金眼
2026-04-03 14:48:38
美軍F-35飛行員疑被伊朗活捉,派直升機拼命搶人沒成功

美軍F-35飛行員疑被伊朗活捉,派直升機拼命搶人沒成功

音樂時光的娛樂
2026-04-04 02:27:25
烏克蘭通過法律程序,將“俄烏戰(zhàn)爭”,命名為“烏克蘭獨立戰(zhàn)爭”

烏克蘭通過法律程序,將“俄烏戰(zhàn)爭”,命名為“烏克蘭獨立戰(zhàn)爭”

我心縱橫天地間
2026-01-22 18:41:25
江西女碩士失蹤,被發(fā)現(xiàn)時已在教授實驗室待6年,魔鬼真的存在

江西女碩士失蹤,被發(fā)現(xiàn)時已在教授實驗室待6年,魔鬼真的存在

燦爛夏天
2025-02-10 20:20:13
俏江南騙局徹底曝光,張?zhí)m轉移資產逃債,法院直接戳穿所有貓膩!

俏江南騙局徹底曝光,張?zhí)m轉移資產逃債,法院直接戳穿所有貓膩!

保德全
2026-04-02 23:10:03
2026-04-04 03:55:00
孫永杰的ICT評論 incentive-icons
孫永杰的ICT評論
專注獨家、獨立的觀點
414文章數(shù) 6234關注度
往期回顧 全部

科技要聞

5萬輛庫存車,給了特斯拉一記重拳

頭條要聞

伊朗:美飛行員跳傘在伊境內落地 美方曾試圖營救未果

頭條要聞

伊朗:美飛行員跳傘在伊境內落地 美方曾試圖營救未果

體育要聞

被NBA選中20年后,他重新回到籃球場

娛樂要聞

夏克立官宣再婚當爸?否認婚內出軌

財經要聞

專家稱長期攝入“飄香劑”存在健康隱患

汽車要聞

你介意和遠房親戚長得很像嗎?

態(tài)度原創(chuàng)

時尚
健康
教育
親子
數(shù)碼

冬奧雙金夫妻:愛與榮耀,頂峰相見

干細胞抗衰4大誤區(qū),90%的人都中招

教育要聞

教育部:義務教育學校嚴禁設立重點班、實驗班、快慢班

親子要聞

5種高添加劑食品別給娃吃

數(shù)碼要聞

消息稱三星顯示器部門面臨巨大危機,最壞結果將退出中國大陸市場

無障礙瀏覽 進入關懷版