網易首頁 > 網易號 > 正文申請入駐

“百模大戰(zhàn)”，夯實基礎模型，方是大模型發(fā)展之路

2023-12-21 16:00:22　來源: 孫永杰的ICT評論

北京舉報

分享至

今年以來，ChatGPT引領了全球人工智能的新一輪創(chuàng)新浪潮。以中國為例，據《2023—2024年中國人工智能計算力發(fā)展評估報告》顯示，截至2023年10月，中國累計發(fā)布兩百余個大模型（包括基礎和行業(yè)類），已進入“百模大戰(zhàn)”的新時代，在彰顯我國人工智能領域創(chuàng)新實力和發(fā)展?jié)摿Φ耐瑫r，對如何選擇和走出具有中國特色的大模型發(fā)展之路也提出了挑戰(zhàn)。

心急吃不了熱豆腐，“全能”基礎大模型才是基石

提及國內的“百模大戰(zhàn)”，可謂是百花齊放，但從屬性上分，基本為基礎和行業(yè)模型兩大類，出于盡早進入市場，嘗試盡快實現(xiàn)商業(yè)變現(xiàn)的需求，國內大模型的發(fā)展有向行業(yè)模型傾斜的趨勢，甚至出現(xiàn)了針對基礎模型不要“重復造輪子”的論調。事實真的如此嗎？

2021年8月，李飛飛和100多位學者聯(lián)名發(fā)表一份200多頁的研究報告《On the Opportunities andRisk of Foundation Models》中提出了基礎模型（Foundation Model）（《On the Opportunities and Risk of Foundation Models》，國際上稱為預訓練模型，即通過在大規(guī)模寬泛的數(shù)據上進行訓練后能適應一系列下游任務的模型。

相較于小模型或者所謂行業(yè)模型（針對特定場景需求、使用行業(yè)數(shù)據訓練出來的模型），基礎模型優(yōu)勢主要體現(xiàn)在以下幾個方面。

首先是涌現(xiàn)能力，它指的是模型規(guī)模超過某個參數(shù)閾值后，AI效果將不再是隨機概率事件。在通用領域，參數(shù)量越大，智能通常涌現(xiàn)的可能性就越大，AI準確率也會更高。在專用垂直領域，基礎模型裁剪優(yōu)化后更容易獲得精確的效果；

其次是適用場景廣泛。人工智能大模型通過在海量、多類型的場景數(shù)據中學習，能夠總結不同場景、不同業(yè)務下的通用能力，擺脫了小模型場景碎片化、難以復用的局限性，為大規(guī)模落地人工智能應用提供可能；

最后是研發(fā)效率提高。傳統(tǒng)小模型研發(fā)普遍為手工作坊式，高度依賴人工標注數(shù)據和人工調優(yōu)調參，研發(fā)成本高、周期長、效率低。大模型則將研發(fā)模式升級為大規(guī)模工廠式，采用自監(jiān)督學習方法，減少對特定數(shù)據的依賴，顯著降低人力成本、提升研發(fā)效率。

此外，基礎大模型還具有同質化特性，即基礎模型的能力是智能的中心與核心，它的任何一點改進會迅速覆蓋整個社區(qū)，反之隱患在于大模型的缺陷也會被所有下游模型所繼承。而這又從反面證明了基礎大模型作為小模型基礎的重要性。

以當下流行的GPT-4為例，其實它就是一個能力強大的基礎大模型，沒有行業(yè)屬性，通用智能是其最核心的部分，對于所謂的小模型或者面向行業(yè)場景的行業(yè)模型來說，基礎大模型結合行業(yè)數(shù)據和行業(yè)知識庫，就可以在行業(yè)中實現(xiàn)更高效的落地，這里最典型的例子就是微軟推出的基于GPT-4平臺的新Bing和Copilot應用。而其背后揭示的則是通過發(fā)展基礎大模型，構建技能模型，進而落地行業(yè)模型，符合大模型自身技術發(fā)展規(guī)律的必由之路。

所謂心急吃不了熱豆腐。當我們在基礎大模型這塊基石尚不牢固，盲目追求所謂落地的技能和行業(yè)模型的速度，很可能是重復造輪子，同時，鑒于目前以GPT為代表的基礎模型迭代很快，性能提升明顯，屆時，我們的技能和行業(yè)模型還面臨技術過時（行業(yè)和技能模型還不如基礎模型）的風險而事倍功半。

夯實基礎模型，面臨高質量數(shù)據與算法創(chuàng)新挑戰(zhàn)

既然我們理解了基礎模型基石的技術邏輯和作用，夯實基礎模型自然是重中之重。但對于國內來說，夯實基礎大模型卻面臨不小的新挑戰(zhàn)。

首先是缺少多樣化、高質量的訓練數(shù)據。

以GPT為例，在數(shù)據多樣化方面，GPT-1使用的訓練語料以書籍為主、如BookCorpus等；GPT-2則使用了如Reddit links等新聞類數(shù)據，文本規(guī)范質量高，同時又包含了部分人們日常交流的社交數(shù)據；進入GPT-3，模型的數(shù)據規(guī)模呈數(shù)十倍增長，Reddit links、Common Crawl、WebText2、Wikipedia等數(shù)據集的加入，大大提高了數(shù)據的多樣性；GPT-4階段更引入了GitHub代碼、對話數(shù)據以及一些數(shù)學應用題，甚至增加了多模態(tài)數(shù)據。

在數(shù)據質量方面，以GPT-3模型為例，其訓練需要的語料75%是英文，3%是中文，還有一些西班牙文、法文、德文等語料集，這些學習語料可通過公開數(shù)據（如維基百科、百度百科、微博、知乎等）、開源數(shù)據集、網頁爬?。ㄓ柧欸PT-3爬取了31億個網頁，約3000億詞）、私有數(shù)據集（如OpenAI的WebText數(shù)據集，收集了Reddit平臺上的800萬篇高贊文章，約150億詞）等方式獲取。這些語料中，英文語料公開數(shù)據更多、質量更高。

需要說明的是，盡管上述已是高質量的數(shù)據，但其來源于維基百科、書籍及學術期刊等的高質量數(shù)據也僅占其數(shù)據集的17.8%，但其在模型訓練中的權重卻占到了40%，數(shù)據質量精益求精和重要性可見一斑。

對此，有業(yè)內分析認為，當高質量數(shù)據量到達一定臨界值的時候，將會無限拉近不同算法帶來的準確率差距，某種程度上會決定模型訓練的質量，不僅讓訓練變得更加高效，同時可以大幅削減訓練成本。

相比之下，中文開源高質量數(shù)據少，特別是構建基礎大模型的百科類、問答類、圖書文獻、學術論文、報紙雜志等高質量中文內容。同時，國內專業(yè)數(shù)據服務還處于起步階段，可用于人工智能模型訓練的經過加工、清洗、標注的高質量數(shù)據集還相對匱乏。

由此可見，缺少高質量、多樣化的訓練數(shù)據已成為國內基礎模型訓練的核心痛點之一，也是最大的挑戰(zhàn)。

除了高質量的數(shù)據之外，縱觀當前國內的大模型，基本都是基于Transformer架構，技術原理業(yè)內都相當清楚，但為什么ChatGPT就是比其他大模型表現(xiàn)得更好？由于GPT-3之后，OpenAI的所有模型沒有再開源，GPT-4的運行機制是什么，國內企業(yè)仍無從得知，但在業(yè)內看來，其核心理應是算法的創(chuàng)新和優(yōu)化。

這里以Transformer架構為例，如上述，目前學術界大部分的工作都是圍繞如何提升Transformer的效率展開，硬件結構也都是圍繞如何優(yōu)化Transformer的方式而設計，雖然其為業(yè)內帶來了創(chuàng)新突破，但仍然存在某些局限性。例如，對于長序列的處理和對序列中的順序信息的處理算法，會增加算力消耗和成本，而這為改進注意力機制、剪枝和量化等這些當前未曾突破的瓶頸與值得創(chuàng)新的發(fā)展方向提出了挑戰(zhàn)，即想從架構上對Transformer進行創(chuàng)新，需要的是勇氣與探索能力。

對癥下藥，開源、開放的源2.0帶來了什么？

俗話說：挑戰(zhàn)與機遇并存，而將挑戰(zhàn)化為機遇的方法就是對癥下藥。而在這方面，浪潮信息日前發(fā)布的源2.0基礎大模型頗值得我們拿來探究。

例如在應對我們前述的缺少多樣化、高質量的訓練數(shù)據挑戰(zhàn)方面，源2.0的數(shù)據來源包含三個部分，分別是業(yè)界的開源數(shù)據、從互聯(lián)網上清洗的數(shù)據和模型合成的數(shù)據。浪潮信息的模型團隊不僅對2018年至2023年的互聯(lián)網數(shù)據進行了清洗，從總量12PB左右的數(shù)據中僅獲取到約10GB的中文數(shù)學數(shù)據，而為進一步彌補高質量數(shù)據集的匱乏，還基于大模型構建了一批多樣性的高質量數(shù)據，為此，浪潮信息提出了基于主題詞或Q&A問答對自動生成編程題目和答案的數(shù)據集生成流程，大幅提高了數(shù)據集問題的多樣性。同時，輔以基于單元測試的數(shù)據清洗方法，讓高質量數(shù)據集的獲取更加高效，進一步提高訓練效率。

具體來說，在構建高質量的數(shù)學和代碼數(shù)據時，團隊會隨機選取一批種子數(shù)據，然后對其進行擴充，讓大模型生成一批合適的問題，再把它們送到模型里，從而產生合適的答案。并將其補充到訓練數(shù)據集當中。

不僅如此，即便是基于大模型構建的高質量數(shù)據，浪潮信息還會通過額外構建的數(shù)據清洗流程，力求將更高質量的社群、代碼數(shù)據應用到模型的預訓練過程中?？梢娫?.0對于數(shù)據的質量也是精益求精。而未來，浪潮信息的模型團隊還會利用自己的模型生成更高質量的數(shù)據，形成數(shù)據循環(huán)，持續(xù)迭代并提升大模型的能力。

同樣在應對算法挑戰(zhàn)方面，源2.0也進行了重大創(chuàng)新，在我們上述的Transformer結構中完全替換了自注意力層，創(chuàng)新性地提出新型Attention結構，即局部注意力過濾增強機制LFA（LocalizedFiltering-based Attention），通過先強化相鄰詞之間的關聯(lián)性，然后再計算全局關聯(lián)性的方法，模型能夠更好地處理自然語言的語序排列問題，對于中文語境的關聯(lián)語義理解更準確、更人性，提升了模型的自然語言表達能力，進而提升了模型精度。

而消融實驗的結果顯示，相比傳統(tǒng)注意力結構，LFA模型精度提高了3.53%；在最終的模型訓練上，基于LFA算法的源2.0-102B模型，訓練288B token的train loss為1.18，相比之下，源1.0 245B模型訓練180B token的train loss為1.64。也就是說，從源1.0到源2.0，train loss降低了28%。

除上述之外，在算力上，源2.0采用了非均勻流水并行的方法，綜合運用流水線并行+優(yōu)化器參數(shù)并行+數(shù)據并行的策略，讓模型在流水并行各階段的顯存占用量分布更均衡，避免出現(xiàn)顯存瓶頸導致的訓練效率降低的問題，該方法顯著降低了大模型對芯片間P2P帶寬的需求，為硬件差異較大訓練環(huán)境提供了一種高性能的訓練方法。

值一提的是，從當前大模型算力建設、模型開發(fā)和應用落地的實際需求出發(fā)，浪潮信息還開發(fā)出了全棧全流程的智算軟件棧OGAI，以提供完善的工程化、自動化工具軟件堆棧，幫助更多企業(yè)順利跨越大模型研發(fā)應用門檻，充分釋放大模型創(chuàng)新生產力。

所謂眾人拾柴火焰高，這很好地詮釋了開源、開放的理念。

具體基礎大模型，不可否認的事實是，當前中國做大模型的公司與OpenAI仍存在較大差距，而開源能夠釋放整個社區(qū)的智慧，一起進行生態(tài)和能力的建設，這也是我們除了上述數(shù)據和算法的創(chuàng)新外，盡快追趕國外領先公司基礎大模型的可行路徑。

以浪潮信息近期公布的源大模型共訓計劃為例，其針對開發(fā)者自己的應用或場景需求，通過自研數(shù)據平臺生成訓練數(shù)據并對源大模型進行增強訓練，訓練后的模型依然在社區(qū)開源。開發(fā)者只需要提出需求，說清楚具體的應用場景、對大模型的能力需求以及1～2條示例，由源團隊來進行數(shù)據準備、模型訓練并開源。

由此可見，這種共享底層數(shù)據、算法和代碼的共訓計劃，有利于打破大模型孤島，促進模型之間協(xié)作和更新迭代，并推動AI開發(fā)變得更加靈活和高效。同時，開源開放有利于推進“技術+行業(yè)”的閉環(huán)，以更豐富的高質量行業(yè)數(shù)據反哺模型，克服數(shù)據分布偏移可能造成的基礎大模型性能下降，打造更強的技術產品，加速商業(yè)化進程。

寫在最后：綜上，我們認為，“百模大戰(zhàn)”，基礎大模型為基，構建技能模型，進而落地行業(yè)模型，理應成為國內大模型現(xiàn)在和未來發(fā)展的共識，更是具有中國特色的大模型發(fā)展之路，而開源、開放的源2.0基礎大模型的探索與實踐只是開始！

聲明：個人原創(chuàng)，僅供參考

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.