国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

DeepSeek又放大招!梁文鋒署名新論文引關(guān)注

0
分享至

DeepSeek近日發(fā)布論文,闡述了一種更為高效的人工智能開發(fā)方法。該論文由創(chuàng)始人梁文鋒參與撰寫,提出了名為“流形約束超連接”(mHC)的框架。作者稱,該框架旨在提升可擴(kuò)展性,同時(shí)降低訓(xùn)練先進(jìn)人工智能系統(tǒng)的算力和能源需求。DeepSeek下一代旗艦系統(tǒng)R2預(yù)計(jì)將在2月份春節(jié)前后問世。

1月1日消息,DeepSeek發(fā)布了一篇新論文,提出了一種名為mHC(流形約束超連接)的新架構(gòu)。

該研究旨在解決傳統(tǒng)超連接在大規(guī)模模型訓(xùn)練中的不穩(wěn)定性問題,同時(shí)保持其顯著的性能增益。

這篇論文的第一作者有三位:Zhenda Xie(解振達(dá))、Yixuan Wei(韋毅軒)、Huanqi Cao。值得注意的是,DeepSeek創(chuàng)始人梁文鋒也在作者名單中。

論文摘要指出,近來,以超連接(HC)為代表的研究通過拓寬殘差流寬度和多樣化連接模式,拓展了過去十年間確立的普遍采用的殘差連接范式。雖然這些改進(jìn)帶來了顯著的性能提升,但連接模式的多樣化從根本上削弱了殘差連接固有的恒等映射特性,導(dǎo)致嚴(yán)重的訓(xùn)練不穩(wěn)定性與受限的可擴(kuò)展性,同時(shí)還造成了顯著的內(nèi)存訪問開銷。

為了解決這些問題,DeepSeek提出了流形約束超連接(mHC)——一種通用框架,能夠?qū)C的殘差連接空間投影到特定流形上,從而恢復(fù)恒等映射特性,并融合嚴(yán)格的基礎(chǔ)設(shè)施優(yōu)化以確保運(yùn)行效率。

DeepSeek稱,實(shí)證實(shí)驗(yàn)表明,mHC能夠有效支持大規(guī)模訓(xùn)練,在提供明顯性能提升的同時(shí)具備更優(yōu)的可擴(kuò)展性。DeepSeek預(yù)計(jì),mHC作為HC的一種靈活而實(shí)用的拓展,將有助于深化對拓?fù)浼軜?gòu)設(shè)計(jì)的理解,并為基座模型的演進(jìn)指明富有前景的方向。

內(nèi)部大規(guī)模訓(xùn)練結(jié)果顯示,mHC可有效支持規(guī)?;?xùn)練,當(dāng)擴(kuò)展率=4時(shí),僅帶來6.7%的額外時(shí)間開銷。

圖為殘差連接范式的示意圖。本圖對比了 (a) 標(biāo)準(zhǔn)殘差連接、(b) 超連接 以及 (c) 流形約束超連接的結(jié)構(gòu)設(shè)計(jì)。與無約束的HC不同,mHC通過將連接矩陣投影到一個(gè)約束流形上,專注于優(yōu)化殘差連接空間,從而確保訓(xùn)練的穩(wěn)定性。

論文在結(jié)論與展望部分指出,實(shí)證結(jié)果表明,mHC能有效恢復(fù)恒等映射特性,相較于傳統(tǒng)HC,能以更優(yōu)的可擴(kuò)展性實(shí)現(xiàn)穩(wěn)定的大規(guī)模訓(xùn)練。關(guān)鍵的是,通過高效的基礎(chǔ)設(shè)施級優(yōu)化,mHC以可忽略的計(jì)算開銷實(shí)現(xiàn)了上述改進(jìn)。

論文還指出,作為HC范式的廣義拓展,mHC為未來研究開辟了多個(gè)重要方向:雖然本研究采用雙隨機(jī)矩陣確保穩(wěn)定性,但該框架可兼容針對特定學(xué)習(xí)目標(biāo)設(shè)計(jì)的多種流形約束探索;預(yù)計(jì)對差異化幾何約束的深入研究可能催生能更好權(quán)衡可塑性—穩(wěn)定性關(guān)系的新方法。此外,DeepSeek希望mHC能重新激發(fā)學(xué)界對宏觀架構(gòu)設(shè)計(jì)的關(guān)注。通過深化對拓?fù)浣Y(jié)構(gòu)如何影響優(yōu)化與表征學(xué)習(xí)的理解,mHC將有助于突破現(xiàn)有局限,并可能為下一代基礎(chǔ)架構(gòu)的演進(jìn)指明新路徑。

近期,DeepSeek動作不斷,“熱搜”也不斷。

2025年12月8日

梁文鋒入選《自然》年度十大科學(xué)人物

2025年12月8日,英國《自然》雜志網(wǎng)站發(fā)布2025年度十大科學(xué)人物榜單,中國人工智能企業(yè)深度求索創(chuàng)始人梁文鋒和中國科學(xué)院深??茖W(xué)家杜夢然入選。

2025年1月,來自中國的一則公告震撼了人工智能界。深度求索公司發(fā)布其強(qiáng)大而低成本的R1推理模型?!蹲匀弧冯s志網(wǎng)站稱,這瞬間證明美國在人工智能領(lǐng)域的發(fā)展并不像許多專家想象的那樣遙遙領(lǐng)先。

2025年12月1日

DeepSeek發(fā)布兩個(gè)正式版模型

據(jù)DeepSeek官微,2025年12月1日,DeepSeek發(fā)布兩個(gè)正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale。DeepSeek-V3.2強(qiáng)化Agent能力,官方網(wǎng)頁端、App和API均已更新為正式版DeepSeek-V3.2。Speciale版本目前僅以臨時(shí)API服務(wù)形式開放,以供社區(qū)評測與研究。

2025年11月27日

DeepSeek推出新模型

2025年11月27日,DeepSeek推出新型數(shù)學(xué)推理模型DeepSeekMath-V2,采用可自我驗(yàn)證的訓(xùn)練框架。該模型基于DeepSeek-V3.2-Exp-Base構(gòu)建,通過LLM驗(yàn)證器自動審查生成的數(shù)學(xué)證明,并利用高難度樣本持續(xù)優(yōu)化性能。

2025年10月20日

DeepSeek開源新模型

2025年10月20日,DeepSeek-AI團(tuán)隊(duì)發(fā)布《DeepSeek-OCR:Contexts Optical Compression》論文,提出利用視覺模態(tài)壓縮長文本上下文的新方法。根據(jù)介紹,此次開源的 DeepSeek-OCR 由兩個(gè)部分組成:核心編碼器 DeepEncoder 和解碼器 DeepSeek3B-MoE-A570M。在實(shí)際生產(chǎn)中,DeepSeek-OCR 可在單塊 A100-40G 顯卡上每天生成超過 20 萬頁的大語言模型 / 視覺語言模型訓(xùn)練數(shù)據(jù)。

2025年9月29日

DeepSeek-V3.2-Exp模型正式發(fā)布

2025年9月29日,深度求索公司發(fā)布了 DeepSeek-V3.2-Exp 模型,其宛如再次向國產(chǎn)芯片江湖投入一枚巨石。

官方公告顯示,新版本模型實(shí)驗(yàn)性地引入了 DeepSeek Sparse Attention(一種稀疏注意力機(jī)制),其顯著降低計(jì)算資源消耗并提升推理效率。

而得益于這一技術(shù)創(chuàng)新,深度求索宣布其官方App、網(wǎng)頁端、小程序均已同步更新為新模型,并全面下調(diào)API價(jià)格,降幅在50%到75%不等。

值得注意的是,不同于上次發(fā)布 DeepSeek-V3.1版本時(shí)“猶抱琵琶半遮面”的狀態(tài),此次 V3.2 EXP 版本的發(fā)布,幾乎零時(shí)差引發(fā)數(shù)個(gè)國產(chǎn)芯片廠商——華為、寒武紀(jì)、海光等的“認(rèn)領(lǐng)”。

2025年9月17日

登上《自然》!DeepSeek-R1訓(xùn)練方法發(fā)布

2025年9月17日,由DeepSeek團(tuán)隊(duì)共同完成、梁文鋒擔(dān)任通訊作者的DeepSeek-R1推理模型研究論文,登上國際頂級期刊《自然(Nature)》的封面。該期刊編輯部直言:目前幾乎所有主流的大模型都還沒有經(jīng)過獨(dú)立同行評審,這一空白“終于被DeepSeek打破”。

DeepSeek-R1包含一個(gè)在人類監(jiān)督下的深入訓(xùn)練階段,以優(yōu)化推理過程。梁文鋒團(tuán)隊(duì)報(bào)告稱,該模型使用了強(qiáng)化學(xué) 習(xí) 而非人類示例來開發(fā)推理步驟,減少了訓(xùn)練成本和復(fù)雜性。DeepSeek-R1在被展示優(yōu)質(zhì)的問題解決案例后,會獲得一個(gè)模板來產(chǎn)生推理過程,即這一模型通過解決問題獲得獎(jiǎng)勵(lì),從而強(qiáng)化學(xué)習(xí)效果。團(tuán)隊(duì)總結(jié)說, 未來研究可以聚焦優(yōu)化獎(jiǎng)勵(lì)過程,以確保推理和任務(wù)結(jié)果更可靠。

來源:綜合自證券時(shí)報(bào)、財(cái)聯(lián)社、21世紀(jì)經(jīng)濟(jì)報(bào)道及公開信息

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
貝克漢姆女兒美到認(rèn)不出!14歲身高1米75,超過了媽媽維多利亞

貝克漢姆女兒美到認(rèn)不出!14歲身高1米75,超過了媽媽維多利亞

有趣的胡侃
2026-01-09 11:53:58
絞殺開始!中國強(qiáng)硬下達(dá)“逐客令”,僅一招就讓4000家日企倒閉

絞殺開始!中國強(qiáng)硬下達(dá)“逐客令”,僅一招就讓4000家日企倒閉

芯火相承
2026-01-09 20:38:13
小四月,終是為父母的失敗婚姻買了單,年僅15看起來比趙薇還成熟

小四月,終是為父母的失敗婚姻買了單,年僅15看起來比趙薇還成熟

以茶帶書
2026-01-10 20:11:24
破3000萬臺!三星Galaxy S25系列手機(jī)打破安卓魔咒

破3000萬臺!三星Galaxy S25系列手機(jī)打破安卓魔咒

IT之家
2026-01-10 15:41:19
票房從30億跌到9847萬,我感慨:這一張金字招牌算是砸了

票房從30億跌到9847萬,我感慨:這一張金字招牌算是砸了

韓馳
2026-01-03 17:11:42
100元與20元香煙差別多大?煙廠老員工曝實(shí)情,答案出人意料

100元與20元香煙差別多大?煙廠老員工曝實(shí)情,答案出人意料

復(fù)轉(zhuǎn)這些年
2026-01-08 23:29:55
王曼昱輸?shù)貌辉?,韓瑩曾點(diǎn)名孫穎莎,公認(rèn)她為最強(qiáng)者!

王曼昱輸?shù)貌辉?,韓瑩曾點(diǎn)名孫穎莎,公認(rèn)她為最強(qiáng)者!

十點(diǎn)街球體育
2026-01-11 00:40:03
多哈冠軍賽4強(qiáng)戰(zhàn)直播調(diào)整:陳幸同對陣張本美和,CCTV5不播

多哈冠軍賽4強(qiáng)戰(zhàn)直播調(diào)整:陳幸同對陣張本美和,CCTV5不播

大昆說臺球
2026-01-10 05:34:31
馬卉,169cm身高的主持人,也太好看了!

馬卉,169cm身高的主持人,也太好看了!

手工制作阿殲
2026-01-11 00:31:42
西方人猛然意識到,中國預(yù)設(shè)的世界大戰(zhàn)是“1對全部”的存亡之戰(zhàn)

西方人猛然意識到,中國預(yù)設(shè)的世界大戰(zhàn)是“1對全部”的存亡之戰(zhàn)

小俎娛樂
2026-01-08 19:48:20
馬斯克成伊朗明星;哈梅內(nèi)伊咒罵美國

馬斯克成伊朗明星;哈梅內(nèi)伊咒罵美國

跟著老李看世界
2026-01-10 00:02:23
繼楊振寧去世不到2月,翁帆首次攜76歲媽媽亮相,一個(gè)細(xì)節(jié)惹爭議

繼楊振寧去世不到2月,翁帆首次攜76歲媽媽亮相,一個(gè)細(xì)節(jié)惹爭議

涵豆說娛
2025-12-04 15:03:22
浙江男子總感覺喉嚨不舒服,脖子右側(cè)有腫塊,確診HPV還有癌癥中晚期!這個(gè)夫妻親密習(xí)慣是誘因

浙江男子總感覺喉嚨不舒服,脖子右側(cè)有腫塊,確診HPV還有癌癥中晚期!這個(gè)夫妻親密習(xí)慣是誘因

環(huán)球網(wǎng)資訊
2026-01-10 19:59:06
16GB+1TB!新機(jī)官宣:1月15日,正式發(fā)售上市!

16GB+1TB!新機(jī)官宣:1月15日,正式發(fā)售上市!

科技堡壘
2026-01-10 11:33:08
73歲影帝欠租6萬面臨驅(qū)逐,昔日硬漢如今禿頭領(lǐng)外賣太糟心

73歲影帝欠租6萬面臨驅(qū)逐,昔日硬漢如今禿頭領(lǐng)外賣太糟心

蜉蝣說
2026-01-09 14:51:15
徐達(dá)常遇春他們都是農(nóng)民,為何起義后卻成了軍事天才?原因很現(xiàn)實(shí)

徐達(dá)常遇春他們都是農(nóng)民,為何起義后卻成了軍事天才?原因很現(xiàn)實(shí)

銘記歷史呀
2026-01-10 13:09:37
坑爹??!11中1+6失誤,在場球隊(duì)輸21分,網(wǎng)友:沒人喊進(jìn)國家隊(duì)了?

坑爹??!11中1+6失誤,在場球隊(duì)輸21分,網(wǎng)友:沒人喊進(jìn)國家隊(duì)了?

金山話體育
2026-01-10 09:21:06
三名“淘金客”殞命雪峰山后續(xù):3名盜采者判刑,14名公職人員被問責(zé)

三名“淘金客”殞命雪峰山后續(xù):3名盜采者判刑,14名公職人員被問責(zé)

澎湃新聞
2026-01-10 07:58:28
iPhone 換電池限時(shí)半價(jià),僅限這些機(jī)型

iPhone 換電池限時(shí)半價(jià),僅限這些機(jī)型

果粉俱樂部
2026-01-08 14:05:03
《小城大事》主演爆雷!校園霸凌致女生精神分裂,網(wǎng)友要求回應(yīng)

《小城大事》主演爆雷!校園霸凌致女生精神分裂,網(wǎng)友要求回應(yīng)

萌神木木
2026-01-10 15:21:24
2026-01-11 02:32:49
21世紀(jì)經(jīng)濟(jì)報(bào)道 incentive-icons
21世紀(jì)經(jīng)濟(jì)報(bào)道
中國商業(yè)新聞?lì)I(lǐng)導(dǎo)者
228406文章數(shù) 743533關(guān)注度
往期回顧 全部

科技要聞

必看 | 2026開年最頂格的AI對話

頭條要聞

特朗普簽署行政令 宣布進(jìn)入國家緊急狀態(tài)

頭條要聞

特朗普簽署行政令 宣布進(jìn)入國家緊急狀態(tài)

體育要聞

怒摔水瓶!杜蘭特30+12 難阻火箭遭雙殺

娛樂要聞

吳速玲曝兒子Joe是戀愛腦

財(cái)經(jīng)要聞

這不算詐騙嗎?水滴保誘導(dǎo)扣款惹眾怒

汽車要聞

寶馬25年全球銷量246.3萬臺 中國仍是第一大市場

態(tài)度原創(chuàng)

游戲
手機(jī)
時(shí)尚
本地
家居

《地平線6》首發(fā)為何沒PS5版?原來只是沒做完!

手機(jī)要聞

魅族22Air、22 Next不開售發(fā)布,魅族23確認(rèn)

伊姐周六熱推:電視劇《小城大事》;電視劇《軋戲》......

本地新聞

云游內(nèi)蒙|“包”你再來?一座在硬核里釀出詩意的城

家居要聞

木色留白 演繹現(xiàn)代自由

無障礙瀏覽 進(jìn)入關(guān)懷版