国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

M1“超長記憶”吊打R1,MiniMax的好日子來了?

0
分享至

MiniMax 四處突圍,終于撞上了自己的「好日子」。

昨天凌晨,MiniMax正式開源它們的第一個推理模型M1,這款模型雖然在各項基準(zhǔn)測試中表現(xiàn)「相貌平平」,卻擁有業(yè)界最長的上下文能力:100萬token輸入,8萬token輸出。除了高調(diào)開源M1,另一個消息正在各大AI社區(qū)傳播:MiniMax正在邀請用戶測試它們的通用Agent。

在錯失推理模型先發(fā)優(yōu)勢后,這家曾被認(rèn)為是AI六小龍中最穩(wěn)健的公司,想在下一程贏回來。

現(xiàn)在,它們終于等到了一個正在急劇縮短的時間窗口——Agent爆火的2025年。

那么,MiniMax這回推出的M1以及正在內(nèi)測的Agent到底實力如何?是否還能在明星AI初創(chuàng)公司和大廠的強敵環(huán)伺下「正面突圍」?

「直面AI」(ID:faceaibang)實際上手體驗了下,并深度解讀了這次的技術(shù)報告,「挖出了些」背后的東西。

01

上下文 + Agent能力是新模型的核心

接下來,我們實地測試下MiniMax M1推理模型和MiniMax Agent。

先來說下M1推理模型,它給我的第一個感受就是推理鏈很長,這其實與最近國產(chǎn)開源的幾個前沿大模型的表現(xiàn)很相似,像是前段時間的Qwen系列以及DeepSeek的最新小版本。它們透露出來的能力都是推理很強,但是推理鏈非常長,網(wǎng)友們也多次指出:極長的推理鏈,往往會讓模型輸出結(jié)果走偏。

比如,像下面這個「鋼琴鍵盤可視化小游戲」,我輸入了一段提示詞:

[角色設(shè)定] 你是一名前端開發(fā)者,擅長用原生 HTML + CSS + JavaScript 創(chuàng)建交互式頁面。

[任務(wù)目標(biāo)] 在網(wǎng)頁端實現(xiàn)一個「鋼琴鍵盤可視化小游戲」,支持鼠標(biāo)點擊或鍵盤按鍵觸發(fā)高亮,無需播放音樂。

*[核心功能]

1. 繪制 14 個白鍵 + 10 個黑鍵(C4–C5)。

2. 點擊/按鍵時,對應(yīng)琴鍵變?yōu)楦吡辽?,松開后恢復(fù)。

3. 頁面頂部實時顯示被按下的音名(如 “C4、D#4”)。*

[鍵盤映射] ? A–L 對應(yīng)白鍵 ? W–O 對應(yīng)黑鍵

[技術(shù)要求] ? 不使用任何框架,只用 原生 HTML/CSS/JS。 ? 代碼放在單個 index.html 中,可直接雙擊打開運行。

[樣式細(xì)節(jié)] ? 白鍵默認(rèn) #fff,黑鍵默認(rèn) #333。 ? 高亮色統(tǒng)一用 #f59e0b(亮橙)。 ? 頁面居中,寬度 ≤ 800 px,移動端自適應(yīng)。

MiniMax M1足足思考了791.2s,大部分時間都在思考鍵盤與字母的搭配問題,似乎在這一過程中,陷入了無盡的思考之中。

而且,我還在它的思維鏈里直接發(fā)現(xiàn)了可視化的「鋼琴鍵盤」:

在經(jīng)過大量時間的思考后,M1認(rèn)為題目中的鍵盤映射存在矛盾,可能無法完全正確實現(xiàn)。不過,它仍然給出了一份完整的代碼,我將它部署了一下,你可以看看效果,還是比較完整的:

除此之外,官方也給了幾個案例。

比如,用MiniMax M1構(gòu)建一個打字速度測試工具,它生成了一個簡潔實用的網(wǎng)頁應(yīng)用,能實時追蹤每分鐘打字詞數(shù)(WPM):

用MiniMax M1創(chuàng)建一個迷宮生成器和路徑查找可視化工具。隨機生成迷宮,并逐步可視化算法解決迷宮的過程。使用 canvas 和動畫,使其視覺效果吸引人:

可以看得出來,在現(xiàn)在最火的Coding(代碼)能力上,最新發(fā)布的MiniMax M1表現(xiàn)出的能力跟現(xiàn)在的第一陣營大模型并沒有拉開差距,但這同時也意味著這個「開源」模型已經(jīng)是第一梯隊的了。

除了一般的代碼能力之外,我還特意去測試了一下M1最大的特點:長上下文窗口。在實際體驗過程中,我發(fā)現(xiàn)它的上下文確實「太長」了,并且展現(xiàn)了工具調(diào)用能力。比如,我讓它翻譯一下OpenAI o3和o4-mini的系統(tǒng)卡,這份PDF文件有33頁,并且涵蓋了大量圖表。

M1完完整整地翻譯了這個33頁的PDF,并且所有的格式都盡量還原OpenAI o3和o4-mini的系統(tǒng)卡文件,比如大量的表格和圖片。

在它呈現(xiàn)出的結(jié)果之中,表格部分像一般常規(guī)基礎(chǔ)模型一樣直接生成:

而一些圖片部分則直接調(diào)用工具進(jìn)行了精準(zhǔn)地裁切:

往往,大家通常不會用推理模型做翻譯工作,這是因為翻譯任務(wù)更依賴于語言模型對上下文的理解、語法結(jié)構(gòu)的把握等等。而推理模型則更擅長處理邏輯鏈條的構(gòu)建和一些復(fù)雜判斷類任務(wù)。最主要的還是,用推理模型做長上下文工作總歸有些慢以及「奢侈」。

總結(jié)下,MiniMax M1給我的感覺是:結(jié)構(gòu)完整、反思能力強、重視結(jié)果導(dǎo)向,但是在其他的實際能力水平方面,M1只能說處于中等水平,并未展現(xiàn)出超出預(yù)期的驚艷。

不過,這樣的能力倒是很適合Agent所需要的技術(shù)架構(gòu):具備一定推理鏈能力、任務(wù)流程明確、響應(yīng)穩(wěn)定,且易于接入和組合調(diào)用。

02

MiniMax 首款通用Agent:中規(guī)中矩

接下來,我們再看看它們正在內(nèi)測的通用Agent表現(xiàn)如何。

MiniMax Agent展現(xiàn)出的能力,我們大概可以分為兩塊:前端效果上要更好一點,項目整體的交付更加完整。

這里,我們用一個實際案例來展示,輸入一段提示詞:

做一個PPT類型效果的網(wǎng)頁,介紹OpenAI的發(fā)展歷程。

Agent在實際制定任務(wù)計劃后,首先通過廣泛的網(wǎng)絡(luò)搜索,全面搜集關(guān)于OpenAI發(fā)展歷程的各類信息:

它還會調(diào)用像是爬取網(wǎng)絡(luò)信息的工具,針對信息質(zhì)量高的網(wǎng)頁提取核心數(shù)據(jù):

MiniMax Agent相對于其他「傳統(tǒng)」Agent來說有一個可以說是創(chuàng)新的點,就是它會利用瀏覽器測試自己開發(fā)的網(wǎng)站,像是其他Agent往往會利用瀏覽器視覺理解其他網(wǎng)站,而不會針對自己所做的成果再度審查:

最后,它呈現(xiàn)出的效果還是不錯的:

發(fā)展歷程、關(guān)鍵人物、核心產(chǎn)品、增長數(shù)據(jù)、未來展望都完整地覆蓋了,同時網(wǎng)頁具有一定的細(xì)膩程度,我錄制了一個完整版的視頻:

接下來,我們看看MiniMax M1的技術(shù)報告,其中的內(nèi)容并不算太過驚艷,但也有一些干貨。

03

一份并不算太過驚艷的技術(shù)報告,但有干貨

(1)性能

從測試數(shù)據(jù)來看,MiniMax M1的表現(xiàn)可以用「偏科生」來形容。在AIME 2024的奧數(shù)邏輯題、LiveCodeBench編程挑戰(zhàn),以及SWE-bench Verified的真實代碼修改任務(wù)上,M1的成績只能說中規(guī)中矩——既沒有驚艷到讓人眼前一亮,也沒有差到讓人失望。

「還行,但不夠亮眼」。

在這些常規(guī)基準(zhǔn)測試上的表現(xiàn),再搭配上現(xiàn)在這個時間點,M1的表現(xiàn)或許可以用「稍許失望」表示。

但是,當(dāng)場景切換到軟件工程、長上下文處理和工具調(diào)用等更貼近實際生產(chǎn)力需求的復(fù)雜任務(wù)時,M1展現(xiàn)出了顯著的優(yōu)勢。

比如,下表里的基準(zhǔn)測試—— TAU-bench,其全名是(ToolAgentUser benchmark)。這是一個真實世界工具呼叫對話任務(wù)評估框架,涵蓋 Airline(航空預(yù)訂)和 Retail(零售)兩個子域 。主要評估 AI 智能體通過多輪對話與用戶互動,像是調(diào)用訂票/修改/退票等 API,并依據(jù)復(fù)雜政策文檔執(zhí)行任務(wù)的能力 。

MiniMax M1的兩個模型(40k和80k)在TAU-bench(Airline)里都獲得了最高分;長上下文基準(zhǔn)測試?yán)?,M1也站上了第一梯隊:

(2)技術(shù)架構(gòu)解讀

在技術(shù)架構(gòu)創(chuàng)新上,M1有兩個特別值得關(guān)注的亮點:以閃電注意力機制為核心的混合架構(gòu),以及更高效的強化學(xué)習(xí)算法CISPO。

M1最亮眼的規(guī)格當(dāng)屬其100萬token的上下文輸入能力,這個數(shù)字和Google Gemini 2.5 Pro并列業(yè)界第一,是DeepSeek R1的8倍。并且,它還支持8萬token的推理輸出——這個數(shù)字已經(jīng)超越了Gemini 2.5 Pro的6.4萬,成為目前世界上輸出最長的推理模型。

這種「超長記憶」能力的背后,是MiniMax獨創(chuàng)的以閃電注意力機制為主的混合架構(gòu)。

閃電注意力(Lightning Attention)由來已久。

但其實,MiniMax早已研究線性注意力架構(gòu)(Linear Attention)數(shù)年。MiniMax的架構(gòu)負(fù)責(zé)人鐘怡然曾在下面這篇數(shù)年前的論文里,就已經(jīng)開始研究線性注意力架構(gòu)(Linear Attention):

早在今年1月15日發(fā)布MiniMax-01時,他們就做出了一個在業(yè)內(nèi)看來相當(dāng)「冒險」的決定:放棄「主流」Transformer路線,轉(zhuǎn)而大筆押注線性注意力架構(gòu)(Linear Attention)。這一架構(gòu)在早期表現(xiàn)并不好,并且被認(rèn)為如果經(jīng)過放大,可能會失效。

線性注意力架構(gòu)基礎(chǔ)上的工程級實現(xiàn)——閃電注意力機制,通過分塊算法提升速度、降低延遲。在處理100萬長度的輸入時,傳統(tǒng)的softmax attention的延遲是lightning attention的2700倍。

在強化學(xué)習(xí)方面,MiniMax提出了CISPO算法,通過裁剪重要性采樣權(quán)重而非傳統(tǒng)的token更新來提升效率。

在AIME的實驗中,他們發(fā)現(xiàn),該方法的收斂速度是包括字節(jié)近期提出的 DAPO 在內(nèi)的強化學(xué)習(xí)算法的兩倍,明顯優(yōu)于DeepSeek早期采用的 GRPO。

(3)成本

得益于前面提到的兩項技術(shù)創(chuàng)新,M1的強化學(xué)習(xí)訓(xùn)練過程效率驚人——整個過程僅用了512塊H800芯片,訓(xùn)練時間只有三周,租賃成本僅為53.47萬美金。這比MiniMax最初的預(yù)期少了一個數(shù)量級。在動輒千萬美金訓(xùn)練成本的大模型時代,53萬美金訓(xùn)練出一個推理模型,似乎有些夸張了。

我們可以對比下同樣擁有完整產(chǎn)品系列并且玩開源的Llama4——這個在前段時間「爆紅」互聯(lián)網(wǎng)的「令人失望」的產(chǎn)品。早在去年,扎克伯格就透露過:他們部署兩個大型訓(xùn)練集群來支持 LLM 研發(fā):其中一個集群配備了 22,000 塊 NVIDIA H100 GPU,另一個則配備 24,000 塊 H100 。

M1的這種成本優(yōu)勢會在實際應(yīng)用中持續(xù)發(fā)揮作用。假設(shè),當(dāng)需要生成10萬token時,M1的推理算力需求僅為DeepSeek R1的25%——這意味著在同樣的硬件條件下,M1可以服務(wù)更多用戶,或者以更低的成本提供同樣的服務(wù)。

這種算力效率上的優(yōu)勢,配合100萬token的輸入能力和8萬token的輸出能力,讓MiniMax在長上下文應(yīng)用場景中具備了獨特的競爭優(yōu)勢。

Agent就是一個典型場景。據(jù)“晚點LatePost”報道,MiniMax創(chuàng)始人閆俊杰認(rèn)為 long-context(長上下文)是 Agent(智能體)的重要能力,它能增強 AI 的 “記憶”。提升單 Agent 交互質(zhì)量和多 Agent 之間的通訊能力。

這也讓業(yè)界認(rèn)為MiniMax這會兒推出的長上下文推理模型是否是「專門為了Agent而造」?這是否意味著MiniMax將要All in Agent了,憑此繼續(xù)留在「牌桌」上?

04

圍戰(zhàn) Agent 的大趨勢讓 MiniMax 緩了一口氣

圍戰(zhàn) Agent 的大趨勢讓四處突圍,在多模態(tài)領(lǐng)域不斷做長線戰(zhàn)斗的 MiniMax 緩了一口氣,似乎看到了一絲「曙光」。

2025年被業(yè)界廣泛認(rèn)為是AI Agent之年。現(xiàn)在,2025年剛過去了一半,我們已經(jīng)看到了如此多的通用Agent或者是垂類Agent產(chǎn)品,它們或來自大廠或來自明星AI初創(chuàng)企業(yè),像是:字節(jié)的扣子空間,百度的心響,F(xiàn)lowith,Manus等等。

在這場競爭中,「長上下文」確實是一張重要的牌,而M1的優(yōu)勢也在于此。

現(xiàn)在 AI Agent 通常依賴于一套「感知—推理—行動」的端到端閉環(huán)能力,對模型在長上下文處理能力、模塊化推理、指令響應(yīng)穩(wěn)定性以及輕量化部署等方面有著極高要求。而 M1 恰恰在這些核心能力上展現(xiàn)出強大的適配性:它不僅具備鏈?zhǔn)剿季S(CoT)生成能力,還能在多輪交互中保持上下文一致性且推理效率表現(xiàn)屬于第一梯隊中等水平。

隨著Agent進(jìn)入應(yīng)用場景,無論是單個Agent工作時產(chǎn)生的記憶,還是多個Agent協(xié)作所產(chǎn)生的context,都會對模型的長上下文窗口提出更多需求。這就像人類團(tuán)隊協(xié)作一樣,大家必須對項目背景有共同的了解,才能高效配合。

但長上下文真的能「包打天下」嗎?答案是:重要,但遠(yuǎn)非全部。

決定Agent成敗的關(guān)鍵因素還有許多。

比如:Agent是否能夠以「端到端」能力強化學(xué)習(xí),培養(yǎng)「干中學(xué)」?還有就是現(xiàn)在最看重的工具調(diào)用和多模態(tài)能力?,F(xiàn)實世界的任務(wù)往往需要調(diào)用各種工具,從搜索引擎到專業(yè)軟件,從文字處理到圖像識別。這些都成為Agent能否展現(xiàn)足夠產(chǎn)品力的決定性因素。

除此之外,一個最關(guān)鍵也是最容易被理解的因素是:主模型。這半年來,我們往往能看到許多Agent廠商在強調(diào)一件事:讓主模型坐鎮(zhèn),調(diào)用專家Agent。這也對模型除了長上下文之外的性能提出了更高的要求,主模型的推理能力、任務(wù)分解能力、決策判斷力,直接決定了整個Agent系統(tǒng)的上限。

MiniMax在最前沿基礎(chǔ)模型上的技術(shù)積累似乎并沒有這么深厚。

不過,仍值得注意的是,MiniMax是一家多模態(tài)原生模型公司。這意味著在Agent時代,他們幾乎只需要解決商業(yè)化問題。因為,除了像其他廠商一樣套用SOTA級別大模型的API之外,MiniMax可有太多選擇了。

除了利潤點和Agent產(chǎn)品力之外,或許我們還可以關(guān)注下「產(chǎn)品的穩(wěn)定性」。過去兩年,投資者向Agentic AI初創(chuàng)公司投入了超過20億美元,而OpenAI在5月6日宣布以30億美元收購Windsurf;之后,Anthropic就「斷供Windsurf」了。據(jù)說,連 Claude 4 發(fā)布當(dāng)天,Windsurf 都沒拿到接入資格。這無疑對產(chǎn)品的影響是巨大的。

真正的勝負(fù),將取決于誰能在長上下文、強化學(xué)習(xí)、工具調(diào)用、多模態(tài)理解、成本控制、用戶體驗等多個維度上實現(xiàn)最佳平衡。MiniMax在長上下文領(lǐng)域的技術(shù)優(yōu)勢,為其在這場競爭中提供了話語權(quán),但最終的勝負(fù)手,還要看誰能更好地將技術(shù)轉(zhuǎn)化為用戶價值。

歡迎在評論區(qū)留言~
如需開白請加小編微信:dongfangmark

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
阿根廷神級預(yù)言家,1000多幅預(yù)言畫幾乎全中?未來世界3國主導(dǎo)?

阿根廷神級預(yù)言家,1000多幅預(yù)言畫幾乎全中?未來世界3國主導(dǎo)?

飛云如水
2024-08-01 21:28:13
重慶重要人事調(diào)動

重慶重要人事調(diào)動

白衣海盜
2026-01-09 10:00:22
深夜英特爾狂飆超8%,中概股下挫,油價、白銀拉升

深夜英特爾狂飆超8%,中概股下挫,油價、白銀拉升

21世紀(jì)經(jīng)濟(jì)報道
2026-01-10 00:03:07
央視怒批,人民日報點名封殺,這5位目無法紀(jì)的大網(wǎng)紅,徹底涼涼

央視怒批,人民日報點名封殺,這5位目無法紀(jì)的大網(wǎng)紅,徹底涼涼

一娛三分地
2025-12-04 17:00:33
“大尺度”新年掛歷火了!活菩薩椰樹慫了

“大尺度”新年掛歷火了!活菩薩椰樹慫了

李東陽朋友圈
2026-01-09 20:01:49
橘瑪麗:從“大G御姐”到百變女王,這位姐的逆襲劇本太頂了!

橘瑪麗:從“大G御姐”到百變女王,這位姐的逆襲劇本太頂了!

碧波萬覽
2026-01-10 03:55:03
美女打屁股大賽,火了

美女打屁股大賽,火了

微微熱評
2025-10-08 22:10:24
數(shù)據(jù)新聞丨3046公里!這是塔克拉瑪干的大漠鎖邊記

數(shù)據(jù)新聞丨3046公里!這是塔克拉瑪干的大漠鎖邊記

閃電新聞
2026-01-09 15:09:00
偌大的海南島面積足有3.4萬平方公里,為啥卻少有大型港口呢?

偌大的海南島面積足有3.4萬平方公里,為啥卻少有大型港口呢?

向航說
2025-12-12 00:40:02
三星掌門人北京逛街,穿“老頭馬甲”秒售罄!有錢男人為啥愛馬甲

三星掌門人北京逛街,穿“老頭馬甲”秒售罄!有錢男人為啥愛馬甲

商務(wù)范
2026-01-07 17:57:48
天生富貴命!這 3 對生肖夫妻,招財旺家一輩子,子孫后代都享福

天生富貴命!這 3 對生肖夫妻,招財旺家一輩子,子孫后代都享福

人閒情事
2026-01-09 22:03:34
阿隆索:西蒙尼的行為不是一個優(yōu)秀的體育人士該有的

阿隆索:西蒙尼的行為不是一個優(yōu)秀的體育人士該有的

懂球帝
2026-01-09 10:05:11
國內(nèi)首例!萬噸橋梁成功轉(zhuǎn)體跨越上海磁浮線

國內(nèi)首例!萬噸橋梁成功轉(zhuǎn)體跨越上海磁浮線

看看新聞Knews
2026-01-09 09:53:01
2019年17歲女孩找大叔偷情,纏綿時給大叔下藥,透支大叔卡上的錢

2019年17歲女孩找大叔偷情,纏綿時給大叔下藥,透支大叔卡上的錢

談史論天地
2026-01-09 13:20:03
AI的盡頭是醫(yī)療!AMD蘇姿豐最新對話:開發(fā)藥物,將像造iPhone一樣簡單!

AI的盡頭是醫(yī)療!AMD蘇姿豐最新對話:開發(fā)藥物,將像造iPhone一樣簡單!

智藥局
2026-01-07 19:40:48
越南當(dāng)年為何敢和中國開戰(zhàn)?黎筍長子多年后說出了核心真相

越南當(dāng)年為何敢和中國開戰(zhàn)?黎筍長子多年后說出了核心真相

古書記史
2025-12-22 19:21:12
國乒奧運陣容浮出水面,21歲新星彎道超車,4人穩(wěn)固,1主力被冷落

國乒奧運陣容浮出水面,21歲新星彎道超車,4人穩(wěn)固,1主力被冷落

知軒體育
2025-12-08 01:23:52
色字頭上一把刀!沈陽一男子追求00后女生“霸王硬上弓”,被判刑

色字頭上一把刀!沈陽一男子追求00后女生“霸王硬上弓”,被判刑

火山詩話
2026-01-09 08:45:32
若中日再次爆發(fā)戰(zhàn)爭,結(jié)局會如何?俄羅斯和美國看法一致

若中日再次爆發(fā)戰(zhàn)爭,結(jié)局會如何?俄羅斯和美國看法一致

老謝談史
2025-12-01 20:40:13
許晴一看就老了,竟然還沒張凱麗顯年輕!

許晴一看就老了,竟然還沒張凱麗顯年輕!

草莓解說體育
2026-01-07 09:12:50
2026-01-10 06:11:00
直面派 incentive-icons
直面派
講述值得講述的真實故事
244文章數(shù) 236關(guān)注度
往期回顧 全部

科技要聞

市場偏愛MiniMax:開盤漲42%,市值超700億

頭條要聞

媒體稱委內(nèi)瑞拉代總統(tǒng)計劃13日訪問華盛頓 委方回應(yīng)

頭條要聞

媒體稱委內(nèi)瑞拉代總統(tǒng)計劃13日訪問華盛頓 委方回應(yīng)

體育要聞

金元時代最后的外援,來中國8年了

娛樂要聞

關(guān)曉彤鹿晗風(fēng)波后露面 不受影響狀態(tài)佳

財經(jīng)要聞

投資必看!瑞銀李萌給出3大核心配置建議

汽車要聞

助跑三年的奇瑞 接下來是加速還是起跳?

態(tài)度原創(chuàng)

時尚
數(shù)碼
教育
藝術(shù)
公開課

推廣中獎名單-更新至2025年12月19日推廣

數(shù)碼要聞

銘凡CES 2026新聞稿提及英特爾酷睿Ultra 9 290HX Plus處理器

教育要聞

震驚!556分上211?合肥工大統(tǒng)計學(xué)真香

藝術(shù)要聞

15位著名畫家的女性之美:哪一張觸動了你的心?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版