国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

實(shí)測(cè)混元Hy3 preview:騰訊AI,終于能打了?

0
分享至

文 | AIX財(cái)經(jīng),作者 | 雷晶,編輯 | 金玙璠

AI圈近期動(dòng)作頻頻,騰訊混元Hy3 preview也正式亮相。

4月23日,騰訊混元正式發(fā)布并開源了新一代語言模型Hy3 preview。據(jù)官網(wǎng)介紹,該模型采用快慢思考融合的混合專家架構(gòu),總參數(shù)295B、激活參數(shù)21B,最大支持256K上下文長(zhǎng)度。這是被官方稱為混元迄今最智能的模型。

三個(gè)月前,姚順雨帶著ReAct框架和OpenAI的實(shí)戰(zhàn)經(jīng)驗(yàn)加入騰訊,主導(dǎo)完成了預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施的重構(gòu)。Hy3 preview是重建后的首份答卷。官方表示,該模型在復(fù)雜推理、指令遵循、上下文學(xué)習(xí)、代碼生成及智能體等能力均實(shí)現(xiàn)大幅提升。

從官方披露的數(shù)據(jù)和評(píng)測(cè)結(jié)果來看,Hy3 preview在多項(xiàng)基礎(chǔ)測(cè)試中展現(xiàn)出亮眼的實(shí)力,雖然未必在所有維度都達(dá)到行業(yè)頂尖水準(zhǔn),但足以滿足多數(shù)場(chǎng)景下的實(shí)用需求。

在實(shí)際運(yùn)行效率和穩(wěn)定性方面,Hy3 preview也有所突破。官方數(shù)據(jù)顯示,這款模型的首Token延遲降低54%,端到端時(shí)長(zhǎng)降低47%,大幅提升了響應(yīng)速度。同時(shí),任務(wù)成功率也有所提升,已能穩(wěn)定驅(qū)動(dòng)復(fù)雜的Agent工作流,覆蓋文檔處理、數(shù)據(jù)分析等多種業(yè)務(wù)場(chǎng)景。

此外,它的推理成本也有所下降。在騰訊云API輸入低至1.2元/百萬Tokens,個(gè)人套餐最低28元/月,在同尺寸模型中屬于最低價(jià)梯隊(duì)。目前,Hy3 preview已在騰訊云、元寶、WorkBuddy等騰訊核心產(chǎn)品中上線。

接下來,我們將根據(jù)官方提到的四個(gè)方向,實(shí)測(cè)混元大模型在實(shí)際應(yīng)用中的表現(xiàn)。

推理能力:復(fù)雜邏輯能拆解,陷阱識(shí)別仍需加強(qiáng)

我們首先測(cè)試了模型的推理能力。邏輯推理題是網(wǎng)友最喜歡拿來測(cè)模型“智商”的類型之一。在這一環(huán)節(jié)中,我們先用經(jīng)典的“洗車問題”在元寶內(nèi)進(jìn)行測(cè)試。


在這個(gè)經(jīng)典陷阱題中,Hy3 preview起初并未答對(duì)。它給出了條理清晰的推理來建議步行,而忽視了重點(diǎn)在于“洗車”。在再次提醒需要洗車后,它才給出正確答案。

需要注意的是,在其他網(wǎng)友的實(shí)測(cè)中,Hy3 preview出現(xiàn)過能直接答對(duì)的情況,說明它的陷阱識(shí)別能力穩(wěn)定性不足。

我們?cè)賮碓囈坏滥X筋急轉(zhuǎn)彎題。在這個(gè)問題中,需要理解現(xiàn)實(shí)邏輯,碎了、煎了、吃了的是同一批雞蛋。但Hy3 preview沒有意識(shí)到這一點(diǎn),它認(rèn)為煎了的雞蛋依然存在,可以吃掉。


隨后,我們加大難度,用一道推導(dǎo)過程更為復(fù)雜的邏輯題來考驗(yàn)它。這道題的難點(diǎn)在于沒有直接的定位信息,需要靠隱性條件來做排除,容易遺漏關(guān)鍵信息。


在這一場(chǎng)景中,Hy3 preview給出了正確答案。它先逐條拆解線索、提煉人物與職業(yè)的互斥關(guān)系,再通過排除法鎖定身份。接著,它依次確定部分崗位的歸屬,再結(jié)合規(guī)則逐步補(bǔ)全。

綜合來看,Hy3 preview常規(guī)理性邏輯推演能力較強(qiáng),但逆向思維、陷阱識(shí)別與生活場(chǎng)景變通思考能力仍有不足。面對(duì)陷阱類腦筋急轉(zhuǎn)彎時(shí),容易局限于字面常規(guī)邏輯,忽略題目陷阱與現(xiàn)實(shí)場(chǎng)景,反應(yīng)欠佳。但在面對(duì)條件隱蔽、推導(dǎo)繁瑣的復(fù)雜邏輯推理題時(shí),它能夠拆解線索,層層推演,邏輯分析和分步推導(dǎo)能力表現(xiàn)扎實(shí)。

上下文學(xué)習(xí)和指令遵循 :提取信息,干擾場(chǎng)景下表現(xiàn)穩(wěn)定

這一環(huán)節(jié)考驗(yàn)?zāi)P偷膬蓚(gè)基本功:能否抓住真正的指令,以及能否快速理解指令。

騰訊在官方博客中給出了項(xiàng)目規(guī)劃、旅游總結(jié)、讀書記錄等五個(gè)場(chǎng)景,我們選取兩個(gè)場(chǎng)景來實(shí)測(cè)。

場(chǎng)景一:內(nèi)容雜亂的會(huì)議紀(jì)要信息提取

我們給了一段混亂的會(huì)議錄音轉(zhuǎn)寫,混雜著插話、跑題、反復(fù)修正等情況,要求其摘錄三類信息。


Hy3 preview給出的答案準(zhǔn)確地列出了這三類信息,信息抓取能力表現(xiàn)不錯(cuò)。

場(chǎng)景二:理解并遵循新的語言規(guī)則

我們自創(chuàng)了一個(gè)簡(jiǎn)單的語言,通過實(shí)例向它展示規(guī)則,并給它三個(gè)新的句子讓它翻譯。


在這一輪中,Hy3 preview能夠準(zhǔn)確完成相關(guān)要求,每個(gè)細(xì)節(jié)都能按規(guī)則執(zhí)行。

綜合來看,Hy3 preview能理解指令要求,有效排除干擾信息,適合繁雜信息干擾、信息抓取等實(shí)用場(chǎng)景。

代碼和智能體:工具調(diào)用較成熟,任務(wù)交付完整性不足

代碼能力與智能體能力,是評(píng)判一款A(yù)I助手是否好用的重要維度。這既考驗(yàn)?zāi)P蛯?duì)用戶需求的理解深度,也檢驗(yàn)Agent在多步驟任務(wù)中的規(guī)劃、工具調(diào)用及任務(wù)閉環(huán)能力。這一環(huán)節(jié),我們?yōu)閃orkBuddy(騰訊旗下AI助手)設(shè)計(jì)了三個(gè)任務(wù)。

第一個(gè)任務(wù),我們要求WorkBuddy爬取五個(gè)城市近一年的空氣狀況,并基于空氣質(zhì)量數(shù)據(jù)生成一份分析報(bào)告。


從頁面呈現(xiàn)來看,成品表現(xiàn)合格。季節(jié)切換、雷達(dá)圖、趨勢(shì)圖、相關(guān)性熱力圖等板塊結(jié)構(gòu)完整,視覺呈現(xiàn)有序,圖表也具備基本的交互功能。這表明它在前端呈現(xiàn)這一層面的執(zhí)行力達(dá)標(biāo)。

但問題主要有兩個(gè),一是由于數(shù)據(jù)獲取階段受阻,Hy3 preview只拿到了224天的有效數(shù)據(jù),缺口較大,影響了后續(xù)表格的可信度;二是提示詞中明確要求寫一段分析結(jié)論,Hy3 preview雖在頁面上保留了對(duì)應(yīng)板塊的區(qū)域,但實(shí)際內(nèi)容是一片空白。這意味著,它有任務(wù)閉環(huán)意識(shí),但最終的交付能力仍有不足。

第二個(gè)任務(wù),我們讓它搭建一個(gè)貪吃蛇小游戲。

最終結(jié)果較為成熟,畫面精美、邏輯完整,可以正常運(yùn)行。但需要指出的是,貪吃蛇屬于規(guī)則封閉類任務(wù),需求明確且無需調(diào)用外部數(shù)據(jù),評(píng)價(jià)標(biāo)準(zhǔn)比較明確,是智能體較擅長(zhǎng)的應(yīng)用場(chǎng)景。WorkBuddy在該任務(wù)中的表現(xiàn)只能體現(xiàn)在舒適區(qū)內(nèi)的能力,驗(yàn)證了其具有一定的實(shí)用價(jià)值。


第三個(gè)任務(wù),我們將難度提高,讓它分析一個(gè)開放式復(fù)雜任務(wù):分析AI Coding行業(yè)的商業(yè)模式演變,盤點(diǎn)2023年至今的發(fā)展歷程,并找出行業(yè)關(guān)鍵轉(zhuǎn)折點(diǎn)及核心驅(qū)動(dòng)因素。

這是一個(gè)開放式復(fù)雜任務(wù),沒有統(tǒng)一的標(biāo)準(zhǔn)答案,成果質(zhì)量取決于Agent的判斷力、信息篩選能力與表達(dá)能力。

在執(zhí)行層面,WorkBuddy能夠自動(dòng)調(diào)用多個(gè)工具,先修訂執(zhí)行計(jì)劃、再落地推進(jìn)計(jì)劃,整個(gè)過程大概耗時(shí)半個(gè)小時(shí)。


但最終結(jié)果并不算驚艷,它只是搭建了一個(gè)基礎(chǔ)框架,實(shí)際內(nèi)容不夠扎實(shí)。可以看出,雖然它掌握了拆解研究問題的方法,卻不懂得如何將這些維度進(jìn)一步提煉為有價(jià)值的研究論點(diǎn)。

總的來說,WorkBuddy已具備日常編碼助手該有的能力,但在復(fù)雜任務(wù)的深度執(zhí)行和最終交付上,還有提升空間。

自然對(duì)話:AI味明顯減弱

最后,我們?cè)賮砜纯丛獙氂袥]有“人味”。這一輪通過兩個(gè)場(chǎng)景來測(cè)試:閑聊對(duì)話與創(chuàng)意寫作。

場(chǎng)景一:閑聊對(duì)話

官方文檔中提到,Hy3 preview更能理解用戶的傾訴意圖,能承接用戶情緒,避免說教式、模板化的回復(fù)。


實(shí)際測(cè)試下來,Hy3 preview的表現(xiàn)確實(shí)貼合這一定位。它沒有一上來就羅列一堆建議,而是先客觀分析背后的可能原因,再詢問是否遇到什么事情。整體語氣溫和,較有分寸,有閑聊場(chǎng)景里的自然感。

場(chǎng)景二:創(chuàng)意寫作

在這一環(huán)節(jié)中,我們?cè)O(shè)計(jì)了兩個(gè)任務(wù),考驗(yàn)它的敘事與表達(dá)能力。

我們先讓它寫一個(gè)主角全程未出場(chǎng),但讀者讀完能清晰知道他是誰、經(jīng)歷了什么、為何重要的故事。


元寶交出的成品,全文邏輯自洽、敘事流暢,完成度較高,幾乎讀不出AI寫作常見的套路感。

接著,我們?cè)僮屗7隆睹鞒切┦聝骸返奈娘L(fēng),撰寫其他朝代的人物歷史故事。

AI寫作時(shí)容易將文風(fēng)復(fù)刻表現(xiàn)為刻板的模仿,僅停留照搬行文框架,而不能吃透文章風(fēng)格。但從生成結(jié)果來看,Hy3 preview文風(fēng)復(fù)刻能力較強(qiáng),整體符合要求。它抓住了原書通俗講史的風(fēng)格,較好地呈現(xiàn)了整個(gè)故事。


這一輪評(píng)測(cè),最讓人意外。整體來看,Hy3 preview在自然語言的表達(dá)上,已經(jīng)擺脫了正確卻無味的套路腔,能夠?qū)懗隹勺x性較高的文本。

結(jié)語

四個(gè)維度測(cè)下來,Hy3 preview給人的感覺是“穩(wěn)而不驚”。

它沒有在某一項(xiàng)上拿出碾壓式的表現(xiàn),但它也幾乎沒有明顯的短板。放在整個(gè)國(guó)內(nèi)大模型的排位里,它未必是最驚艷的一款,但符合能干活的實(shí)用型模型標(biāo)準(zhǔn)。

把視角拉遠(yuǎn)一點(diǎn),Hy3 preview真正的意義或許并不在模型本身。

過去兩年,騰訊在大模型戰(zhàn)場(chǎng)上較為被動(dòng)。今年1月底,馬化騰在年會(huì)上公開承認(rèn),騰訊AI動(dòng)作慢了。技術(shù)節(jié)奏相對(duì)較慢、沒有一個(gè)能讓外界記住的標(biāo)桿模型,是騰訊面臨的兩大問題。而Hy3 preview的發(fā)布,讓騰訊的AI故事有了轉(zhuǎn)折點(diǎn),也讓騰訊有了整個(gè)生態(tài)都能用的AI模型。

目前Hy3 preview還只是一個(gè)預(yù)覽版本,開源社區(qū)的反饋還在收集中,元寶、QQ、騰訊文檔等產(chǎn)品的實(shí)際調(diào)用體驗(yàn)也還需要時(shí)間檢驗(yàn)。據(jù)官方披露,后續(xù)會(huì)發(fā)布參數(shù)規(guī)模更大的模型。

但至少,騰訊AI已經(jīng)開始撕掉過去兩年“被動(dòng)”的標(biāo)簽了。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
曝球球退出陳翔六點(diǎn)半!疑細(xì)節(jié)原因曝光,否認(rèn)與“蘑菇頭”是夫妻

曝球球退出陳翔六點(diǎn)半!疑細(xì)節(jié)原因曝光,否認(rèn)與“蘑菇頭”是夫妻

裕豐娛間說
2026-04-26 19:04:43
黃金價(jià)格跌破1000元!看來這茬兒韭菜,是到收割的時(shí)候了?

黃金價(jià)格跌破1000元!看來這茬兒韭菜,是到收割的時(shí)候了?

正經(jīng)說個(gè)事兒
2026-03-23 23:32:34
大便要排隊(duì),強(qiáng)奸卻隨時(shí):一名日本女戰(zhàn)俘的1944年日記

大便要排隊(duì),強(qiáng)奸卻隨時(shí):一名日本女戰(zhàn)俘的1944年日記

英子談
2026-04-26 15:56:57
“我被炸死是活該?”鄭麗文一句話讓民進(jìn)黨代表“破防”

“我被炸死是活該?”鄭麗文一句話讓民進(jìn)黨代表“破防”

矚望云霄
2026-04-26 21:12:17
取消戶籍限制!教育部突發(fā)新規(guī)!9月1日起執(zhí)行:家長(zhǎng)再也不用焦慮

取消戶籍限制!教育部突發(fā)新規(guī)!9月1日起執(zhí)行:家長(zhǎng)再也不用焦慮

芳姐侃社會(huì)
2026-04-24 22:52:50
中國(guó)PCB十強(qiáng):誰是真龍?

中國(guó)PCB十強(qiáng):誰是真龍?

風(fēng)風(fēng)順
2026-04-25 14:40:06
曾毓群一聲咳嗽,李斌欲言又止

曾毓群一聲咳嗽,李斌欲言又止

版面之外
2026-04-26 07:53:41
中超最新積分榜出爐!成都蓉城繼續(xù)領(lǐng)跑,津門虎強(qiáng)勢(shì)反彈擺脫墊底

中超最新積分榜出爐!成都蓉城繼續(xù)領(lǐng)跑,津門虎強(qiáng)勢(shì)反彈擺脫墊底

徽派體育
2026-04-25 23:59:32
給5%股份就想“白嫖”核心代碼?這屆風(fēng)投和AI大牛,錯(cuò)惹了陳天橋

給5%股份就想“白嫖”核心代碼?這屆風(fēng)投和AI大牛,錯(cuò)惹了陳天橋

數(shù)智研究社
2026-04-25 12:43:34
《八千里路云和月》大結(jié)局:丁玉嬌的良人從不是萬福,而是田家泰

《八千里路云和月》大結(jié)局:丁玉嬌的良人從不是萬福,而是田家泰

慫熊劇場(chǎng)
2026-04-26 16:18:01
賺麻了!油田和煤田下居然有鈾!中國(guó)終于摘掉了“貧鈾”的帽子

賺麻了!油田和煤田下居然有鈾!中國(guó)終于摘掉了“貧鈾”的帽子

說歷史的老牢
2026-04-26 10:26:43
38歲梅西怒了!賽后直接離場(chǎng):4次妙傳全被吐餅 2場(chǎng)球荒主場(chǎng)3連平

38歲梅西怒了!賽后直接離場(chǎng):4次妙傳全被吐餅 2場(chǎng)球荒主場(chǎng)3連平

風(fēng)過鄉(xiāng)
2026-04-26 11:01:38
女孩臥鋪車求救武警,戰(zhàn)士轉(zhuǎn)頭裝睡,4小時(shí)后所有人都愣住了

女孩臥鋪車求救武警,戰(zhàn)士轉(zhuǎn)頭裝睡,4小時(shí)后所有人都愣住了

蕭矹影視解說
2026-04-15 13:08:16
牡丹花下死!汪峰官宣戀情才2年,森林北又走上了章子怡的老路

牡丹花下死!汪峰官宣戀情才2年,森林北又走上了章子怡的老路

落雪聽梅a
2026-04-24 07:58:40
白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

特約前排觀眾
2025-12-22 00:20:06
隨著穆帥率隊(duì)4-1大勝,阿維卡2-1,葡超最新積分榜出爐

隨著穆帥率隊(duì)4-1大勝,阿維卡2-1,葡超最新積分榜出爐

側(cè)身凌空斬
2026-04-26 03:12:20
多國(guó)封殺后首露面!坎耶帶小 17 歲妻子現(xiàn)身酒店,造型依舊辣眼

多國(guó)封殺后首露面!坎耶帶小 17 歲妻子現(xiàn)身酒店,造型依舊辣眼

橙星文娛
2026-04-26 09:51:15
美國(guó)發(fā)聲后,日本也表態(tài)了,臺(tái)海出現(xiàn)變數(shù),鄭麗文咬死一句話

美國(guó)發(fā)聲后,日本也表態(tài)了,臺(tái)海出現(xiàn)變數(shù),鄭麗文咬死一句話

一口娛樂
2026-04-26 20:58:00
1995年,49歲的特朗普來到香港,懷中抱著一位神秘女人,她是誰?

1995年,49歲的特朗普來到香港,懷中抱著一位神秘女人,她是誰?

文史達(dá)觀
2025-01-26 06:45:03
威廉凱特再搬家:離宮殿更遠(yuǎn),離父母更近,王室排場(chǎng)更淡了

威廉凱特再搬家:離宮殿更遠(yuǎn),離父母更近,王室排場(chǎng)更淡了

世界王室那些事
2026-04-26 19:05:34
2026-04-26 22:15:00
鈦媒體APP incentive-icons
鈦媒體APP
獨(dú)立財(cái)經(jīng)科技媒體
132801文章數(shù) 862118關(guān)注度
往期回顧 全部

科技要聞

漲價(jià)浪潮下,DeepSeek推動(dòng)AI“價(jià)格戰(zhàn)”

頭條要聞

特朗普內(nèi)閣又一女部長(zhǎng)落馬:強(qiáng)迫男下屬為其提供性服務(wù)

頭條要聞

特朗普內(nèi)閣又一女部長(zhǎng)落馬:強(qiáng)迫男下屬為其提供性服務(wù)

體育要聞

森林狼3比1掘金:逆境中殺出了多孫穆?!

娛樂要聞

僅次《指環(huán)王》的美劇,有第二季

財(cái)經(jīng)要聞

事關(guān)新就業(yè)群體,中辦、國(guó)辦發(fā)文

汽車要聞

預(yù)售19.38萬元起 哈弗猛龍PLUS七座版亮相

態(tài)度原創(chuàng)

數(shù)碼
時(shí)尚
親子
游戲
公開課

數(shù)碼要聞

MOREFINE上架G2外置顯卡,內(nèi)置RTX 5060 Ti

比闊腿褲還時(shí)髦?今年夏天一定要有“這條褲子”,減齡又松弛

親子要聞

今天我們來吃整蠱海盜桶糖果食玩

《AC黑旗RE》夯爆了!碾壓同期登頂多地PS預(yù)購榜首

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版