国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

姚順雨騰訊模型首秀!不卷參數(shù)只做 “聽話打工人”,Hy3 preview登場 | 附實測

0
分享至


作者 | 褚杏娟、蔡芳芳

今天,騰訊正式發(fā)布了新模型 Hy3 preview,這是姚順雨加入騰訊后帶領團隊發(fā)布的首個模型。

姚順雨團隊沒有從萬億規(guī)模模型入手。Hy3 preview 是一個快慢思考融合的 MoE 語言模型,總參數(shù) 295B,激活參數(shù) 21B,最大支持 256K 上下文長度,主打性價比。Hy3 preview 的模型能力提升,適用于 Coding 和智能體(例如龍蝦)類場景,是一個在實際應用中具備實用性和高性價比的基礎模型。

Hy3 preview 是騰訊嘗試解決真實世界復雜工程問題的開端。騰訊希望將 Hy3 preview 置于真實的業(yè)務場景中,通過 WorkBuddy 這一面向知識工作者的智能體(Agent)生產(chǎn)力框架,讓 AI 與用戶共同完成能力的持續(xù)進化。

騰訊表示,這是混元重建后訓練的第一個模型,也是混元迄今最智能的模型,在復雜推理、指令遵循、上下文學習、代碼、智能體等能力及推理性能上實現(xiàn)了大幅的提升。

2026 年 2 月,騰訊混元重建了預訓練和強化學習的基礎設施,以及模型追求實用性的三個原則:

  • 能力體系化: 不推崇“偏科”,因為即使是代碼智能體的單一應用,也涉及推理、長文、指令、對話、代碼、工具等多種能力的深度協(xié)同。

  • 評測真實性: 主動跳出易被“刷榜”的公開榜單,通過自建題目、最新考試、人工評測、產(chǎn)品眾測等多種方式評估和改進模型的“真實戰(zhàn)斗力”。

  • 性價比追求:實用性離不開商業(yè)合理性,深度協(xié)同模型架構和推理框架的設計,大幅降低任務成本,讓智能用得起、用得好。


模型發(fā)布的同時,騰訊官方也給混元系列換了新的logo,儼然一副“重新出發(fā)”的感覺:


騰訊首席 AI 科學家姚順雨表示,Hy3 preview 是混元大模型重建的第一步?!拔覀兿Mㄟ^這次開源和發(fā)布,獲得來自開源社區(qū)和用戶的真實反饋,幫助我們提升 Hy3 正式版的實用性。與此同時,我們也在繼續(xù)擴大預訓練和強化學習的規(guī)模,提升模型的智能上限,并通過與騰訊眾多產(chǎn)品的深度 Co-Design,持續(xù)提升模型在真實場景中的綜合表現(xiàn),并開始探索特色模型能力?!?/p>

今年初,在 AGI-NEXT 會議上,姚順雨就坦言,騰訊仍然是一家 To C 基因更強的公司。因此,騰訊更關心的問題是:如何讓今天的大模型真正為用戶創(chuàng)造更多實際價值。

他認為,To C 場景里,很多問題的關鍵并不只是模型變得更大、更強,而是能否拿到更多上下文信息。姚順雨舉例說,像“我今天該吃什么”這樣的問題,看似簡單,但如果沒有足夠的上下文,模型很難給出真正貼近用戶當下需求的答案。比如天氣是否很冷、活動范圍在哪里、是否需要考慮伴侶的安排,這些額外信息往往比繼續(xù)做更大模型、更強強化學習或者更強搜索更重要。

值得注意的是,姚順雨加入騰訊后的首次署名研究論文也是關于上下文。騰訊混元官網(wǎng)在 2 月發(fā)布了姚順雨團隊加入后的首個公開成果 CL-bench,專門測模型能不能從上下文中學到新知識并正確應用。姚順雨強調不要只盯榜單,更重要的是把系統(tǒng)放進真實世界約束中評估。

騰訊在集團層面也在加速將 AI 融入游戲、廣告和社交等核心業(yè)務,這體現(xiàn)在了最新財報中:增值服務收入同比增長 14% 至 899.2 億元;營銷服務收入同比增長 17% 至 411.2 億元;金融科技及企業(yè)服務業(yè)務收入同比增長 8% 至 608.2 億元。

公司還圍繞大模型能力和 AI 產(chǎn)品矩陣持續(xù)推進,WorkBuddy、QClaw 等“小龍蝦”系列 Agent 陸續(xù)上線。但更讓人關注的是財報媒體會上,騰訊宣布混元 3.0 計劃于 4 月陸續(xù)向外開放。自引入姚順雨后,騰訊圍繞 AI 組織與人才體系進行了一系列密集調整,而這一系列動作的效果一定程度會反映在最新的模型上。

很明顯,Hy3 preview 既是符合姚順雨和騰訊業(yè)務理念的模型,也是大眾對騰訊的一次檢驗。

主打全面實用性,
Agent 能力大幅提升

根據(jù)官方多個測評結果,Hy3 preview 模型能力全面提升。

上下文學習和指令遵循能力

在各種真實的生產(chǎn)與生活場景,理解雜亂冗長的上下文并遵從復雜多變的規(guī)則是模型的首要挑戰(zhàn)?;隍v訊業(yè)務場景的靈感,騰訊混元提出了 CL-bench 和 CL-bench-Life 來創(chuàng)新性地評估模型的上下文學習能力,并在 Hy3 preview 顯著地提升了模型上下文學習和指令遵循能力。


復雜推理能力突出,清華數(shù)學博士資格考試國內(nèi)分數(shù)最高

復雜推理能力是模型解決各種問題的基礎。Hy3 preview 在 FrontierScience-Olympiad、IMOAnswerBench 等高難度理工科推理任務中表現(xiàn)突出,并在最新的清華大學求真書院數(shù)學博資考 (26 春) 和 全國中學生生物學聯(lián)賽 (CHSBO 2025) 中取得優(yōu)異成績,展現(xiàn)了可泛化的強推理能力。


代碼與智能體提升最為顯著,展現(xiàn)出高性價比

代碼和智能體是 Hy3 preview 提升最為顯著的方向。得益于預訓練及強化學習框架的重建和強化學習任務規(guī)模的提升,騰訊混元以較快的速度在 SWE-Bench Verified、Terminal-Bench 2.0 等主流代碼智能體基準以及 BrowseComp、WideSearch 等主流搜索智能體基準中取得了有競爭力的結果。


在數(shù)字世界中,代碼關注的是模型在開發(fā)環(huán)境中的執(zhí)行能力,搜索則聚焦于開放信息空間中的檢索、篩選與整合能力,兩者共同決定了模型在復雜智能體場景(例如 OpenClaw)中是否真正具備可用性。Hy3 preview 在 ClawEval 和 WildClawBench 等評測中表現(xiàn)突出,表明我們的智能體能力正在穩(wěn)步走向全面與實用。


除了公開榜單,騰訊混元還進一步構建了多個內(nèi)部的評測集,對模型在真實開發(fā)場景中的表現(xiàn)進行評估。結果表明,無論是在后端工程任務集 Hy-Backend,貼近真實用戶開發(fā)交互的 Hy-Vibe Bench,還是高難度軟件工程開發(fā)任務集 Hy-SWE Max 上,Hy3 preview 均體現(xiàn)出了強競爭力。


比較各個開源模型的大小與智能體綜合表現(xiàn),Hy3 preview 展現(xiàn)出高性價比。


成本大幅降低,
騰訊核心業(yè)務全面接入

得益于模型和推理框架上的深度協(xié)同,以及在推理框架、算子性能、量化算法等全方面優(yōu)化,整體推理效率提升 40%,Hy3 preview 的成本相比上一代模型大幅下降。

在騰訊云大模型服務平臺 TokenHub 上,Hy3 preview 輸入價格最低 1.2 元 / 百萬 tokens,輸入命中緩存價格 0.4 元 / 百萬 tokens,輸出價格最低 4 元 / 百萬 tokens。同時,騰訊云聯(lián)合混元推出定制的 Hy3 preview Token Plan 套餐,個人版定價最低 28 元 / 月,為 Agent 開發(fā)和打造“龍蝦”應用的提供更具性價比選擇。



而在正式上線之前,Hy3 preview 在騰訊主要 AI 業(yè)務進行了產(chǎn)品測試,獲得明顯正收益。

比如在元寶端,混元與元寶進行了深度 Co-Design。一方面,針對性地提升了模型在意圖理解精準度、文本創(chuàng)作質量、深度搜索等硬核指標上的表現(xiàn);另一方面,對文風、文筆、情商、內(nèi)容組織和內(nèi)容專業(yè)度上進行了精細化調優(yōu)。模型與產(chǎn)品的深度協(xié)同,為用戶帶來了更智能且更具“活人感”的交互體驗。

在 ima 知識庫問答和通用問答兩個場景下,Hy3 preview 處理長文的能力出色,特別是檢索類任務,在回答信息的準確性、覆蓋度和全面性上表現(xiàn)較好。

在 CodeBuddy、WorkBuddy 產(chǎn)品上,Hy3 preview 首 token 延遲降低 54%、端到端時長降低 47%、成功率提升至 99.99%+。實際用戶環(huán)境中,Hy3 preview 已穩(wěn)定驅動最長 495 步的復雜 Agent 工作流,覆蓋文檔處理、數(shù)據(jù)分析、知識檢索、MCP 工具鏈編排等多樣化辦公場景。

而在公眾號 AI 分身和 AI 客服的場景專項評測中,Hy3 preview 展現(xiàn)出相比 Hy2 更全面的能力升級。新模型在用戶意圖理解、復雜上下文承接和知識信息組織方面表現(xiàn)更成熟,面對模糊提問、短句追問和多輪對話時,能夠更準確地把握用戶訴求,并輸出更清晰、更穩(wěn)定的回復。結合知識庫、用戶記憶與上下文生成回答時更貼合 AI 分身和 AI 客服的角色,過度腦補、主觀代入和情緒化表達顯著減少,使整體交互體驗更貼近“可信、自然、高效”的回復目標。

另外在和平精英 AI NPC 場景評測中,和平精英團隊第一時間在 Hy3 preview 上線后基于 AI NPC 場景中完成接入并開展評測,整體表現(xiàn)令人印象深刻。在游戲局外的人設扮演場景中,Hy3 Preview 不僅能夠精準理解角色設定,還能針對開放性問題輸出高度關聯(lián)、富有增量價值的內(nèi)容,帶來了更加真實、自然、沉浸的對話體驗。而在游戲局內(nèi)的復雜對戰(zhàn)場景中,模型回復節(jié)奏貼近真實玩家聊天體驗,展現(xiàn)出優(yōu)秀的穩(wěn)定性與出色的擬人化扮演能力,整體效果表現(xiàn)亮眼。

在騰訊文檔 AI PPT 場景,較上一版本(Hy2)取得了顯著進步:生成成功率提升 20%,評測得分提升 10%,同時生成耗時縮短 20%。整體而言,新模型在評測場景中表現(xiàn)優(yōu)異,在模版選擇,色彩匹配,生成大綱,補充內(nèi)容多個階段,均體現(xiàn)出優(yōu)秀的表現(xiàn),無幻覺,契合主題,視覺效果好。

在 QQ AI 助手小 Q 產(chǎn)品評測中,較上一版本,在長文本首字節(jié)時延、整體響應速度與流式輸出效率方面顯著優(yōu)化;核心能力上,數(shù)學推理表現(xiàn)提升尤為明顯,多場景指令遵循與泛化能力進一步增強;在工具調用推理及多輪指代消解方面表現(xiàn)更穩(wěn)定高效,在 OpenClaw 官方 PinchBench QQ 智能體場景測試中取得突出效果,綜合體驗實現(xiàn)明顯躍升。

目前,Hy3 preview 已在騰訊云、元寶、ima、CodeBuddy、WorkBuddy、QQ、QQ 瀏覽器、騰訊文檔、騰訊樂享等首發(fā)上線,微信公眾號、和平精英、騰訊新聞、騰訊自選股、騰訊客服、微信讀書等多個主線產(chǎn)品也在陸續(xù)上線。另外,Hy3 preview 支持接入流行的開源智能體產(chǎn)品,如 OpenClaw、OpenCode、KiloCode 等,并已上架騰訊云大模型服務平臺 TokenHub。

InfoQ 有幸提前進行了測試,整體使用下來,一句話總結就是:這是個用理性解決問題的幫手。下面是我們做的五個小測試,包括國外播客整理翻譯、研究報告、前端網(wǎng)站搭建、物理理解和 Skill 測試,期間 Hy3 preview 做得好的地方、不好的地方,都非常明顯。

InfoQ 實測

英文視頻提煉亮點和翻譯

第一個小任務,嘗試讓 Hy3 preview 給英文采訪視頻提煉核心內(nèi)容和亮點。這也是我們的日常工作場景之一。




下面是思考過程:




Hy3 preview 無法直接訪問我給的鏈接,于是先嘗試了用瀏覽器自動化工具來訪問,過程中會自己嘗試安裝缺少的工具agent-browser,不過安裝失敗了。于是它改為使用 Python 腳本來獲取視頻信息,這一次獲取成功了。最后基于獲取到的視頻基礎信息,它進一步搜索到了這期播客的 newsletter 頁面,并獲取到了更詳細的介紹。

我讓它根據(jù)視頻內(nèi)容提煉 10 個關鍵亮點,它實際是從 newsletter 頁面上總結的亮點中選取了一些給我(分別是頁面里的第 1-8、10 和 12)。整體來說 Hy3 preview 比較順利地完成了任務,雖然它和其他模型一樣無法直接通過視頻鏈接抓取到內(nèi)容,但它很務實,不會憑空瞎編一些亮點(我在罵誰我不說)。

下一步,讓 Hy3 preview 提取視頻字幕文件。


它花了一點時間(差不多 10 分鐘),反復嘗試多次,最終成功獲取到了這個視頻的英文字幕文件。中間嘗試了不同方法,自動安裝所需工具。

思考過程:





我問它獲取字幕文件花了多長時間,它混淆成了從一開始給它視頻鏈接到剛才完成獲取字幕文件整個過程的總用時,所以給到了 40 分鐘的答案。但實際獲取字幕文件這一步的時間差不多是 10 來分鐘??傮w而言反思態(tài)度很好,也很會總結經(jīng)驗、給自己打氣。



接下來嘗試讓它將字幕文件中第一段 10 分鐘的內(nèi)容翻譯成中文,它耗時 5 分鐘后完成翻譯,并生成了 markdown 格式的文件可以直接下載。



它這一步依然是通過 Python 腳本的方式來完成的,這一步的思考過程:



不過它的翻譯成果不算特別理想,存在幾個問題:部分英語詞匯可以翻譯成中文但它沒翻譯;前后技術術語不一致;說話人識別還是存在錯位情況。

不過平心而論,使用其他模型翻譯視頻播客的時候我們也經(jīng)常會遇到類似問題,最終要達到可發(fā)布狀態(tài)都需要進一步人工精調。而且這次由于時間有限,沒有對 Hy3 preview 做更多更精細的調教,這也會在一定程度上影響最終效果。

這里附上這個視頻訪談開始的第一段 QA,大家可以對比一下。一個是基于 GPT-5.4(Instant)翻譯并經(jīng)過人工潤色的結果,一個是混元 3 初步翻譯的結果。

  • GPT-5.4(Instant)翻譯并經(jīng)過人工潤色版本(文章已在 InfoQ 發(fā)布 )



  • 混元 3 初步翻譯版本:



有一個地方是 GPT-5.4(Instant)明顯優(yōu)于混元 3 的,比如上面那段出現(xiàn)的技術名詞 Ormachy,在原版英文字幕文件中就是前后不一致的,同時存在幾個不同的錯誤拼寫,但是 GPT-5.4(Instant)可以自動把出現(xiàn)的不同寫法全部調整成正確寫法 Ormachy,但混元 3 只是忠實地把錯詞翻譯過來了。

“一人公司”報告:全而不細

然后,我們給出了一個 調研“AI 一人公司趨勢”并輸出一份報告的任務,要求其必須調用瀏覽器(搜索)、文檔整理、數(shù)據(jù)總結。

提示詞如下:

你現(xiàn)在是一個具備真實工作能力的研究型 Agent。你的目標不是基于已有知識生成內(nèi)容,而是通過主動調用工具,完成一次完整的“AI一人公司(One Person Company, OPC)趨勢調研”,并交付一份結構清晰、信息可靠的研究報告。

任務目標:

調研“AI一人公司趨勢”,并輸出一份可直接閱讀和使用的分析報告。

強制要求(必須遵守):

1. 必須使用瀏覽器進行真實搜索,獲取最新信息(不可僅依賴已有知識)

2. 必須對多來源信息進行整理、對比與歸納

3. 必須對關鍵數(shù)據(jù)進行提取和總結(如比例變化、融資情況、案例數(shù)據(jù)等)

4. 最終輸出一份結構化報告,而不是零散內(nèi)容

執(zhí)行流程(必須按順序執(zhí)行):

第一步:調研規(guī)劃

- 明確本次調研的核心問題(例如:OPC是否趨勢性增長、哪些人群受益、商業(yè)模式是什么等)

- 給出搜索關鍵詞(中英文)

- 說明你將重點查找的信息類型(數(shù)據(jù)、案例、觀點、公司實踐等)

第二步:信息搜索(必須調用瀏覽器)

- 至少進行3-5輪不同角度的搜索

- 覆蓋:行業(yè)數(shù)據(jù)、真實案例、公司/平臺觀點、投資/融資信息

- 每次搜索需說明:為什么搜、搜到了什么、是否可信

第三步:信息篩選與整理

- 去除重復或低質量信息

- 標記關鍵信息來源(例如報告、公司、媒體、個人觀點)

- 將信息按主題歸類(如:趨勢、案例、商業(yè)模式、風險等)

第四步:數(shù)據(jù)與結論提取

- 提取關鍵數(shù)據(jù)(如占比變化、增長趨勢、變現(xiàn)情況)

- 總結至少3-5個“可被驗證的事實”

- 總結至少3個“趨勢判斷”

第五步:結構化報告輸出

最終報告必須包含以下結構:

1. 背景與現(xiàn)象(AI一人公司為何出現(xiàn))

2. 核心趨勢(是否在增長、增長邏輯是什么)

3. 典型案例(真實個人/公司案例)

4. 商業(yè)模式與賺錢路徑

5. 誰在受益(人群分層)

6. 風險與限制(如平臺依賴、可復制性問題)

7. 未來判斷(短期紅利 vs 長期結構)

執(zhí)行要求:

- 每一步都要說明“你在做什么”和“為什么這么做”

- 不允許跳過搜索直接總結

- 不允許只給觀點,必須有事實或案例支撐

- 如果信息存在沖突,需要指出并分析原因

- 優(yōu)先使用最近1-2年的信息

輸出要求:

- 語言清晰、邏輯連貫

- 信息密度高,但不要堆砌

- 可以直接作為一篇行業(yè)分析報告閱讀

現(xiàn)在開始執(zhí)行:先輸出第一步【調研規(guī)劃】,不要跳步。

輸出報告如下:




讀者可以復制鏈接查看完整版:https://codebuddy.work/agents/share/viukYMtcJxAjBEi3N8E3dPmVO4Dqv43uZ17RjtKCOHMkCbCeu0bPptrbzVbE6Mb_?platform=workbuddy

整體給人感覺:這是非常全面的一份報告,只是細節(jié)展開不夠,但對于想要大概了解“一人公司”情況的讀者來說是可以快速掌握相關信息的。

在準確性方面,我們隨機抽檢了兩組數(shù)據(jù),第一組數(shù)據(jù):“2023-2024 年澳大利亞無雇員企業(yè)同比增長 4.9%,新增 78144 家”,在搜索后可以找到出處,數(shù)值引用也正確。


再隨機抽檢這個案例:“動畫領域創(chuàng)業(yè)者可單人統(tǒng)籌 42 分鐘動畫,28 天完成傳統(tǒng) 10 人團隊的工作量”,結果也正確。


順便讓它把 md 格式轉成 PDF,它也順利完成了任務。

可見,在研究報告這塊,Hy3 preview 信息搜集處理的準確度是不錯的。不過,現(xiàn)在深度報告這塊的競爭力或在數(shù)據(jù)上,近期 Kimi、千問等都添加了專業(yè)數(shù)據(jù)庫來生成報告。

AI 新聞聚合網(wǎng)站:
基本可用,細節(jié)待完善

接下來再給它一個任務:從零做一個“AI 新聞聚合網(wǎng)站”。在調用了 31 個工具、產(chǎn)生了 63 條過程消息后,Hy3 preview 成功生成了一個 AI 新聞聚合平臺,如下圖:


這是 Hy3 preview 自主選擇的技術棧,還附了相關解釋,告訴用戶為什么這樣選。在將邏輯和開發(fā)步驟講清楚后,模型才開始正式執(zhí)行。


期間,我們上傳了一個 Excel 表格,讓它讀取各 sheet 里的新聞源,它成功讀取并給出了一些意見,比如全是英文網(wǎng)站可能錯過國內(nèi)企業(yè)消息(然后自己在抓取時候加入了國內(nèi)網(wǎng)站)。不過,讀取也出現(xiàn)了一些問題,比如一個子 sheet 里的 31 條新聞源,其顯示只讀取了 3 個,數(shù)量差有些大,也導致新聞抓取過度依賴某一單一網(wǎng)站。

這次測試中,Hy3 preview 也展現(xiàn)了自己的 debug 能力。在任務完成后,打開網(wǎng)頁出現(xiàn)了下面問題,告訴它后,它開始檢查問題,最后順利修復。


成品檢驗

首先是抓取時間問題,點擊一個顯示“4 分鐘前”的新聞,打開原鏈接后新聞顯示的時間是 2025 年 1 月 31 日。


當然生成的聚合網(wǎng)站上也有最新的消息(如下),但在明確要求“最新新聞優(yōu)先展示”的情況下,整個排序依然錯亂。


時間排序問題它自己在測試網(wǎng)頁中也發(fā)現(xiàn)了,但最后呈現(xiàn)還是出現(xiàn)了問題。這種無法準確修改后呈現(xiàn)的問題,還包括在要求去掉某一個新聞源后其依然引用等。


另外,打開閱讀的整個視覺效果也不太好,這可能也是為什么在任務完成后,提示下一步可以做視覺優(yōu)化的原因吧。

整體下來,現(xiàn)在生成網(wǎng)頁的效果已經(jīng)比去年好了很多,但要符合用戶者心意、做到產(chǎn)品級別性能,比如實時刷新、話題精準、抓取新聞量更大等,還需要更多投入精力。但可以預想,企業(yè)官網(wǎng)等要求不高的場景完全可以用,完成程度會不錯。

高難度 STEM 仿真模擬

接下來的任務是通過調用 terminal 技能、使用 uv 管理虛擬環(huán)境,在本地編寫 Python 腳本求解 Lorentz 力方程,并產(chǎn)出 3D 軌跡圖。這是官方給的一個案例,我們進行了復現(xiàn)。最終,在經(jīng)過 22 個工具調用、產(chǎn)生 55 條過程消息后,產(chǎn)出下圖:


這次,我們附上模型的思考過程:

可以看出,Hy3 preview 具有一定抽象通用方法的能力,在基本物理實驗處理上,知道帶電粒子軌道問題需先處理尺度分離、可視化之前要檢查能量守恒和周期,理解視覺好看不等于物理上可信。不過,目前 WorkBuddy 還未像愛馬仕 Hermes 那樣會自動沉淀未來可復用的 skill。

Skill 測試

接下來我們再來測測它加載和執(zhí)行 skill 的能力如何。我們把已經(jīng)寫好的一個文案 Skill,丟給它學習,并通過這篇文章的內(nèi)容讓它寫一下傳播文案,看看效果如何,過程如下:



完整思考過程如下,Hy3 Preview 先快速總結了文章的內(nèi)容和我的訴求,然后抓取文章的核心信息和關鍵字(甚至包含了傳播轉化動作與品牌露出),并按照 Skill 的規(guī)范去生成文案。生成之后先檢查字數(shù)、符號使用規(guī)范等,最后有重新對照了一下原文內(nèi)容去確保生成的文案信息準確,驗證之后給我交付了結果。


最終生成的傳播文案如下:


結果來看,關鍵信息基本都抓取到了,也符合 Skill 預設的風格和字數(shù)要求,唯一欠缺的可能是不同風格版本文案內(nèi)容的多樣性不太夠。但是如果每類文案只選取 1 條使用,倒也沒啥毛病。尤其是給完文案后它還自查并展示了標簽使用規(guī)則、字數(shù)以及版本風格,這一點好評。

小 結

整體體驗下來,我們能感覺到,當前 Hy3 Preview 在任務執(zhí)行過程中,對于用戶需求的實施非常精準且務實,不會存在超出需求之外的“瞎編”,并且遇到問題會主動尋找其他解決方法,自動調用各種工具,直到解決問題。

好處是當我們把明確且具體的需求發(fā)送給它后,大概率能獲得一個不太出錯的答案,一致性也相對更好;壞處是如果當你給到一些抽象、需要發(fā)散和創(chuàng)意的需求時,可能會獲得一份讓人覺得有點“一板一眼”的內(nèi)容,缺乏多樣性和想象力,也不太能進入靈感碰撞的“心流時刻”,但這或許也是 Hy3 下一步會重點增強的地方,畢竟它現(xiàn)在說到底還只是個語言模型,而非多模態(tài)。當你有一個需要嚴謹執(zhí)行的任務時,你能夠第一時間想到 Hy3,這本身也是一種認可。


*InfoQ 策劃編輯 Potatooo 對本文亦有貢獻。

會議推薦

世界模型的下一個突破在哪?Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過?研發(fā)體系不重構,還能撐多久?

AICon 上海站 2026,4 大核心專題等你來:世界模型與多模態(tài)智能突破、Agent 架構與工程化實踐、Agent 安全與可信治理、企業(yè)級研發(fā)體系重構。14 個專題全面開放征稿。

誠摯邀請你登臺分享實戰(zhàn)經(jīng)驗。AICon 2026,期待與你同行。


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
廣告使用“清朝長辮”被指辱華,法國品牌Lemaire致歉

廣告使用“清朝長辮”被指辱華,法國品牌Lemaire致歉

南方都市報
2026-04-26 20:40:18
男子一身名牌坐地鐵,被指像成功人士,網(wǎng)友:再有錢也怕堵車

男子一身名牌坐地鐵,被指像成功人士,網(wǎng)友:再有錢也怕堵車

丫頭舫
2026-04-27 17:39:57
38歲王思聰近照認不出!滿頭白發(fā)穿睡衣度假,駝背顯老像 50 歲

38歲王思聰近照認不出!滿頭白發(fā)穿睡衣度假,駝背顯老像 50 歲

橙星文娛
2026-04-27 14:17:09
2-3!3-3!瘋狂一夜,亞特蘭大爆大冷,拉齊奧補時絕平,曼聯(lián)險勝

2-3!3-3!瘋狂一夜,亞特蘭大爆大冷,拉齊奧補時絕平,曼聯(lián)險勝

足球狗說
2026-04-28 05:07:09
“酩酊大醉”不讀míng dīng dà zuì了,正確讀音是什么?

“酩酊大醉”不讀míng dīng dà zuì了,正確讀音是什么?

未央看點
2026-04-27 22:13:40
從排隊入籍到集體觀望?美國入籍申請驟降,綠卡人群態(tài)度變了?

從排隊入籍到集體觀望?美國入籍申請驟降,綠卡人群態(tài)度變了?

紐約時間
2026-04-28 02:29:16
看完女排最新集訓,心里五味雜陳!別說里約,連倫敦周期都比不上

看完女排最新集訓,心里五味雜陳!別說里約,連倫敦周期都比不上

金毛愛女排
2026-04-28 00:00:04
Deepseek,光通信之后的下一個主升浪

Deepseek,光通信之后的下一個主升浪

靜姐的財富第六感
2026-04-26 22:31:06
淚目 趙心童曬兒時與丁俊暉合照:偶像暉哥讓我加油 你也要加油啊

淚目 趙心童曬兒時與丁俊暉合照:偶像暉哥讓我加油 你也要加油啊

風過鄉(xiāng)
2026-04-27 06:15:09
有的人為了當官,把老婆送給領導睡

有的人為了當官,把老婆送給領導睡

斜杠人生
2026-04-28 00:00:04
金價:大家不用等候了!不出意外,金價可能將歷史重演!

金價:大家不用等候了!不出意外,金價可能將歷史重演!

殘夢重生來
2026-04-28 04:40:09
不到72小時,俞敏洪再迎兩大壞消息,主播集體辭職只是“開胃菜”

不到72小時,俞敏洪再迎兩大壞消息,主播集體辭職只是“開胃菜”

阿廢冷眼觀察所
2026-04-28 00:24:36
皮蛋再次成為關注對象!研究發(fā)現(xiàn):高血脂吃皮蛋,身體或有6改善

皮蛋再次成為關注對象!研究發(fā)現(xiàn):高血脂吃皮蛋,身體或有6改善

健康科普365
2026-04-25 09:27:08
七萬匹東洋大馬的覆滅:國民黨三年敗光日本四十五年心血

七萬匹東洋大馬的覆滅:國民黨三年敗光日本四十五年心血

小莜讀史
2026-04-26 22:44:33
特朗普轉發(fā)“中印是人間地獄”,印度痛批低俗,中方態(tài)度耐人尋味

特朗普轉發(fā)“中印是人間地獄”,印度痛批低俗,中方態(tài)度耐人尋味

線裝史冊
2026-04-28 02:38:29
東南亞隱藏的“電詐大佬”,一個個正在浮出水面

東南亞隱藏的“電詐大佬”,一個個正在浮出水面

現(xiàn)實的聲音
2026-04-27 20:36:14
大姑子一家9口住進來,老公說他5200養(yǎng)活全家足夠,我?guī)夯啬锛?>
    </a>
        <h3>
      <a href=麥子情感故事
2026-04-27 21:34:15
沒人再提激光雷達數(shù)量?直擊北京車展:今年智能駕駛“卷”什么

沒人再提激光雷達數(shù)量?直擊北京車展:今年智能駕駛“卷”什么

時代周報
2026-04-26 18:14:26
涉黃被傳喚,馬斯克出事了

涉黃被傳喚,馬斯克出事了

營銷頭版
2026-04-27 14:42:14
中國排協(xié)官宣!16點30分,女排訓練將直播,第二批球員恐揭曉

中國排協(xié)官宣!16點30分,女排訓練將直播,第二批球員恐揭曉

跑者排球視角
2026-04-27 23:48:17
2026-04-28 05:28:49
InfoQ incentive-icons
InfoQ
有內(nèi)容的技術社區(qū)媒體
12309文章數(shù) 51863關注度
往期回顧 全部

科技要聞

DeepSeek V4上線三天,第一批實測出來了

頭條要聞

坐在特朗普身邊親歷槍擊案的女記者 身份非常不一般

頭條要聞

坐在特朗普身邊親歷槍擊案的女記者 身份非常不一般

體育要聞

人類馬拉松"破二"新紀元,一場跑鞋軍備競賽

娛樂要聞

黃楊鈿甜為“耳環(huán)風波”出鏡道歉:謠言已澄清

財經(jīng)要聞

Meta 140億收購Manus遭中國發(fā)改委否決

汽車要聞

不那么小眾也可以 smart的路會越走越寬

態(tài)度原創(chuàng)

藝術
本地
旅游
數(shù)碼
教育

藝術要聞

他的油畫筆觸粗獷又細膩,透著一種不可言說的美!

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統(tǒng)文化

旅游要聞

不止看花 京津冀春日游花樣翻新

數(shù)碼要聞

6K/3K雙模切換!三星這款顯示器什么水平?

教育要聞

你不說這是計算障礙,我真以為我是智障呢

無障礙瀏覽 進入關懷版