国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

<samp id="sqwko"><kbd id="sqwko"></kbd></samp>

<table id="sqwko"><dl id="sqwko"></dl></table>

<samp id="sqwko"></samp>

<ol id="sukht"></ol>

<address id="sukht"><sub id="sukht"></sub></address>

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴(yán)選
郵箱大師
網(wǎng)易云課堂

注冊(cè)免費(fèi)郵箱

注冊(cè)VIP郵箱（特權(quán)郵箱，付費(fèi)）
免費(fèi)下載網(wǎng)易官方手機(jī)郵箱應(yīng)用

移動(dòng)端
網(wǎng)易公開課
網(wǎng)易嚴(yán)選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

夸克健康大模型萬字調(diào)研報(bào)告:透視主任醫(yī)師級(jí)AI大腦背后的工程化

2025-07-23 17:22:20　來源: 機(jī)器之心Pro

北京舉報(bào)

0

分享至

（一）調(diào)研摘要

（二）推理數(shù)據(jù)情況特色

（三）推理數(shù)據(jù)產(chǎn)線一：冷啟動(dòng)數(shù)據(jù)與模型微調(diào)

（四）推理數(shù)據(jù)產(chǎn)線一：推理強(qiáng)化學(xué)習(xí)訓(xùn)練

（五）推理數(shù)據(jù)產(chǎn)線二：高質(zhì)量不可驗(yàn)證數(shù)據(jù)集

（六）強(qiáng)化學(xué)習(xí)推理系統(tǒng)：高質(zhì)量推理數(shù)據(jù)質(zhì)量評(píng)估

（七）強(qiáng)化學(xué)習(xí)推理系統(tǒng)：多階段訓(xùn)練

（一）調(diào)研摘要

第一，通用大模型能力雖快速增長，但要在高專業(yè)度的健康醫(yī)療領(lǐng)域“煉成”性能高且可靠的推理模型，仍極具挑戰(zhàn)。業(yè)界主流方向早期由DeepSeek R1驗(yàn)證有效。當(dāng)下，或蒸餾DeepSeek R1模型數(shù)據(jù)，或在小數(shù)據(jù)集上探索較為常見；然而，在選擇合適預(yù)訓(xùn)練模型的基礎(chǔ)上，從頭設(shè)計(jì)并搭建整套流程，并用于業(yè)務(wù)一線，較為罕見。尤其在健康醫(yī)療領(lǐng)域，自建整套流程化系統(tǒng)，能夠明確模型從哪些數(shù)據(jù)，以何種方式學(xué)到哪些知識(shí)，哪個(gè)環(huán)節(jié)學(xué)得不好；不僅提高性能，而且能提高可解釋度和信任度。調(diào)研發(fā)現(xiàn)，夸克健康大模型直接支持搜索業(yè)務(wù)一線，并支持智能體夸克健康助手、夸克深度研究產(chǎn)品（僅開放試用）。

第二，高質(zhì)量的思考數(shù)據(jù)（Chain-of-Thought, CoT）適合作為推動(dòng)模型形成強(qiáng)化學(xué)習(xí)推理范式的基礎(chǔ)素材已是共識(shí)。強(qiáng)化學(xué)習(xí)通過“結(jié)果導(dǎo)向、過程探索”的范式，可在訓(xùn)練中激發(fā)模型，也是共識(shí)。推理模型效果上限受制于多個(gè)與數(shù)據(jù)強(qiáng)耦合的技術(shù)節(jié)點(diǎn)。調(diào)研發(fā)現(xiàn)，夸克健康大模型團(tuán)隊(duì)認(rèn)為：在已知目標(biāo)結(jié)果（如診斷結(jié)論）的情況下，由于模型已經(jīng)在真實(shí)醫(yī)生的思考數(shù)據(jù)中學(xué)習(xí)到初步推理能力（高質(zhì)量冷啟動(dòng)數(shù)據(jù)），再用強(qiáng)化學(xué)習(xí)方法有效激發(fā)模型探索出多樣的推理路徑，從而自主找到最適合模型的推理路徑，進(jìn)一步拔高模型推理能力上限，在多階段訓(xùn)練方法中特意設(shè)計(jì)出篩選優(yōu)質(zhì)數(shù)據(jù)的方法，進(jìn)而與人工難以覆蓋的部分共同努力提高數(shù)據(jù)質(zhì)量，可以極大緩解醫(yī)療數(shù)據(jù)人工標(biāo)注的成本。

調(diào)研發(fā)現(xiàn)，在后訓(xùn)練階段，他們精心設(shè)計(jì)多種多階段訓(xùn)練方法（可以是模型能力任務(wù)的多階段，可以是病藥術(shù)檢任務(wù)分別開展的多階段，可以是篩選數(shù)據(jù)的多階段，也可以是訓(xùn)練方法的多階段），與此同時(shí)，配合大量實(shí)驗(yàn)，拔高模型學(xué)習(xí)能力的空間�？淇私】荡竽Ｐ蛨F(tuán)隊(duì)對(duì)思考數(shù)據(jù)的觀測(cè)、分析、篩選等操作使用多種類型的模型，如驗(yàn)證器判斷結(jié)果準(zhǔn)確性，過程獎(jiǎng)勵(lì)模型和結(jié)果獎(jiǎng)勵(lì)數(shù)據(jù)評(píng)估推理質(zhì)量，用多維度綜合手段以提升可控性、可信度和專業(yè)度。

第三，追求推理模型效果長期提升的雄心，必須落實(shí)于有耐心建設(shè)提高數(shù)據(jù)與模型質(zhì)量的“基礎(chǔ)設(shè)施”。調(diào)研發(fā)現(xiàn)，夸克健康大模型團(tuán)隊(duì)的基礎(chǔ)設(shè)施包括：

第一項(xiàng)，大規(guī)模（百萬級(jí)）醫(yī)學(xué)知識(shí)圖譜，以及帶有ICD編碼的《夸克醫(yī)學(xué)術(shù)語集（Quark Med OmnisCT）》。

第二項(xiàng)，推理數(shù)據(jù)生產(chǎn)線（下文稱“數(shù)據(jù)產(chǎn)線”）。團(tuán)隊(duì)認(rèn)為，破解困局需自建定制化產(chǎn)線，即構(gòu)建一條滿足“適配”“效率”，而非單純“為了提高質(zhì)量而提高質(zhì)量”的產(chǎn)線�？蓪�(shù)據(jù)分為可驗(yàn)證數(shù)據(jù)與不可驗(yàn)證數(shù)據(jù)兩種不同類型，并設(shè)計(jì)兩條平行的數(shù)據(jù)產(chǎn)線。該產(chǎn)線既產(chǎn)出高質(zhì)量數(shù)據(jù)，也“同步產(chǎn)出”模型。端到端強(qiáng)化學(xué)習(xí)，既融入產(chǎn)線，也融入模型系統(tǒng)。

第三項(xiàng)，強(qiáng)化學(xué)習(xí)推理多階段訓(xùn)練系統(tǒng)，在此基礎(chǔ)之上，形成極致工程化。

調(diào)研發(fā)現(xiàn)，若想提高醫(yī)療推理模型的最終效果，需重視模型訓(xùn)練，更需要在數(shù)據(jù)產(chǎn)線上投入更多精力。從醫(yī)療認(rèn)知的角度出發(fā)，來構(gòu)造數(shù)據(jù)和任務(wù)目標(biāo)，再根據(jù)數(shù)據(jù)類型和任務(wù)目標(biāo)設(shè)計(jì)合適的多階段訓(xùn)練方法。

（二）推理數(shù)據(jù)情況特色

臨床思維是醫(yī)生在面對(duì)患者時(shí)，通過有目的的提問、信息收集和邏輯推理，逐步形成診斷和決策的核心過程。若健康醫(yī)療大模型希望在臨床場(chǎng)景中發(fā)揮價(jià)值，就必須“內(nèi)化”推理框架。

在數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)上，健康醫(yī)療推理數(shù)據(jù)采用三元組形式，三個(gè)要素分別是：

第一，問題（Question）；

第二，思考過程（Chain of Thought, CoT）；

第三，最終答案（Answer）。

“問題，思考過程，最終答案”下文簡稱“問思答”，同時(shí)含有這三種元素的數(shù)據(jù)稱為“整組數(shù)據(jù)”。整組數(shù)據(jù)的價(jià)值在于，它不僅要求模型能夠得出正確答案，還要求其過程合乎醫(yī)學(xué)邏輯，可解釋，可信可復(fù)現(xiàn)。思考過程質(zhì)量越高，模型越能體現(xiàn)其推理能力，進(jìn)而支撐高水平的可解釋性�！皢査即稹闭M數(shù)據(jù)的獲取成本遠(yuǎn)高于普通問答數(shù)據(jù)，是核心數(shù)據(jù)資產(chǎn)，若進(jìn)一步引入時(shí)間序列等結(jié)構(gòu)復(fù)雜性維度，構(gòu)造難度將指數(shù)級(jí)上升。此外，醫(yī)療健康場(chǎng)景常存在“一題多解、路徑多樣”的特點(diǎn)，提出了更高難度的解決方案的需求。

1.問題（Question）

在健康醫(yī)療領(lǐng)域，高質(zhì)量提問激發(fā)模型高質(zhì)量思考與回答。問題（Question）通常伴隨對(duì)自身身體狀況的自述信息，具有較強(qiáng)的上下文描述性與情境還原度�；蛘哒f問題（Question）是含有健康醫(yī)療背景情況與提示詞的完整問題，例如，常見問題包括：“我打噴嚏、流鼻涕、嗓子疼，并接觸過流感病人，該吃哪種藥？”問題不單單是一句話，而是含有健康醫(yī)療背景情況與指令的結(jié)構(gòu)化數(shù)據(jù)。此認(rèn)知會(huì)影響過程獎(jiǎng)勵(lì)模型的設(shè)計(jì)。

調(diào)研發(fā)現(xiàn)，夸克健康大模型團(tuán)隊(duì)從問題（Question）開始，建立完備的標(biāo)簽體系。標(biāo)簽體系是將健康醫(yī)學(xué)概念標(biāo)準(zhǔn)化、結(jié)構(gòu)化的工程手段。正確使用概念是思維的基礎(chǔ)，這就要求定義要清晰，內(nèi)涵要確定，語境要明確。在醫(yī)療領(lǐng)域，對(duì)概念的使用關(guān)系到對(duì)疾病的認(rèn)識(shí)，進(jìn)一步影響診斷與治療（姚樹坤《臨床思維》）。

夸克健康大模型標(biāo)簽體系指的是，對(duì)每個(gè)問答樣本中所涉及的關(guān)鍵信息進(jìn)行標(biāo)準(zhǔn)化、結(jié)構(gòu)化的標(biāo)注過程。一個(gè)可以被模型獨(dú)立識(shí)別、帶有明確健康含義的最基本信息片段。

比如，醫(yī)學(xué)實(shí)體：疾病名稱（遠(yuǎn)極骨折），癥狀（移位、腫脹），治療（石膏固定），藥物（非甾體抗炎藥）等；

屬性信息：恢復(fù)周期（4周）等；

意圖類型：表示用戶希望達(dá)成的目標(biāo)，健康咨詢、找藥、選擇治療方案等。

這一標(biāo)簽體系的構(gòu)建基礎(chǔ)來源于醫(yī)療問答平臺(tái)的真實(shí)信息與夸克搜索引擎日志，通過自動(dòng)術(shù)語提取、屬性分類與意圖識(shí)別等技術(shù)，將用戶問題解析為標(biāo)準(zhǔn)化的結(jié)構(gòu)字段，最終形成標(biāo)簽框架。

調(diào)研發(fā)現(xiàn)，夸克搜索歷時(shí)五年，沉淀近千萬日活搜索日志、大規(guī)模（百萬級(jí)）醫(yī)學(xué)知識(shí)圖譜，以及帶有ICD編碼的《夸克醫(yī)學(xué)術(shù)語集（Quark Med OmnisCT）》，為標(biāo)簽體系與術(shù)語標(biāo)準(zhǔn)化提供基礎(chǔ)。自然語言中的醫(yī)學(xué)表達(dá)具有極強(qiáng)的多樣性與模糊性，比如“冠心病”“冠狀動(dòng)脈粥樣硬化心臟病”本質(zhì)是同一種疾病，但表達(dá)不同。使用標(biāo)準(zhǔn)術(shù)語集，可以將這些語言的不同表達(dá)統(tǒng)一映射到唯一編碼，確保模型的一致理解，減少誤判或信息丟失。同時(shí)，該標(biāo)簽體系支持結(jié)構(gòu)化篩選。標(biāo)簽可作為“索引”或者“字段”，調(diào)用特定標(biāo)簽子集，提高質(zhì)量控制精度，比如，一級(jí)標(biāo)簽（用戶意圖），二級(jí)標(biāo)簽（藥物治療）。

另外，一方面標(biāo)簽需與醫(yī)學(xué)指南與術(shù)語體系保持同步，支持層次化擴(kuò)展，另一方面，如果標(biāo)簽體系數(shù)量僅百余，面對(duì)罕見病、亞專業(yè)細(xì)分場(chǎng)景就會(huì)捉襟見肘。因此，標(biāo)簽體系是問題（Question）多樣性的基礎(chǔ)，也是龐大數(shù)據(jù)細(xì)顆粒度的管理工具，直接決定了醫(yī)療健康大模型在長期演進(jìn)中的上限。

2.思考（CoT）

模型不僅看到病歷和答案，還要學(xué)習(xí)“醫(yī)生是如何思考并得出結(jié)論”的全過程，即“問題-思考過程-答案”（問思答）。而健康醫(yī)療知識(shí)天然有難易之分，思考（CoT）也應(yīng)區(qū)分難易。引入劃分難度的構(gòu)造方法，使模型在訓(xùn)練過程中逐步適應(yīng)和掌握越來越難的醫(yī)療問題，達(dá)成從簡單到高難度的能力躍遷。調(diào)研發(fā)現(xiàn)，夸克健康大模型團(tuán)隊(duì)在此理解之上，構(gòu)造“思考行動(dòng)體系（Action）”，深入刻畫和表達(dá)健康醫(yī)療特有的思維路徑。該體系的提出，部分解決了長期以來困擾醫(yī)療大模型訓(xùn)練的關(guān)鍵問題之一——如何衡量思維過程質(zhì)量。

僅靠給出最終答案無法判斷模型是否真正理解，將思考過程拆解為可觀測(cè)的“思考行動(dòng)（Action）”——典型思考行動(dòng)包括問題重述、知識(shí)回憶、問題反思、總結(jié)等——用于精確描述思考的每一步的具體行動(dòng)，有助于了解思考鏈里的細(xì)節(jié)。另外，思考行動(dòng)提供一種共同語言，方便拔高推理質(zhì)量。比如，假設(shè)思考（CoT）難度越高，問題（Question）難度也越大，以此原則篩選有難度的思考數(shù)據(jù)，進(jìn)而篩選出與思考過程配套的問題（Question）。

后續(xù)設(shè)計(jì)多種篩選機(jī)制，會(huì)在下文中介紹。

3.最終答案（Answer）

由答案類型入手，將數(shù)據(jù)分為可驗(yàn)證數(shù)據(jù)與不可驗(yàn)證數(shù)據(jù)兩種不同類型，它們?cè)讷@取、篩選等方面存在顯著差異，需分開討論。

第一類，可驗(yàn)證類的答案，相對(duì)簡潔，通常為醫(yī)學(xué)實(shí)體或明確判斷。對(duì)于可驗(yàn)證的答案（Answer），用驗(yàn)證器模型（Verifier）與標(biāo)準(zhǔn)答案（Groundtruth）進(jìn)行比對(duì)判斷。

第二類，對(duì)于不可驗(yàn)證任務(wù)，如醫(yī)療建議、健康科普等長文本，內(nèi)容面廣，語言多變，邏輯各不相同，標(biāo)準(zhǔn)答案（Groundtruth）難以唯一。僅憑獎(jiǎng)勵(lì)模型對(duì)單一維度打分，無法完全捕捉醫(yī)學(xué)語境下的細(xì)致與專業(yè)；需要通過對(duì)正確性、完整性、合理性分別建立偏好獎(jiǎng)勵(lì)模型打分，并依據(jù)分?jǐn)?shù)篩選數(shù)據(jù)與反饋，或使用規(guī)則、驗(yàn)證器與獎(jiǎng)勵(lì)模型協(xié)同發(fā)揮作用。

另有，健康醫(yī)療無思考數(shù)據(jù)，這類沒有思考過程的數(shù)據(jù)，有兩種處理方法：

第一，以多科室全職專業(yè)醫(yī)生團(tuán)隊(duì)精細(xì)標(biāo)注的方式，構(gòu)造正確、權(quán)威、復(fù)雜健康醫(yī)療內(nèi)容問答集等高質(zhì)量數(shù)據(jù)，或團(tuán)隊(duì)全員標(biāo)注。人工標(biāo)注可在初期數(shù)據(jù)資產(chǎn)貧乏時(shí)，快速補(bǔ)充“糧草”。

第二，用SOTA語言模型對(duì)問題（Question）生成候選答案，這類數(shù)據(jù)有助于彌補(bǔ)多領(lǐng)域知識(shí)，提升訓(xùn)練模型問答水平（邏輯性、全面性），可低成本高效獲得。

截至目前，上文提到的所有數(shù)據(jù)種類，都可以用獎(jiǎng)勵(lì)模型來篩選高質(zhì)量數(shù)據(jù)。獎(jiǎng)勵(lì)模型既是強(qiáng)化學(xué)習(xí)的算法組件，又是篩選數(shù)據(jù)的工具。

綜上，調(diào)研組認(rèn)為：伴隨強(qiáng)化學(xué)習(xí)技術(shù)在模型推理能力上的助力，整個(gè)推理微調(diào)與強(qiáng)化學(xué)習(xí)系統(tǒng)的極致工程化會(huì)成為提高壁壘的新競爭。

兩條平行數(shù)據(jù)產(chǎn)線逐步關(guān)鍵訓(xùn)練流程為：

推理數(shù)據(jù)產(chǎn)線一（可驗(yàn)證）

第一步，冷啟動(dòng)數(shù)據(jù)；

第二步，冷啟動(dòng)模型微調(diào)；

第三步，推理強(qiáng)化學(xué)習(xí)；

第四步，可驗(yàn)證數(shù)據(jù)蒸餾；

第五步，高質(zhì)量可驗(yàn)證數(shù)據(jù)集。

推理數(shù)據(jù)產(chǎn)線二（不可驗(yàn)證）

第一步，不可驗(yàn)證數(shù)據(jù)蒸餾；

第二步，高質(zhì)量不可驗(yàn)證數(shù)據(jù)集。

（三）推理數(shù)據(jù)產(chǎn)線一：冷啟動(dòng)數(shù)據(jù)與模型微調(diào)

冷啟動(dòng)數(shù)據(jù)需要專業(yè)醫(yī)生精準(zhǔn)標(biāo)注，為后續(xù)強(qiáng)化學(xué)習(xí)階段提供穩(wěn)定起點(diǎn)，避免從一開始就帶來“混亂”。構(gòu)造冷啟動(dòng)數(shù)據(jù)，使用SOTA語言模型生成高質(zhì)量問和答及完整推理鏈（即思考過程），再由職業(yè)醫(yī)師逐字逐句逐條校驗(yàn)，確保健康知識(shí)與權(quán)威一致；驗(yàn)證醫(yī)學(xué)事實(shí)、診療論證邏輯和建議的合理性，確保邏輯可靠、無風(fēng)險(xiǎn)；同時(shí)，數(shù)據(jù)團(tuán)隊(duì)確保輸出按一定的格式，格式便于符合后續(xù)獎(jiǎng)勵(lì)模型評(píng)估規(guī)范。

調(diào)研發(fā)現(xiàn)，夸克健康大模型團(tuán)隊(duì)對(duì)冷啟動(dòng)數(shù)據(jù)質(zhì)量給予極高重視。原因在于，冷啟動(dòng)階段的數(shù)據(jù)，模型此前從沒“見過”。一旦引入邏輯錯(cuò)誤，后續(xù)會(huì)連續(xù)出錯(cuò)，形成“早期污染”；同時(shí)，強(qiáng)化學(xué)習(xí)會(huì)進(jìn)一步放大錯(cuò)誤，且用過程獎(jiǎng)勵(lì)模型識(shí)別和修正，成本高昂。不如圖難于易地處理。團(tuán)隊(duì)曾遭受教訓(xùn)，后被醫(yī)學(xué)專家指出時(shí)才得以重視。

調(diào)研發(fā)現(xiàn)，夸克健康大模型團(tuán)隊(duì)采用未經(jīng)任何下游微調(diào)的預(yù)訓(xùn)練模型為起點(diǎn)，完全避免使用已經(jīng)經(jīng)過某一類任務(wù)微調(diào)過的模型，會(huì)對(duì)醫(yī)療領(lǐng)域模型起步產(chǎn)生的干擾。他們認(rèn)為，當(dāng)預(yù)訓(xùn)練的模型接近于“空白”初始狀態(tài)，模型數(shù)據(jù)分布的多樣性強(qiáng)，信息熵大，后續(xù)提高空間大。

他們觀察到，此階段模型展現(xiàn)出一定的適應(yīng)性：

第一種，當(dāng)健康狀況信息不完整時(shí)，模型會(huì)先羅列與現(xiàn)有癥狀相關(guān)的多種疾病，再主動(dòng)推演可能缺失的癥狀或風(fēng)險(xiǎn)因素，用以補(bǔ)齊證據(jù)鏈后再做判斷。

第二種，當(dāng)輸入包含高度特異的關(guān)鍵體征時(shí)，模型首先鎖定具備顯著鑒別力的候選疾病種類，隨后用其余癥狀進(jìn)行核對(duì)，快速完成推理。

這種現(xiàn)象的存在，說明模型能根據(jù)“題干與題面”動(dòng)態(tài)運(yùn)用不同思考方式，而非呆板套用固定答題模板。即便在冷啟動(dòng)階段，模型已具備一定的初步推理行為能力（抓住焦點(diǎn)，思考路徑確定），為后續(xù)工作提供了可觀測(cè)的依據(jù)。這種觀察屬于捕捉到“推理的早期覺醒機(jī)制”，增加對(duì)模型推理的理解。

（四）推理數(shù)據(jù)產(chǎn)線一：推理強(qiáng)化學(xué)習(xí)訓(xùn)練

調(diào)研發(fā)現(xiàn)，推理數(shù)據(jù)產(chǎn)線中用強(qiáng)化學(xué)習(xí)方法訓(xùn)練，得到一個(gè)能力上限極高的推理模型是核心，后續(xù)需要對(duì)該模型進(jìn)行蒸餾，所以，拔高該模型性能是整個(gè)系統(tǒng)最考驗(yàn)?zāi)Ｐ蛣?chuàng)造力的階段，訓(xùn)練時(shí)間最長，資源投入最大。這條推理數(shù)據(jù)產(chǎn)線同時(shí)也被稱為“可驗(yàn)證數(shù)據(jù)產(chǎn)線”。

本階段訓(xùn)練樣本，可按此五類劃分：基礎(chǔ)知識(shí)、疾病診斷、手術(shù)、藥物藥品、檢驗(yàn)檢查。這五類數(shù)據(jù)均具有明確的醫(yī)療語義，可以按五類任務(wù)劃分驗(yàn)證器模型，或多任務(wù)組合建模，或所有任務(wù)統(tǒng)一模型，具備高度靈活性。對(duì)于可驗(yàn)證的答案，用驗(yàn)證器模型（Verifier）與標(biāo)準(zhǔn)答案（Groundtruth）進(jìn)行比對(duì)判斷，直接且穩(wěn)定。為策略模型提供清晰監(jiān)督信號(hào)，指導(dǎo)其向更高準(zhǔn)確性的回答前進(jìn)。

另外，也可以在構(gòu)造高難度“問題”的同時(shí)構(gòu)造高難度的“思考”。在已有醫(yī)生構(gòu)造的病例數(shù)據(jù)中，選取結(jié)構(gòu)完整、信息豐富的住院病例作為基礎(chǔ)材料；針對(duì)這些病例中已有的答案，去除部分“泄題”性描述，即那些直接透露最終關(guān)鍵結(jié)論的信息；保留對(duì)結(jié)論有關(guān)鍵參考價(jià)值，但不直接指向答案的癥狀、體征、檢查結(jié)果等內(nèi)容。高難度問答數(shù)據(jù)特征之一是，需多步推理才能得出結(jié)論。

調(diào)研發(fā)現(xiàn)，在該產(chǎn)線階段，以激發(fā)健康醫(yī)學(xué)知識(shí)運(yùn)用為目標(biāo)，提升回答結(jié)果的多樣性與覆蓋度，增強(qiáng)其對(duì)問題潛在解空間的探索能力。在強(qiáng)化學(xué)習(xí)階段，策略模型執(zhí)行幾十次輸出采樣（比如，每題生成50個(gè)候選回答），后期實(shí)驗(yàn)證明，這一采樣策略有效拓展了策略模型的行為空間，顯著提升了回答結(jié)果的多樣性與覆蓋度，增強(qiáng)了其對(duì)問題（Question）潛在解空間的探索能力。每輪迭代中同步產(chǎn)出階段性最優(yōu)的策略模型與驗(yàn)證器。策略模型設(shè)計(jì)為統(tǒng)一模型，不依賴任務(wù)類型切換。

為了拔高學(xué)習(xí)潛力，策略模型于百萬次探索，在輸出的數(shù)據(jù)中篩選有難度的數(shù)據(jù)，一輪一輪提高篩選數(shù)據(jù)的難度。這種“篩選一次難題數(shù)據(jù)，提高一次模型做難題的能力”的方式，源源不斷提供給模型足夠好、足夠難的數(shù)據(jù)，用數(shù)據(jù)質(zhì)量的提升逼近模型能力的上限。后期實(shí)驗(yàn)證明，這一采樣策略有效拓展了策略模型的行為空間。

從推理數(shù)據(jù)產(chǎn)線一（可驗(yàn)證）中產(chǎn)出階段性最優(yōu)的策略模型，對(duì)其進(jìn)行數(shù)據(jù)蒸餾（問題，思考過程，答案）。可以認(rèn)為，獲得該階段策略模型的目的是為了取得可驗(yàn)證的高質(zhì)量數(shù)據(jù)。現(xiàn)有高質(zhì)量策略模型，再通過數(shù)據(jù)蒸餾，得到高質(zhì)量可驗(yàn)證數(shù)據(jù)集，進(jìn)而用數(shù)據(jù)來遷移其醫(yī)學(xué)推理能力。

（五）推理數(shù)據(jù)產(chǎn)線二：高質(zhì)量不可驗(yàn)證數(shù)據(jù)集

首先，高質(zhì)量不可驗(yàn)證數(shù)據(jù)集的原始思考數(shù)據(jù)是通過數(shù)據(jù)蒸餾而來。不可驗(yàn)證數(shù)據(jù)所用問題（Question）來源于醫(yī)生檢查過的高質(zhì)量問題、醫(yī)學(xué)論壇提問、夸克搜索日志，引導(dǎo)模型生成具備思維過程的答案輸出，具體方式是對(duì)SOTA語言模型（OpenAI O3和DeepSeek R1）進(jìn)行數(shù)據(jù)蒸餾，顯式引入思維過程數(shù)據(jù)。同時(shí)，此類數(shù)據(jù)的構(gòu)造需要保障數(shù)據(jù)在表達(dá)多樣性與推理復(fù)雜度上的均衡分布。

其次，用偏好獎(jiǎng)勵(lì)模型篩選不可驗(yàn)證類答案（Answer）。由于該類型數(shù)據(jù)通常為長文本（語義復(fù)雜、表達(dá)多樣），標(biāo)準(zhǔn)答案不唯一。此外，人類打分容易受到個(gè)體差異、打分尺度不一影響，導(dǎo)致穩(wěn)定性和可復(fù)現(xiàn)性差，因此可以采用強(qiáng)化學(xué)習(xí)中的偏好學(xué)習(xí)的方法。不可驗(yàn)證問題較為開放，可包括全面性、無害性、相關(guān)性、邏輯性、正確性等多個(gè)方面。因此，需引入多個(gè)維度的偏好模型對(duì)答案進(jìn)行打分。其中每個(gè)獎(jiǎng)勵(lì)模型關(guān)注的角度不同（正確性、有用性），采用偏序建模方式輸出判斷信號(hào)，篩選出質(zhì)量最優(yōu)的答案作為最終輸出或用于后續(xù)訓(xùn)練反饋信號(hào)。經(jīng)過上述多輪篩選，得到下一階段數(shù)據(jù)。最終形成“具挑戰(zhàn)性且質(zhì)量優(yōu)秀”的思考過程數(shù)據(jù)樣本集。

另外，也有一些方法同時(shí)適用于可驗(yàn)證和不可驗(yàn)證數(shù)據(jù)。比如，通過篩選答案，間接篩選正確的整組“問思答”數(shù)據(jù)；以“最終答案”的正確性作為問題（Question）篩選衡量標(biāo)準(zhǔn)，對(duì)應(yīng)的思考數(shù)據(jù)僅在答案正確時(shí)予以保留，答案錯(cuò)誤則整組“問思答”數(shù)據(jù)作廢；進(jìn)而形成“正確答案樣本集”。

綜上，為了篩選高質(zhì)量數(shù)據(jù)（可驗(yàn)證與不可驗(yàn)證），使用多種類型的組件：驗(yàn)證器、偏好獎(jiǎng)勵(lì)模型、過程獎(jiǎng)勵(lì)模型。健康醫(yī)療領(lǐng)域還有一個(gè)特色問題——“多解、多路徑”問題。調(diào)研發(fā)現(xiàn)，夸克健康大模型團(tuán)隊(duì)對(duì)此高度重視，提出了一套針對(duì)性方法。

（六）高質(zhì)量推理數(shù)據(jù)質(zhì)量評(píng)估

健康醫(yī)療中“多解、多路徑”問題，可概括為：同一不完備描述的癥狀，可能對(duì)應(yīng)多種疾病（比如，僅把發(fā)熱作為主線索，可涉及幾十種甚至上百種疾病，鑒別診斷時(shí)，根據(jù)主線索圍繞3-5個(gè)疾病展開為宜）；診療方案有多種合理選擇，不同醫(yī)生可依據(jù)不同線索和特征得出多種不相同，但均具有合理性的結(jié)論。

模型生成不在預(yù)設(shè)正確答案集合中的內(nèi)容，這類輸出并不意味著錯(cuò)誤，反而可能是高質(zhì)量、有價(jià)值的補(bǔ)充信息，應(yīng)給予正向獎(jiǎng)勵(lì)。也就是說，對(duì)于那些雖未出現(xiàn)在標(biāo)準(zhǔn)答案中、但具有積極意義的結(jié)果，可以歸為“增益型”（nice-to-have）結(jié)果，亦應(yīng)識(shí)別其價(jià)值，并給予相應(yīng)評(píng)價(jià)分?jǐn)?shù)，鼓勵(lì)模型輸出更全面、富有啟發(fā)的答案。

于是，在推理模型的訓(xùn)練過程中，需要既能夠判斷正確答案（驗(yàn)證器），又能處理模型有時(shí)生成的不在預(yù)設(shè)正確答案集合中的內(nèi)容（生成式模型）。這種多個(gè)解法、多種路徑帶來的開放性和不確定性，使得訓(xùn)練數(shù)據(jù)中的答案不能被作為唯一評(píng)判依據(jù)，這樣會(huì)產(chǎn)生錯(cuò)判或者無法捕捉到細(xì)節(jié)獎(jiǎng)勵(lì)信號(hào)。

健康醫(yī)療中的“多解、多路徑”問題，尤其值得注意的是，即便已經(jīng)獲得一個(gè)答案，也存在殊途同歸的情況，答案的背后存在多個(gè)推理的思考路徑（CoT），且有好壞之分。在醫(yī)療的規(guī)范性、信任度、可解釋性的要求下，需要更好的路徑，更多維度的獎(jiǎng)勵(lì)，鼓勵(lì)模型具有形成高質(zhì)量診療思考過程的能力。因此，需要從“推理過程合理性”與“結(jié)果質(zhì)量”兩個(gè)維度共同考量。

第一，如何設(shè)計(jì)針對(duì)最終答案（Answer）的結(jié)果獎(jiǎng)勵(lì)模型（ORM）？

調(diào)研發(fā)現(xiàn)，由于強(qiáng)化學(xué)習(xí)過程中獎(jiǎng)勵(lì)模型的計(jì)算成本也是一個(gè)重要的開銷，不能完全依靠模型，需要設(shè)計(jì)不同類型的獎(jiǎng)勵(lì)組件（基于規(guī)則的驗(yàn)證器、參數(shù)規(guī)模大小不同的模型），甚至部分獎(jiǎng)勵(lì)信號(hào)可以完全基于規(guī)則，以此低成本地拓展模型能力邊界，而不需要人工標(biāo)注。

對(duì)于明確的唯一的答案（比如診斷結(jié)果是某種疾�。┰O(shè)計(jì)基于規(guī)則的驗(yàn)證器，用于評(píng)估策略模型輸出的答案質(zhì)量，相當(dāng)于規(guī)則打分器。該驗(yàn)證器需要使用預(yù)構(gòu)建的百萬數(shù)量級(jí)ICD編碼醫(yī)療術(shù)語集，進(jìn)行結(jié)構(gòu)化比對(duì)與相似度評(píng)估。需要注意的是，術(shù)語集是為每一個(gè)醫(yī)學(xué)概念提供唯一編碼，并定義其語義內(nèi)涵、屬性特征以及與其他概念的結(jié)構(gòu)關(guān)系的重要工具。

具體而言，設(shè)計(jì)三類規(guī)則來評(píng)估策略模型輸出內(nèi)容與醫(yī)學(xué)知識(shí)體系的一致性：

1.路徑相似度：衡量策略模型輸出中的實(shí)體在知識(shí)圖譜中相對(duì)于目標(biāo)概念的路徑接近程度；

2.圖結(jié)構(gòu)相似度：基于醫(yī)學(xué)實(shí)體之間的距離關(guān)系，度量其在知識(shí)圖譜的圖結(jié)構(gòu)中的語義接近程度；

3.術(shù)語相似度：通過分析名稱及其屬性信息的匹配度，判斷兩個(gè)術(shù)語在語言層面的相似性。

三類相似度指標(biāo)按照加權(quán)方式進(jìn)行融合，并經(jīng)歸一化處理，輸出一個(gè)綜合得分，作為最終的驗(yàn)證評(píng)分。

驗(yàn)證流程如下：首先將策略模型輸出的醫(yī)學(xué)答案解析為若干具有語義意義的原子實(shí)體（如“上呼吸道感染”被拆分為“上呼吸道”（部位）與“感染”（形態(tài)學(xué)改變）。每個(gè)原子實(shí)體映射到ICD術(shù)語集中，獲得對(duì)應(yīng)編碼。隨后，計(jì)算這些原子實(shí)體與知識(shí)圖譜中標(biāo)準(zhǔn)概念之間的相似度，只要任意一個(gè)原子實(shí)體命中，即可獲得部分得分，進(jìn)一步提升評(píng)估的寬容性。最終得分作為獎(jiǎng)勵(lì)信號(hào)反饋至策略模型，引導(dǎo)其優(yōu)化生成策略。

實(shí)際情況中，病藥術(shù)檢的部分任務(wù)有明確答案標(biāo)簽，部分任務(wù)無明確答案標(biāo)簽，比如多解、多可能性解，還需要對(duì)答案的整體性進(jìn)行評(píng)價(jià)獎(jiǎng)勵(lì)，這部分采用生成式獎(jiǎng)勵(lì)模型。

于是，設(shè)計(jì)獎(jiǎng)勵(lì)系統(tǒng)X Clinical Judge的時(shí)候，需要考慮將兩種情況都覆蓋，用SOTA模型輔助人工構(gòu)建打分示例數(shù)據(jù)，用該數(shù)據(jù)教會(huì)驗(yàn)證器和獎(jiǎng)勵(lì)模型打分邏輯。

對(duì)于有答案標(biāo)簽的問題，除使用SOTA語言模型的輸出作為評(píng)分參考外，還可利用標(biāo)簽訓(xùn)練結(jié)果驗(yàn)證器（Verifier），判斷策略模型輸出與標(biāo)準(zhǔn)答案的一致性。因?yàn)榇鸢笜?biāo)簽的獲取成本較高，所以，對(duì)于無答案標(biāo)簽類型的問題，采用SOTA語言模型（比如，DeepSeek R1）生成評(píng)分與簡短評(píng)價(jià)，作為結(jié)果獎(jiǎng)勵(lì)模型訓(xùn)練所用的打分示例數(shù)據(jù)。兩類數(shù)據(jù)融合訓(xùn)練，獲得使用一套共享參數(shù)的生成式評(píng)分模型。獎(jiǎng)勵(lì)模型輸出包括兩個(gè)關(guān)鍵維度的評(píng)分結(jié)果——正確性分?jǐn)?shù)與全面性分?jǐn)?shù)，并配有簡潔明確的語言評(píng)價(jià)，用于支持模型輸出質(zhì)量的可解釋性。策略模型據(jù)此調(diào)整生成策略。最終，結(jié)果獎(jiǎng)勵(lì)模型在醫(yī)療多解、多路徑的問題里，做出可信、可解釋的評(píng)估。

第二，如何設(shè)計(jì)“思考過程”獎(jiǎng)勵(lì)模型（PRM）？

誠然，模型不僅要“答（Answer）對(duì)題”，還非常需要“講清楚思路（CoT）”。然而，缺乏現(xiàn)成答案標(biāo)簽，無法直接監(jiān)督訓(xùn)練過程獎(jiǎng)勵(lì)模型。

調(diào)研發(fā)現(xiàn)，團(tuán)隊(duì)采取了人工提煉思維模式設(shè)計(jì)提示詞的方式構(gòu)造訓(xùn)練數(shù)據(jù)，從而訓(xùn)練“過程獎(jiǎng)勵(lì)模型”突破難點(diǎn)。

首先，醫(yī)學(xué)專家閱讀大量模型輸出樣本，根據(jù)臨床思維，提煉出若干類“思考方法”（比如排除法、反推法等），并且明確區(qū)別病藥術(shù)檢每種任務(wù)過程中關(guān)鍵的推理方式。把這些不同類型的思維模式總結(jié)為語言模板（Prompt），輸入給SOTA語言模型，得到對(duì)“思考過程”的打分?jǐn)?shù)據(jù)（含簡短文字評(píng)價(jià)），用于訓(xùn)練過程獎(jiǎng)勵(lì)模型。再用過程獎(jiǎng)勵(lì)模型對(duì)思考數(shù)據(jù)合乎醫(yī)學(xué)邏輯、結(jié)構(gòu)清晰、信息完整的程度打分，并生成相關(guān)文字評(píng)論，本質(zhì)是讓該模型學(xué)會(huì)評(píng)估質(zhì)量。這些數(shù)據(jù)不會(huì)被用于直接微調(diào)策略模型產(chǎn)出最終答案的能力，以確保過程獎(jiǎng)勵(lì)模型評(píng)估的獨(dú)立性。

過程獎(jiǎng)勵(lì)模型和答案驗(yàn)證器訓(xùn)練完畢后，投入使用。

首先，在強(qiáng)化學(xué)習(xí)過程中，對(duì)同一個(gè)問題（Question），策略模型每次給出多組“思考（CoT）+最終答案（Answer）”后，使用過程獎(jiǎng)勵(lì)模型和答案驗(yàn)證器會(huì)分別對(duì)“思考+答案”進(jìn)行兩個(gè)維度的（合理性與答案準(zhǔn)確性）打分，加權(quán)計(jì)算之后，得出一個(gè)綜合評(píng)分。

其次，這一方法也可以在數(shù)據(jù)篩選過程中，強(qiáng)調(diào)“思考過程應(yīng)支撐結(jié)果”的一致性原則。如果模型按照思維引導(dǎo)，正確完成了思考過程，但最終生成的答案仍然錯(cuò)誤，則視為思維與結(jié)果邏輯斷裂，此類樣本將被剔除，或改寫為符合一致性原則的樣本再進(jìn)行使用。

在不同類型的醫(yī)療任務(wù)中，“答案的決定性”與“思考過程的重要性”所占比重不同，所以“思考（CoT）”和“最終答案（Answer）”的評(píng)分在綜合打分中應(yīng)賦予不同權(quán)重。

最終，使用GRPO算法，利用多組采樣及其綜合獎(jiǎng)勵(lì)，用于計(jì)算策略優(yōu)勢(shì)（Advantage），再經(jīng)由策略梯度優(yōu)化策略模型參數(shù)，從而提升模型在復(fù)雜醫(yī)療任務(wù)中產(chǎn)出清晰推理鏈條的能力。在訓(xùn)練進(jìn)程中，策略模型會(huì)越來越傾向于輸出有條理、有依據(jù)、有醫(yī)學(xué)常識(shí)支撐的思考過程和診療建議，從而具備類似高水平醫(yī)生的推理能力，而不是“拍腦門”的猜答案。

另外，引入一致性驗(yàn)證器模型，對(duì)思考路徑與最終答案之間的一致性進(jìn)行二次校驗(yàn)。模型可能通過偶然或非健康醫(yī)療規(guī)范路徑得出正確結(jié)論，如果此類情況在訓(xùn)練中被錯(cuò)誤地賦予獎(jiǎng)勵(lì)信號(hào)，長期而言，這將嚴(yán)重?cái)_亂模型推理能力的形成。

第三，對(duì)抗“作弊”。

在訓(xùn)練過程中，策略模型會(huì)利用規(guī)則漏洞“作弊”（hacking），比如，生成結(jié)構(gòu)表達(dá)上合理優(yōu)雅，但本質(zhì)錯(cuò)誤或欺騙性的回答。一旦這類回答沒有被準(zhǔn)確識(shí)別，策略模型將持續(xù)朝錯(cuò)誤方向優(yōu)化，導(dǎo)致資源浪費(fèi)，且模型能力無法得到實(shí)質(zhì)提升。對(duì)此，介入方式是人工標(biāo)注負(fù)面案例，補(bǔ)充樣本，迭代訓(xùn)練驗(yàn)證器。即發(fā)現(xiàn)不同作弊手段并有針對(duì)性迭代，隨著驗(yàn)證器的改進(jìn)，模型作弊空間被逐步壓縮。

作弊現(xiàn)象包括，但不限于：

第一種，模型在簡單任務(wù)上“快答”，即直接輸出結(jié)論，無推理過程，繼而在復(fù)雜任務(wù)上沿用同樣策略。

第二種，模型為獲取高分，重復(fù)高評(píng)分答案或在同一回復(fù)中多次強(qiáng)調(diào)同一結(jié)論，以最大化累計(jì)獎(jiǎng)勵(lì)。

第三種，模型輸出看似合理，但事實(shí)性錯(cuò)誤的答案，比如，并不存在的疾病。這類錯(cuò)誤往往不易被沒有醫(yī)學(xué)專業(yè)背景的普通用戶察覺，但在專業(yè)醫(yī)生審閱下會(huì)立即暴露。在健康場(chǎng)景下，具有較高風(fēng)險(xiǎn)隱患。

調(diào)研發(fā)現(xiàn)，強(qiáng)化學(xué)習(xí)訓(xùn)練過程初期，不宜引入過多復(fù)雜評(píng)判，需提供結(jié)構(gòu)清晰、判斷標(biāo)準(zhǔn)單一的參照信號(hào)，避免策略模型在尚未穩(wěn)定時(shí)被復(fù)雜標(biāo)準(zhǔn)干擾，走偏優(yōu)化方向。

（七）強(qiáng)化學(xué)習(xí)推理系統(tǒng)：多階段訓(xùn)練

當(dāng)模型在此處微調(diào)，會(huì)有一個(gè)較高的起點(diǎn)，原因是微調(diào)采用的數(shù)據(jù)已經(jīng)過精妙設(shè)計(jì)（多個(gè)階段的多輪迭代與篩選）。同時(shí)，在整個(gè)數(shù)據(jù)產(chǎn)線中，模型和數(shù)據(jù)并沒有壓縮與現(xiàn)實(shí)世界有關(guān)的多領(lǐng)域通用知識(shí)，在這一階段增加此類通用數(shù)據(jù)，使得模型處理問題的能力更全面，更具備解決現(xiàn)實(shí)健康與醫(yī)療問題和狀況的能力。

健康需求是一種低頻剛需，此類產(chǎn)品的用戶通常是有健康需求，或處于健康困擾中。模型回答不僅需確保準(zhǔn)確性與專業(yè)性，更應(yīng)體現(xiàn)出適度的情感關(guān)懷，避免因措辭不當(dāng)引發(fā)用戶焦慮。

因此，需要偏好獎(jiǎng)勵(lì)模型對(duì)齊風(fēng)格，方法是先訓(xùn)練獎(jiǎng)勵(lì)模型，選擇基于“成對(duì)比較樣本訓(xùn)練機(jī)制（Pairwise）”，學(xué)習(xí)相對(duì)偏好。模型在推理階段獨(dú)立地對(duì)單個(gè)回答給出打分（Pointwise），連續(xù)打分，而非分類結(jié)果。隨后，獎(jiǎng)勵(lì)模型輸出生成一個(gè)連續(xù)實(shí)數(shù)作為質(zhì)量評(píng)分，用于引導(dǎo)策略模型更新方向。

再次引入數(shù)據(jù)產(chǎn)線一階段的驗(yàn)證器，該驗(yàn)證器來源于前一階段數(shù)據(jù)產(chǎn)線中的強(qiáng)化學(xué)習(xí)階段，具備標(biāo)準(zhǔn)答案或判定規(guī)則。此處的再驗(yàn)證，用于防止策略模型經(jīng)過多階段的訓(xùn)練后產(chǎn)生遺忘，該步驟在健康醫(yī)療領(lǐng)域尤其重要。該訓(xùn)練階段采用混合訓(xùn)練的方式，偏好獎(jiǎng)勵(lì)模型（RLHF）和驗(yàn)證器補(bǔ)充檢驗(yàn)（RLVR），兩者共同保障了策略模型能力迭代增長的同時(shí)，對(duì)醫(yī)學(xué)任務(wù)規(guī)范性與推理邏輯的長期保持與強(qiáng)化。

綜上，夸克健康大模型團(tuán)隊(duì)，使用兩條平行數(shù)據(jù)產(chǎn)線產(chǎn)出的高質(zhì)量訓(xùn)練數(shù)據(jù)，結(jié)合多階段訓(xùn)練方法，得到具備一定推理能力與可靠性的健康醫(yī)療推理模型。

（完）

附錄

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

中科曙光發(fā)布scaleX萬卡超集群，部分能力超越2027年NVL576

智東西 2025-12-18 17:31:07
4 跟貼 4
Nature重磅發(fā)文：深度學(xué)習(xí)x符號(hào)學(xué)習(xí)，是AGI唯一路徑！

新智元 2025-12-16 22:52:52
28 跟貼 28

孕婦血樣被走私到境外！10萬份樣本背后藏危機(jī)！是誰在獵取基因？

丹哥熱評(píng) 2025-12-17 18:49:50
23 跟貼 23

讓大模型學(xué)會(huì)「心靈感應(yīng)」：基于思維溝通的多智能體合作范式來了

機(jī)器之心Pro 2025-11-18 10:12:54
0 跟貼 0
福建艦、山東艦的兩個(gè)相同點(diǎn)

新民周刊 2025-12-18 09:13:33
18902 跟貼 18902

小米大模型“殺”進(jìn)第一梯隊(duì)：代碼能力開源第一，智商情商全在線

量子位 2025-12-18 08:51:32
78 跟貼 78

讓LLM不再話癆，快手HiPO框架來了

機(jī)器之心Pro 2025-11-03 15:10:48
0 跟貼 0
10萬份孕婦血液樣本，走私境外目的是什么？

王強(qiáng)老師 2025-12-18 16:54:28
2 跟貼 2

成本0.3美元，耗時(shí)26分鐘！CudaForge：顛覆性低成本CUDA優(yōu)化框架

機(jī)器之心Pro 2025-11-17 18:45:03
0 跟貼 0
PixelRefer ：讓AI從“看大圖”走向“看懂每個(gè)對(duì)象”

機(jī)器之心Pro 2025-11-11 12:49:23
0 跟貼 0
你刷到的視頻是真的么？用物理規(guī)律拆穿Sora謊言

機(jī)器之心Pro 2025-11-05 16:27:02
0 跟貼 0
深度長文：數(shù)學(xué)發(fā)展史上的三次危機(jī)，最后一次至今沒有解決！

宇宙時(shí)空 2025-12-15 13:43:57
0 跟貼 0
對(duì)話大曉機(jī)器人王曉剛：從數(shù)字世界到物理世界，探索機(jī)器人新范式

DeepTech深科技 2025-12-19 07:33:52
0 跟貼 0
一支筆的“克制”升級(jí)，揭開了有道的AI底色

華商韜略 2025-12-18 11:00:02
0 跟貼 0
人類模型怪！文班亞馬跟腱長達(dá)30厘米，微微起跳直接單臂掛筐

籃球過人技巧 2025-12-18 09:25:19
1 跟貼 1
2025年養(yǎng)老護(hù)理員職業(yè)現(xiàn)狀調(diào)研報(bào)告在上海發(fā)布

金臺(tái)資訊 2025-12-18 18:44:53
0 跟貼 0
打工前沿｜讓在路上的勞動(dòng)者跑單更“從從容容”

中工網(wǎng) 2025-12-19 08:52:10
0 跟貼 0
垃圾進(jìn)垃圾出，大模型刷多了垃圾推文，智商驟降還變自戀狂

機(jī)器之心Pro 2025-10-24 18:51:47
0 跟貼 0
合成旅是什么概念中國陸軍有多強(qiáng)，29個(gè)重裝，還真不是說說！

寵物愛田地 2025-12-18 12:44:19
0 跟貼 0
弟弟為姐姐鳴冤，弟弟一席話讓媽媽啞口無言，這孩子邏輯真清晰！

松鼠的搞笑日記 2025-12-17 11:30:25
1 跟貼 1
商務(wù)部就法國總統(tǒng)有關(guān)中歐經(jīng)貿(mào)關(guān)系言論進(jìn)行回應(yīng)

環(huán)球網(wǎng)資訊 2025-12-18 16:07:41
304 跟貼 304
公園回應(yīng)永歷帝趴泥中雕塑引爭議

現(xiàn)代快報(bào) 2025-12-15 17:39:59
3743 跟貼 3743
中國印度算法對(duì)比，不到最后一刻不相信，印度妥妥的實(shí)力派

搞笑的科比 2025-12-17 17:35:47
1 跟貼 1
環(huán)球時(shí)報(bào)：中國科技進(jìn)步，路透社本不必焦慮

環(huán)球網(wǎng)資訊 2025-12-19 00:45:05
22 跟貼 22
馬斯克好友、美億萬富翁掌舵NASA，曾稱目標(biāo)是搶在中國前重返月球

紅星新聞 2025-12-18 19:02:18
85 跟貼 85
貴州省人民政府批復(fù)：同意設(shè)站收費(fèi)！

知知貴陽 2025-12-18 16:12:57
162 跟貼 162
上海一高層居民樓有186個(gè)充電艙居民稱睡"炸藥包"上

新聞坊 2025-12-18 15:20:20
1 跟貼 1
王毅分別同柬埔寨、泰國外長通電話

新華社 2025-12-18 19:30:04
256 跟貼 256
SIGGRAPH Asia 2025 | 只用一部手機(jī)創(chuàng)建和渲染高質(zhì)量3D數(shù)字人

機(jī)器之心Pro 2025-12-18 19:16:41
0 跟貼 0
框架的校正技巧，以及多種切割方法，超好用!

夏的世界 2025-12-16 11:41:00
1 跟貼 1
框架成型，北方的四號(hào)艦，滿載排水量11.8萬噸，已成定局？

大道至萬里 2025-12-16 10:35:32
0 跟貼 0
嵩山少林景區(qū)推50元接駁車引發(fā)游客吐槽，?景區(qū)回應(yīng)：新方案已暫緩

上游新聞 2025-12-15 15:48:13
2396 跟貼 2396
3厘米縫衣針裹在被中扎入寶寶脊柱，醫(yī)生：針的位置極其刁鉆，周圍布滿重要血管和神經(jīng)

觀威海 2025-12-18 10:46:02
636 跟貼 636
100w偽鈔啥概念，刑這輩子有了

悅悅看劇 2025-12-17 10:42:05
1 跟貼 1
真實(shí)世界研究的數(shù)據(jù)來源和流程

醫(yī)咖會(huì) 2025-09-11 20:04:50
0 跟貼 0
全球首條！人形機(jī)器人批量上崗寧德時(shí)代電池產(chǎn)線單日工作量較人工提升3倍

財(cái)聯(lián)社 2025-12-18 16:05:06
407 跟貼 407
美國或"最快本周"再次對(duì)俄羅斯動(dòng)手已和27國討論計(jì)劃

澎湃新聞 2025-12-19 07:09:46
17 跟貼 17
海軍蘇30MK2戰(zhàn)機(jī)，劃入空軍框架，全面加強(qiáng)，已成定局？

大道至萬里 2025-12-17 07:08:05
0 跟貼 0
山東：堅(jiān)決擁護(hù)黨中央決定

新京報(bào)政事兒 2025-12-18 18:03:04
13 跟貼 13
無錫市數(shù)據(jù)產(chǎn)業(yè)暨可信數(shù)據(jù)空間發(fā)展推進(jìn)大會(huì)舉辦

現(xiàn)代快報(bào) 2025-12-18 18:45:04
0 跟貼 0

黑色幽默！電詐園區(qū)辦公室中文標(biāo)語，簡直是天大的諷刺

黑色幽默！電詐園區(qū)辦公室中文標(biāo)語，簡直是天大的諷刺

麥大人

2025-11-06 08:32:30

這張照片背后的故事很慘！拉那烈親王坐在輪椅上對(duì)洪森握緊拳頭

這張照片背后的故事很慘！拉那烈親王坐在輪椅上對(duì)洪森握緊拳頭

杰絲聊古今

2025-12-18 20:58:58

深圳16歲“烤雞少年”火出圈，每天能賣兩三百只烤雞，靠努力實(shí)現(xiàn)逆襲人生

深圳16歲“烤雞少年”火出圈，每天能賣兩三百只烤雞，靠努力實(shí)現(xiàn)逆襲人生

瀟湘晨報(bào)

2025-12-17 22:00:17

福建艦、山東艦的兩個(gè)相同點(diǎn)

福建艦、山東艦的兩個(gè)相同點(diǎn)

新民周刊

2025-12-18 09:13:33

NBA杯最佳陣容：布倫森、東契奇、福克斯、亞歷山大和唐斯入選

NBA杯最佳陣容：布倫森、東契奇、�？怂埂啔v山大和唐斯入選

懂球帝

2025-12-19 07:57:45

廣州，已倒閉餐廳最意難平top1…

廣州，已倒閉餐廳最意難平top1…

羊城攻略

2025-12-18 18:37:03

廣州一公司突發(fā)公告：董事長逝世

廣州一公司突發(fā)公告：董事長逝世

南方都市報(bào)

2025-12-18 14:20:30

曝阿莫林下賽季不再執(zhí)教曼聯(lián)，兩人成替代候選！拉爵三年承諾無用

曝阿莫林下賽季不再執(zhí)教曼聯(lián)，兩人成替代候選！拉爵三年承諾無用

羅米的曼聯(lián)博客

2025-12-19 07:30:10

再爆大冷4-1，中國00后淘汰冠軍名將，太強(qiáng)了429-4！塞爾比12連勝

再爆大冷4-1，中國00后淘汰冠軍名將，太強(qiáng)了429-4！塞爾比12連勝

球場(chǎng)沒跑道

2025-12-18 23:08:33

77歲黎智英貌似占了大便宜，只判了五年多，先看他能否活過這幾年

77歲黎智英貌似占了大便宜，只判了五年多，先看他能否活過這幾年

我心縱橫天地間

2025-12-18 14:57:22

已花費(fèi)超13億！緬甸喊話各國大使：盡快接回你們?cè)诿钔叩椎墓?>
</a>
<h3>
<a href=

2025-12-18 08:10:09

國家文物局：正在查“8800萬藏品被拍賣”，南京博物館“遺漏”？

國家文物局：正在查“8800萬藏品被拍賣”，南京博物館“遺漏”？

奇思妙想草葉君

2025-12-18 23:51:37

索尼將退出中國，補(bǔ)償方案也是值得學(xué)習(xí)

索尼將退出中國，補(bǔ)償方案也是值得學(xué)習(xí)

比爾蓋凱

2025-12-18 22:32:52

談判宣告破裂，徐正源突然反悔，與蓉城好聚好散，下一站基本確定

談判宣告破裂，徐正源突然反悔，與蓉城好聚好散，下一站基本確定

體壇風(fēng)之子

2025-12-18 07:00:05

鞠婧祎被經(jīng)紀(jì)公司指控：涉嫌嚴(yán)重經(jīng)濟(jì)犯罪，將擇日全網(wǎng)公開實(shí)名舉報(bào)！

鞠婧祎被經(jīng)紀(jì)公司指控：涉嫌嚴(yán)重經(jīng)濟(jì)犯罪，將擇日全網(wǎng)公開實(shí)名舉報(bào)！

每日經(jīng)濟(jì)新聞

2025-12-18 13:56:43

薩拉赫連遭重創(chuàng)！落選埃及大名單+利物浦已經(jīng)尋到替代者

薩拉赫連遭重創(chuàng)！落選埃及大名單+利物浦已經(jīng)尋到替代者

夜白侃球

2025-12-18 20:37:17

雷軍官宣：小米17 Ultra下周正式發(fā)布

雷軍官宣：小米17 Ultra下周正式發(fā)布

大象新聞

2025-12-18 11:21:04

Shams：加內(nèi)特以全新身份重返森林狼，21號(hào)球衣也將舉行退役儀式

Shams：加內(nèi)特以全新身份重返森林狼，21號(hào)球衣也將舉行退役儀式

懂球帝

2025-12-18 23:20:23

全球首條！人形機(jī)器人批量上崗寧德時(shí)代電池產(chǎn)線單日工作量較人工提升3倍

全球首條！人形機(jī)器人批量上崗寧德時(shí)代電池產(chǎn)線單日工作量較人工提升3倍

財(cái)聯(lián)社

2025-12-18 16:05:06

“灣區(qū)之眼”回應(yīng)招牌爭議：高度重視市民意見，將優(yōu)化調(diào)整

“灣區(qū)之眼”回應(yīng)招牌爭議：高度重視市民意見，將優(yōu)化調(diào)整

南方都市報(bào)

2025-12-19 09:04:17

機(jī)器之心Pro

專業(yè)的人工智能媒體

11950文章數(shù) 142513關(guān)注度

往期回顧全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

牛彈琴：戰(zhàn)機(jī)又被照射后日本急了有人第一個(gè)想到中國

頭條要聞

牛彈琴：戰(zhàn)機(jī)又被照射后日本急了有人第一個(gè)想到中國

體育要聞

紐約尼克斯，板正的球隊(duì)

娛樂要聞

絲芭放大招了！實(shí)名舉報(bào)鞠婧祎經(jīng)濟(jì)犯罪

財(cái)經(jīng)要聞

尹艷林：呼吁加快2.5億新市民落戶進(jìn)程

汽車要聞

在零下30℃的考場(chǎng)里凡爾賽C5 X和508L拿到了"穩(wěn)"的證明

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

房產(chǎn)

手機(jī)

時(shí)尚

本地

夢(mèng)幻西游尋蹤地煞副本攻略：每人必得物品獎(jiǎng)勵(lì)，五開保底C66

房產(chǎn)要聞

搶藏瘋潮！封關(guān)時(shí)代，�？陧斏萃跽▔狠S，傳世資產(chǎn)即刻登場(chǎng)！

手機(jī)要聞

2026年智能手機(jī)價(jià)格料將上漲全球出貨恐再度下滑

“煙管褲”今年冬天爆火，怎么搭都時(shí)髦！

本地新聞

云游安徽｜決戰(zhàn)烽火照古今，千秋一脈看宿州

© 1997-2025 網(wǎng)易公司版權(quán)所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務(wù) | 隱私政策 | 不良信息舉報(bào) Complaint Center | 廉正舉報(bào) | 侵權(quán)投訴

無障礙瀏覽進(jìn)入關(guān)懷版

<address id="keyam"><samp id="keyam"><delect id="keyam"></delect></samp></address>

<track id="keyam"><table id="keyam"><nobr id="keyam"></nobr></table></track>