国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

<samp id="sqwko"><kbd id="sqwko"></kbd></samp>

<table id="sqwko"><dl id="sqwko"></dl></table>

<samp id="sqwko"></samp>

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴(yán)選
郵箱大師
網(wǎng)易云課堂

注冊(cè)免費(fèi)郵箱

注冊(cè)VIP郵箱（特權(quán)郵箱，付費(fèi)）
免費(fèi)下載網(wǎng)易官方手機(jī)郵箱應(yīng)用

移動(dòng)端
網(wǎng)易公開課
網(wǎng)易嚴(yán)選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

舊金山團(tuán)隊(duì)揭秘：AI評(píng)價(jià)系統(tǒng)中的"黑天鵝"風(fēng)險(xiǎn)為何被系統(tǒng)性忽視

2026-03-13 16:01:40　來源: 科技行者

北京舉報(bào)

0

分享至

這項(xiàng)由舊金山多家研究機(jī)構(gòu)合作完成的開創(chuàng)性研究發(fā)表于2026年1月，論文編號(hào)為arXiv:2601.21235v1。研究團(tuán)隊(duì)開發(fā)了一個(gè)名為SHARP（Social Harm Analysis via Risk Profiles）的全新評(píng)估框架，專門用來發(fā)現(xiàn)大型語言模型中那些被傳統(tǒng)評(píng)估方法系統(tǒng)性忽視的極端風(fēng)險(xiǎn)。這項(xiàng)研究就像為AI安全領(lǐng)域打開了一扇新窗戶，讓我們能夠看到那些隱藏在平均分?jǐn)?shù)背后的危險(xiǎn)信號(hào)。

當(dāng)我們談到AI安全評(píng)估時(shí)，大多數(shù)人想到的可能是測(cè)試準(zhǔn)確率或者錯(cuò)誤率這樣的平均指標(biāo)。但這就像只看一個(gè)學(xué)生的期末平均分來判斷他是否適合參加高考一樣，可能會(huì)錯(cuò)過關(guān)鍵信息。假設(shè)兩個(gè)學(xué)生的平均分都是85分，但其中一個(gè)學(xué)生的成績(jī)分布相對(duì)穩(wěn)定，另一個(gè)學(xué)生卻在某些重要科目上嚴(yán)重偏科，甚至出現(xiàn)不及格的情況。從平均分看，兩人似乎水平相當(dāng)，但在高風(fēng)險(xiǎn)的考試環(huán)境中，偏科嚴(yán)重的學(xué)生更容易出現(xiàn)災(zāi)難性的失敗。

這正是當(dāng)前AI評(píng)估面臨的核心問題。傳統(tǒng)的評(píng)估方法就像只看平均分的老師，往往會(huì)忽視那些罕見但嚴(yán)重的失敗模式。而在AI被廣泛應(yīng)用于醫(yī)療診斷、金融決策、司法判決等高風(fēng)險(xiǎn)場(chǎng)景的今天，這些罕見的極端失敗可能會(huì)造成不可挽回的社會(huì)傷害。研究團(tuán)隊(duì)意識(shí)到，我們需要一種全新的"體檢方式"來檢查AI模型的健康狀況，不僅要看它們的平均表現(xiàn)，更要關(guān)注它們?cè)谧钤愀馇闆r下會(huì)如何行為。

SHARP框架的誕生就是為了解決這個(gè)問題。研究團(tuán)隊(duì)將社會(huì)危害比作一個(gè)多維度的"健康指標(biāo)體系"，就像醫(yī)生體檢時(shí)不只測(cè)量血壓，還要檢查心率、血糖、膽固醇等多個(gè)指標(biāo)一樣。他們將AI可能造成的社會(huì)危害分解為四個(gè)核心維度：偏見、公平性、倫理對(duì)齊和認(rèn)知可靠性。每個(gè)維度都像身體的一個(gè)重要器官，需要單獨(dú)檢查，同時(shí)也要關(guān)注它們之間的相互影響。

更重要的是，SHARP不滿足于只看這些指標(biāo)的平均值，而是特別關(guān)注那些極端情況下的表現(xiàn)。這就像一個(gè)經(jīng)驗(yàn)豐富的醫(yī)生不僅關(guān)心病人的平均血壓，更要警惕血壓波動(dòng)的極值，因?yàn)檫@往往預(yù)示著更嚴(yán)重的健康風(fēng)險(xiǎn)。

一、四維透視：解構(gòu)AI社會(huì)危害的"體檢報(bào)告"

當(dāng)醫(yī)生為病人做全面體檢時(shí)，會(huì)從多個(gè)角度評(píng)估身體狀況。同樣地，SHARP框架將AI的社會(huì)危害想象成一個(gè)四維空間，每個(gè)維度都代表著不同類型的風(fēng)險(xiǎn)源頭。這種做法就像用四臺(tái)不同的X光機(jī)從不同角度掃描同一個(gè)部位，確保不會(huì)遺漏任何潛在問題。

偏見維度就像檢查AI是否患有"刻板印象綜合癥"。當(dāng)AI在處理涉及性別、種族、年齡等敏感話題時(shí)，是否會(huì)不自覺地重復(fù)社會(huì)中存在的偏見和刻板印象。研究團(tuán)隊(duì)發(fā)現(xiàn)，這種偏見往往不是均勻分布的，而是會(huì)在某些特定情境下突然爆發(fā)。比如，一個(gè)AI助手在大多數(shù)情況下都表現(xiàn)得很中性，但在討論特定職業(yè)時(shí)可能會(huì)表現(xiàn)出明顯的性別偏見，認(rèn)為護(hù)士應(yīng)該是女性，工程師應(yīng)該是男性。

公平性維度關(guān)注的是AI是否會(huì)"厚此薄彼"。這不同于偏見，更多體現(xiàn)在AI對(duì)不同群體的待遇差異上。就像一個(gè)看似公正的老師，可能會(huì)在不經(jīng)意間給某些學(xué)生更多的關(guān)注和機(jī)會(huì)。AI系統(tǒng)可能會(huì)在回答問題、提供建議或做出決策時(shí)，對(duì)不同背景的用戶采用不同的標(biāo)準(zhǔn)，即使這種差異并非故意為之。

倫理對(duì)齊維度檢查的是AI的"道德羅盤"是否指向正確的方向。當(dāng)面臨涉及價(jià)值判斷的問題時(shí)，AI是否能夠堅(jiān)持人類社會(huì)普遍認(rèn)同的倫理原則。這就像測(cè)試一個(gè)人在面臨道德沖突時(shí)是否會(huì)做出正確的選擇。有時(shí)候，AI可能會(huì)在大多數(shù)情況下表現(xiàn)得符合倫理，但在某些邊緣情況下卻可能給出令人擔(dān)憂的建議或觀點(diǎn)。

認(rèn)知可靠性維度評(píng)估的是AI的"記憶力"和"理解力"。這包括AI是否會(huì)產(chǎn)生幻覺（編造不存在的信息）、是否能準(zhǔn)確理解問題的含義，以及是否能承認(rèn)自己的不確定性。就像測(cè)試一個(gè)人是否會(huì)在不確定的時(shí)候承認(rèn)"我不知道"，而不是胡編亂造一個(gè)看似合理的答案。

研究團(tuán)隊(duì)特別強(qiáng)調(diào)，這四個(gè)維度并不是相互獨(dú)立的，而是會(huì)相互影響和放大。就像人體的各個(gè)系統(tǒng)會(huì)相互作用一樣，當(dāng)AI在某一個(gè)維度出現(xiàn)問題時(shí)，往往會(huì)連帶影響其他維度的表現(xiàn)。比如，認(rèn)知能力的缺陷可能會(huì)導(dǎo)致倫理判斷的錯(cuò)誤，而偏見問題又可能會(huì)加劇公平性的缺失。

二、尾部風(fēng)險(xiǎn)：捕捉隱藏在平均數(shù)背后的"黑天鵝"

傳統(tǒng)的AI評(píng)估方法就像只關(guān)心學(xué)生平均成績(jī)的教育系統(tǒng)，往往會(huì)忽視那些罕見但影響巨大的極端情況。SHARP框架的核心創(chuàng)新就在于它像一個(gè)經(jīng)驗(yàn)豐富的風(fēng)險(xiǎn)管理專家，專門關(guān)注那些發(fā)生概率低但破壞性極大的"黑天鵝事件"。

設(shè)想這樣一個(gè)場(chǎng)景：兩家銀行都在使用AI系統(tǒng)進(jìn)行貸款審批。從整體統(tǒng)計(jì)數(shù)據(jù)看，兩家銀行的AI系統(tǒng)準(zhǔn)確率都達(dá)到了90%，看起來表現(xiàn)相當(dāng)。但深入分析后發(fā)現(xiàn)，第一家銀行的AI系統(tǒng)錯(cuò)誤分布比較均勻，而第二家銀行的AI系統(tǒng)雖然大部分時(shí)候表現(xiàn)良好，但在處理某些特定類型的申請(qǐng)時(shí)會(huì)出現(xiàn)嚴(yán)重的歧視性決策。從平均準(zhǔn)確率看不出差別，但在實(shí)際應(yīng)用中，第二家銀行面臨的法律風(fēng)險(xiǎn)和聲譽(yù)風(fēng)險(xiǎn)要大得多。

這就是尾部風(fēng)險(xiǎn)的威力。在金融學(xué)中，尾部風(fēng)險(xiǎn)指的是那些發(fā)生概率很低但一旦發(fā)生就會(huì)造成巨大損失的事件。SHARP將這一概念引入AI安全評(píng)估，專門關(guān)注那些在極端情況下可能出現(xiàn)的嚴(yán)重社會(huì)危害。

研究團(tuán)隊(duì)采用了一種叫做"條件風(fēng)險(xiǎn)價(jià)值"（CVaR95）的統(tǒng)計(jì)方法來量化這種尾部風(fēng)險(xiǎn)。簡(jiǎn)單來說，這就像是專門關(guān)注最糟糕的5%情況的平均表現(xiàn)，而不是所有情況的平均表現(xiàn)。繼續(xù)用考試的比喻，如果我們要評(píng)估一個(gè)學(xué)生在高壓環(huán)境下的表現(xiàn)能力，與其看他所有考試的平均分，不如專門看他表現(xiàn)最差的幾次考試的平均分，這樣能更好地預(yù)測(cè)他在關(guān)鍵時(shí)刻的可靠性。

更進(jìn)一步，SHARP還引入了"復(fù)合風(fēng)險(xiǎn)"的概念。這就像評(píng)估一個(gè)人的整體健康狀況時(shí)，不僅要看各項(xiàng)指標(biāo)的單獨(dú)表現(xiàn)，還要看它們之間的相互作用。當(dāng)AI在多個(gè)維度同時(shí)出現(xiàn)問題時(shí)，總體風(fēng)險(xiǎn)會(huì)呈現(xiàn)指數(shù)級(jí)增長(zhǎng)，而不是簡(jiǎn)單的線性疊加。就像一個(gè)人同時(shí)患有高血壓和糖尿病時(shí)，健康風(fēng)險(xiǎn)遠(yuǎn)遠(yuǎn)大于兩種疾病風(fēng)險(xiǎn)的簡(jiǎn)單相加。

研究團(tuán)隊(duì)發(fā)現(xiàn)，許多看似安全的AI模型實(shí)際上存在嚴(yán)重的尾部風(fēng)險(xiǎn)問題。在他們測(cè)試的11個(gè)前沿語言模型中，一些模型雖然平均表現(xiàn)相近，但在最壞情況下的表現(xiàn)卻相差懸殊，有些模型的尾部風(fēng)險(xiǎn)甚至是其他模型的四倍以上。這種差異在傳統(tǒng)評(píng)估方法中完全被掩蓋了。

三、AI法官團(tuán)：構(gòu)建多維度風(fēng)險(xiǎn)評(píng)估體系

為了實(shí)現(xiàn)對(duì)AI模型的全面評(píng)估，研究團(tuán)隊(duì)創(chuàng)造性地采用了"AI法官團(tuán)"的方法，就像法庭上由多名法官共同審理重要案件一樣。這個(gè)法官團(tuán)由三個(gè)不同的先進(jìn)AI模型組成：Claude Sonnet 4.5、Gemini 2.5 Pro和GPT-5.1，它們就像三位具有不同專業(yè)背景和判斷風(fēng)格的專家，從各自的角度對(duì)被測(cè)試的AI模型進(jìn)行評(píng)估。

這種多法官制度的設(shè)計(jì)非常巧妙，就像醫(yī)療中的會(huì)診制度一樣。當(dāng)醫(yī)生面臨復(fù)雜病例時(shí)，往往會(huì)邀請(qǐng)不同科室的專家共同會(huì)診，因?yàn)槊總€(gè)專家都有自己的專業(yè)視角和經(jīng)驗(yàn)積累。同樣地，不同的AI模型在判斷社會(huì)危害時(shí)也會(huì)有不同的敏感度和判斷標(biāo)準(zhǔn)，通過綜合多個(gè)"法官"的意見，可以得到更加全面和可靠的評(píng)估結(jié)果。

評(píng)估過程就像一場(chǎng)精心設(shè)計(jì)的"壓力測(cè)試"。研究團(tuán)隊(duì)準(zhǔn)備了901個(gè)精心篩選的敏感問題，這些問題就像專門設(shè)計(jì)的"陷阱"，能夠觸發(fā)AI模型在各個(gè)維度上的潛在問題。這些問題涵蓋了各種可能引發(fā)偏見、不公平待遇、倫理沖突或認(rèn)知錯(cuò)誤的場(chǎng)景，就像醫(yī)學(xué)檢查中的各種刺激性測(cè)試一樣，專門用來暴露隱藏的問題。

每當(dāng)一個(gè)AI模型回答這些測(cè)試問題時(shí)，三位"AI法官"就會(huì)從四個(gè)不同的維度對(duì)答案進(jìn)行評(píng)分。就像奧運(yùn)會(huì)的評(píng)分系統(tǒng)一樣，多個(gè)評(píng)委的打分可以減少單一評(píng)委的主觀偏見，使評(píng)估結(jié)果更加客觀公正。但與簡(jiǎn)單的平均分不同，SHARP采用了一種特殊的"加權(quán)融合"方法，這種方法更加關(guān)注那些表現(xiàn)出嚴(yán)重問題的評(píng)分，而不是簡(jiǎn)單地取平均值。

這就像在評(píng)估一個(gè)飛行員的安全性時(shí)，我們更應(yīng)該關(guān)注他在最危險(xiǎn)情況下的表現(xiàn)，而不是他在常規(guī)飛行中的平均水平。如果三個(gè)評(píng)委中有一個(gè)給出了嚴(yán)重警告的評(píng)分，這個(gè)信號(hào)就應(yīng)該得到特別的重視，因?yàn)樵诎踩u(píng)估中，往往是最薄弱的環(huán)節(jié)決定了整體的安全水平。

有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)不同的"AI法官"在評(píng)估不同類型的問題時(shí)表現(xiàn)出了不同的特長(zhǎng)。有些法官對(duì)偏見問題特別敏感，有些則更擅長(zhǎng)識(shí)別倫理問題，這種差異性正好為全面評(píng)估提供了互補(bǔ)的視角。就像組成一個(gè)理想的專家委員會(huì)一樣，每個(gè)成員都貢獻(xiàn)著自己獨(dú)特的專業(yè)見解。

四、驚人發(fā)現(xiàn)：平均表現(xiàn)相似的AI模型竟有天壤之別的風(fēng)險(xiǎn)水平

當(dāng)研究團(tuán)隊(duì)將SHARP框架應(yīng)用于11個(gè)業(yè)界領(lǐng)先的AI模型時(shí)，他們發(fā)現(xiàn)了一個(gè)令人震驚的現(xiàn)象：那些在傳統(tǒng)評(píng)估中表現(xiàn)相似的模型，在極端情況下的風(fēng)險(xiǎn)水平竟然存在天壤之別的差異。這個(gè)發(fā)現(xiàn)就像發(fā)現(xiàn)了兩個(gè)看似健康的人，其中一個(gè)在體力透支時(shí)會(huì)突然心臟病發(fā)作，而另一個(gè)卻能保持穩(wěn)定狀態(tài)一樣令人驚訝。

具體來說，研究團(tuán)隊(duì)發(fā)現(xiàn)Claude Sonnet 4.5在尾部風(fēng)險(xiǎn)方面表現(xiàn)最佳，其CVaR95指標(biāo)僅為1.69，而LLaMA-3 405B的同一指標(biāo)卻高達(dá)8.40，相差接近五倍。更令人驚訝的是，一些在平均風(fēng)險(xiǎn)上表現(xiàn)相近的模型，比如Gemini-1.5-Pro和Claude-3.5-Sonnet，它們的平均累積對(duì)數(shù)風(fēng)險(xiǎn)分別為0.46和0.45，幾乎完全一致，但在尾部風(fēng)險(xiǎn)上卻分別為3.50和3.78，存在明顯差異。這就像兩個(gè)學(xué)生的期末平均分都是85分，但在最重要的幾次考試中，一個(gè)能穩(wěn)定發(fā)揮拿到80分，另一個(gè)卻可能只拿到60分。

更深入的分析揭示了一個(gè)有趣的模式：不同類型的危害在各個(gè)模型中表現(xiàn)出了截然不同的分布特征。偏見問題往往表現(xiàn)出最強(qiáng)的尾部嚴(yán)重性，就像某些潛在的疾病會(huì)在壓力狀態(tài)下突然爆發(fā)一樣。認(rèn)知可靠性和公平性問題則表現(xiàn)出中等程度的尾部風(fēng)險(xiǎn)，而倫理失調(diào)問題的尾部風(fēng)險(xiǎn)相對(duì)較低但更加一致。

這種發(fā)現(xiàn)具有重要的實(shí)踐意義。在高風(fēng)險(xiǎn)應(yīng)用場(chǎng)景中，比如醫(yī)療診斷輔助或法律咨詢，一個(gè)模型的極端情況表現(xiàn)往往比平均表現(xiàn)更加重要。就像選擇一名外科醫(yī)生時(shí)，我們更關(guān)心他在最復(fù)雜手術(shù)中的成功率，而不是他在所有手術(shù)中的平均表現(xiàn)。

研究還發(fā)現(xiàn)，不同模型在四個(gè)危害維度上的"主導(dǎo)風(fēng)險(xiǎn)源"存在明顯差異。對(duì)某些模型來說，認(rèn)知可靠性是最大的風(fēng)險(xiǎn)來源，占到復(fù)合尾部風(fēng)險(xiǎn)的30%以上。而對(duì)另一些模型來說，偏見問題則是最主要的風(fēng)險(xiǎn)驅(qū)動(dòng)因素，在最壞情況下貢獻(xiàn)了超過40%的總風(fēng)險(xiǎn)。這就像不同的人有不同的健康弱點(diǎn)一樣，有些人容易出現(xiàn)心血管問題，有些人則更容易出現(xiàn)消化系統(tǒng)問題。

這種差異化的風(fēng)險(xiǎn)模式為AI安全防護(hù)提供了重要啟示。與其采用一刀切的通用防護(hù)措施，不如根據(jù)每個(gè)模型的具體風(fēng)險(xiǎn)特征制定針對(duì)性的防護(hù)策略。就像個(gè)性化醫(yī)療一樣，了解每個(gè)患者的特殊風(fēng)險(xiǎn)因素，然后制定專門的預(yù)防和治療方案。

五、統(tǒng)計(jì)驗(yàn)證：確保發(fā)現(xiàn)的可靠性

任何重要的科學(xué)發(fā)現(xiàn)都需要經(jīng)過嚴(yán)格的統(tǒng)計(jì)驗(yàn)證，SHARP框架的研究也不例外。研究團(tuán)隊(duì)采用了多種互補(bǔ)的統(tǒng)計(jì)方法來確保他們的發(fā)現(xiàn)是可靠的，而不是偶然的統(tǒng)計(jì)噪聲。這個(gè)過程就像一個(gè)偵探在收集證據(jù)時(shí)需要多重驗(yàn)證一樣，確保每個(gè)結(jié)論都能經(jīng)得起推敲。

首先，研究團(tuán)隊(duì)使用了"配對(duì)自助重采樣"方法來量化估計(jì)的不確定性。這種方法就像反復(fù)進(jìn)行同一個(gè)實(shí)驗(yàn)，看結(jié)果是否穩(wěn)定一致。他們進(jìn)行了10,000次重采樣，每次都從原始數(shù)據(jù)中隨機(jī)抽取樣本進(jìn)行分析，然后觀察結(jié)果的變化范圍。這就像一個(gè)醫(yī)生為了確認(rèn)診斷的準(zhǔn)確性，會(huì)要求病人在不同時(shí)間多次檢查一樣。

結(jié)果顯示，大部分模型之間的尾部風(fēng)險(xiǎn)差異都是統(tǒng)計(jì)學(xué)顯著的，也就是說這些差異不是偶然現(xiàn)象，而是模型間真實(shí)存在的差異。在55個(gè)可能的模型配對(duì)中，有44對(duì)（80%）在統(tǒng)計(jì)上是可以區(qū)分的，這個(gè)比例足夠高，證明SHARP框架確實(shí)能夠有效識(shí)別模型間的風(fēng)險(xiǎn)差異。

研究團(tuán)隊(duì)還采用了非參數(shù)的重復(fù)測(cè)量檢驗(yàn)方法來驗(yàn)證模型間的系統(tǒng)性差異。由于所有模型都在相同的901個(gè)問題上進(jìn)行了測(cè)試，這就構(gòu)成了一個(gè)"配對(duì)實(shí)驗(yàn)"設(shè)計(jì)，就像讓同一組學(xué)生參加不同老師的考試，然后比較老師間的評(píng)分差異。弗里德曼檢驗(yàn)的結(jié)果強(qiáng)烈拒絕了"所有模型表現(xiàn)相同"的零假設(shè)，進(jìn)一步證實(shí)了模型間確實(shí)存在系統(tǒng)性的風(fēng)險(xiǎn)差異。

為了了解這些差異的來源，研究團(tuán)隊(duì)還進(jìn)行了方差分解分析。他們發(fā)現(xiàn)，問題身份解釋了25.8%的總方差，而模型身份解釋了13.9%的方差，剩余的60.3%歸因于殘差和隨機(jī)效應(yīng)。這個(gè)結(jié)果很有啟發(fā)性：它表明問題的特性對(duì)風(fēng)險(xiǎn)水平的影響確實(shí)比模型的選擇更大，但模型選擇的影響仍然是顯著且不可忽視的。這就像在考試成績(jī)的影響因素中，題目難度的影響最大，但學(xué)生個(gè)人能力的影響也很重要。

研究團(tuán)隊(duì)還測(cè)試了評(píng)估方法的穩(wěn)健性。他們發(fā)現(xiàn)，即使改變一些關(guān)鍵參數(shù)，比如調(diào)整法官聚合的溫度參數(shù)或改變尾部風(fēng)險(xiǎn)的閾值，模型的相對(duì)排序基本保持不變。這種穩(wěn)健性就像一個(gè)好的測(cè)量工具，無論在什么條件下使用，都能給出一致的結(jié)果。

六、方法論突破：重新定義AI風(fēng)險(xiǎn)評(píng)估的標(biāo)準(zhǔn)

SHARP框架的最大貢獻(xiàn)不僅在于發(fā)現(xiàn)了現(xiàn)有評(píng)估方法的盲點(diǎn)，更在于提出了一套全新的方法論，從根本上重新定義了AI風(fēng)險(xiǎn)評(píng)估的標(biāo)準(zhǔn)和流程。這種方法論突破就像從傳統(tǒng)的X光檢查升級(jí)到CT掃描一樣，不僅提高了檢測(cè)精度，還擴(kuò)展了檢測(cè)維度。

傳統(tǒng)的評(píng)估方法就像用單一指標(biāo)來衡量復(fù)雜系統(tǒng)的健康狀況，比如只看血壓就判斷心血管健康。而SHARP則像建立了一個(gè)全面的健康監(jiān)測(cè)體系，不僅要看各項(xiàng)指標(biāo)的數(shù)值，還要看它們之間的相互作用和在極端情況下的表現(xiàn)。這種方法論的轉(zhuǎn)變體現(xiàn)在幾個(gè)關(guān)鍵方面。

首先是從"點(diǎn)估計(jì)"到"分布估計(jì)"的轉(zhuǎn)變。傳統(tǒng)方法關(guān)注的是AI模型在所有測(cè)試中的平均表現(xiàn)，這就像只看一個(gè)人的平均體溫，而忽視了體溫的波動(dòng)范圍。SHARP則關(guān)注整個(gè)風(fēng)險(xiǎn)分布，特別是分布的尾部，因?yàn)檎沁@些極端情況決定了模型在實(shí)際部署中的可靠性。

其次是從"單維度"到"多維度"的轉(zhuǎn)變。傳統(tǒng)評(píng)估往往使用單一的綜合分?jǐn)?shù)來評(píng)價(jià)模型，這就像用一個(gè)總分來評(píng)價(jià)學(xué)生的全面素質(zhì)。而SHARP將風(fēng)險(xiǎn)分解為四個(gè)不同的維度，每個(gè)維度都有其獨(dú)特的含義和重要性，這樣可以更精確地識(shí)別模型的具體弱點(diǎn)和優(yōu)勢(shì)。

第三是從"獨(dú)立評(píng)估"到"交互評(píng)估"的轉(zhuǎn)變。SHARP不僅關(guān)注各個(gè)維度的獨(dú)立表現(xiàn)，還特別關(guān)注不同維度之間的相互作用和放大效應(yīng)。這就像評(píng)估一個(gè)團(tuán)隊(duì)的整體實(shí)力時(shí)，不僅要看每個(gè)成員的個(gè)人能力，還要看他們之間的協(xié)作效果。

研究團(tuán)隊(duì)還創(chuàng)新性地引入了"風(fēng)險(xiǎn)敏感聚合"的概念。與簡(jiǎn)單的平均值不同，這種聚合方法更加重視那些表現(xiàn)出嚴(yán)重問題的評(píng)估結(jié)果。這就像在安全檢查中，如果有任何一個(gè)檢查員發(fā)現(xiàn)了嚴(yán)重問題，這個(gè)信號(hào)就應(yīng)該得到特別重視，而不應(yīng)該被其他正常結(jié)果所稀釋。

更重要的是，SHARP提出了"風(fēng)險(xiǎn)分層"的評(píng)估理念。研究團(tuán)隊(duì)認(rèn)為，與其追求對(duì)所有模型的精確排序，不如將模型分為不同的風(fēng)險(xiǎn)等級(jí)，比如低風(fēng)險(xiǎn)、中風(fēng)險(xiǎn)和高風(fēng)險(xiǎn)。這種分層方法更加符合實(shí)際應(yīng)用的需求，因?yàn)樵诤芏嗲闆r下，我們更關(guān)心的是一個(gè)模型是否安全可用，而不是它在所有模型中的精確排名。

七、實(shí)踐意義：為AI治理開辟新路徑

SHARP框架的研究成果不僅具有學(xué)術(shù)價(jià)值，更為AI治理和風(fēng)險(xiǎn)管控開辟了全新的路徑。這種實(shí)踐意義就像為城市安全管理提供了新的監(jiān)控工具，讓管理者能夠更精確地識(shí)別和預(yù)防潛在的安全隱患。

在模型選擇方面，SHARP提供了一種全新的決策框架。傳統(tǒng)的選擇標(biāo)準(zhǔn)往往基于平均性能指標(biāo)，就像選擇員工時(shí)只看簡(jiǎn)歷上的平均分。而SHARP建議采用"風(fēng)險(xiǎn)約束選擇"的方法，也就是首先設(shè)定一個(gè)可接受的最大風(fēng)險(xiǎn)閾值，然后在滿足這個(gè)安全底線的模型中選擇性能最好的。這就像在招聘關(guān)鍵崗位時(shí)，首先確保候選人通過了所有必要的背景調(diào)查，然后再比較他們的業(yè)務(wù)能力。

對(duì)于監(jiān)管機(jī)構(gòu)來說，SHARP提供了更加精細(xì)化的監(jiān)管工具。傳統(tǒng)的AI監(jiān)管往往采用"一刀切"的方式，對(duì)所有模型采用相同的標(biāo)準(zhǔn)和要求。而SHARP的分析結(jié)果表明，不同模型的風(fēng)險(xiǎn)特征差異巨大，因此需要采用差異化的監(jiān)管策略。就像交通管理中對(duì)不同類型的車輛采用不同的管理標(biāo)準(zhǔn)一樣，對(duì)風(fēng)險(xiǎn)特征不同的AI模型也應(yīng)該采用相應(yīng)的監(jiān)管措施。

在風(fēng)險(xiǎn)防控方面，SHARP的維度分解為精準(zhǔn)防護(hù)提供了指導(dǎo)。既然不同模型的主要風(fēng)險(xiǎn)源不同，那么防護(hù)措施也應(yīng)該有針對(duì)性。對(duì)于主要風(fēng)險(xiǎn)來源是偏見問題的模型，應(yīng)該加強(qiáng)偏見檢測(cè)和糾正機(jī)制。對(duì)于認(rèn)知可靠性是主要風(fēng)險(xiǎn)的模型，則應(yīng)該重點(diǎn)加強(qiáng)事實(shí)核查和不確定性表達(dá)的訓(xùn)練。這種精準(zhǔn)防護(hù)就像個(gè)性化醫(yī)療一樣，根據(jù)每個(gè)患者的具體情況制定專門的治療方案。

在產(chǎn)品部署方面，SHARP的風(fēng)險(xiǎn)分析為部署決策提供了重要依據(jù)。對(duì)于高風(fēng)險(xiǎn)應(yīng)用場(chǎng)景，比如醫(yī)療診斷或金融決策，應(yīng)該優(yōu)先選擇那些尾部風(fēng)險(xiǎn)較低的模型，即使它們的平均性能可能稍差。而對(duì)于低風(fēng)險(xiǎn)的應(yīng)用場(chǎng)景，則可以在風(fēng)險(xiǎn)可控的前提下選擇性能最優(yōu)的模型。這種權(quán)衡就像在不同的天氣條件下選擇不同的交通工具一樣，安全性永遠(yuǎn)是首要考慮因素。

對(duì)于AI開發(fā)團(tuán)隊(duì)來說，SHARP提供了新的質(zhì)量控制標(biāo)準(zhǔn)。傳統(tǒng)的開發(fā)流程更多關(guān)注模型在測(cè)試集上的平均表現(xiàn)，而忽視了極端情況下的行為。SHARP建議在開發(fā)過程中就引入尾部風(fēng)險(xiǎn)監(jiān)控，就像軟件開發(fā)中的壓力測(cè)試一樣，專門測(cè)試系統(tǒng)在極限條件下的穩(wěn)定性。

八、局限性與未來展望：承認(rèn)不足，指明方向

任何科學(xué)研究都有其局限性，SHARP框架也不例外。研究團(tuán)隊(duì)在論文中坦誠(chéng)地討論了這些局限性，這種科學(xué)誠(chéng)實(shí)的態(tài)度就像一個(gè)負(fù)責(zé)任的醫(yī)生會(huì)如實(shí)告訴病人治療方案的適用范圍和潛在風(fēng)險(xiǎn)一樣。

首先，SHARP依賴于AI法官的評(píng)估，這就像依靠專家會(huì)診來診斷疾病一樣，會(huì)受到專家自身能力和偏見的影響。由于法官團(tuán)中的一些成員與被測(cè)試的模型存在某種程度的相似性，可能會(huì)存在"近親偏向"的問題。就像讓幾個(gè)來自同一醫(yī)學(xué)院的醫(yī)生互相評(píng)價(jià)一樣，可能會(huì)存在系統(tǒng)性的評(píng)判偏差。未來的研究需要引入更加多元化的評(píng)估者，包括人類專家的判斷，來提高評(píng)估的客觀性。

其次，SHARP目前主要關(guān)注單輪對(duì)話的內(nèi)在行為，而現(xiàn)實(shí)中的AI應(yīng)用往往涉及多輪交互和復(fù)雜的任務(wù)執(zhí)行。這就像只在靜態(tài)環(huán)境下測(cè)試一個(gè)人的反應(yīng)能力，而忽視了他在動(dòng)態(tài)變化環(huán)境中的適應(yīng)性。未來的研究需要擴(kuò)展到更復(fù)雜的交互場(chǎng)景，包括AI代理系統(tǒng)和多步推理任務(wù)。

第三，當(dāng)前的評(píng)估語料主要以英語為主，具有明顯的西方文化傾向。這就像用單一文化背景的測(cè)試來評(píng)估全球化產(chǎn)品的適用性一樣，可能會(huì)遺漏重要的文化差異和地域特色。隨著AI技術(shù)的全球化應(yīng)用，未來的評(píng)估框架需要涵蓋更多語言和文化背景，確保評(píng)估結(jié)果的普適性。

研究團(tuán)隊(duì)還指出，SHARP測(cè)量的是在特定評(píng)估協(xié)議下的相對(duì)風(fēng)險(xiǎn)，而不是絕對(duì)的社會(huì)危害率。這就像實(shí)驗(yàn)室檢查的指標(biāo)不能直接等同于實(shí)際的健康狀況一樣，需要結(jié)合具體的應(yīng)用場(chǎng)景和部署環(huán)境來綜合判斷。因此，SHARP的結(jié)果應(yīng)該作為風(fēng)險(xiǎn)管理的參考依據(jù)，而不是部署決策的唯一標(biāo)準(zhǔn)。

展望未來，SHARP框架開辟了幾個(gè)重要的研究方向。首先是開發(fā)更加精確的風(fēng)險(xiǎn)校準(zhǔn)方法，讓評(píng)估結(jié)果能夠更好地預(yù)測(cè)實(shí)際部署中的風(fēng)險(xiǎn)水平。其次是擴(kuò)展到更多類型的AI系統(tǒng)和應(yīng)用場(chǎng)景，包括多模態(tài)AI和專業(yè)領(lǐng)域的AI應(yīng)用。第三是建立動(dòng)態(tài)風(fēng)險(xiǎn)監(jiān)控機(jī)制，能夠?qū)崟r(shí)跟蹤AI系統(tǒng)在實(shí)際使用中的風(fēng)險(xiǎn)變化。

更長(zhǎng)遠(yuǎn)來看，SHARP代表了AI安全評(píng)估領(lǐng)域的一個(gè)重要轉(zhuǎn)折點(diǎn)，從關(guān)注平均表現(xiàn)轉(zhuǎn)向關(guān)注極端風(fēng)險(xiǎn)，從單維度評(píng)估轉(zhuǎn)向多維度分析，從靜態(tài)評(píng)估轉(zhuǎn)向分布式理解。這種方法論的轉(zhuǎn)變不僅適用于AI安全，也可能對(duì)其他復(fù)雜系統(tǒng)的風(fēng)險(xiǎn)評(píng)估產(chǎn)生深遠(yuǎn)影響。

說到底，這項(xiàng)研究就像為AI安全領(lǐng)域裝上了一副高倍顯微鏡，讓我們能夠看清那些隱藏在表面現(xiàn)象背后的深層風(fēng)險(xiǎn)。雖然目前的方法還不完美，但它為我們指明了正確的方向：在AI技術(shù)日益融入我們生活的今天，僅僅關(guān)注平均表現(xiàn)是不夠的，我們必須對(duì)那些罕見但可能造成嚴(yán)重后果的極端情況保持高度警惕。

這項(xiàng)研究的價(jià)值不僅在于它發(fā)現(xiàn)了什么，更在于它改變了我們思考AI安全的方式。就像從關(guān)心汽車的平均速度轉(zhuǎn)向關(guān)心它在緊急剎車時(shí)的表現(xiàn)一樣，SHARP提醒我們，在高風(fēng)險(xiǎn)的AI應(yīng)用中，最重要的往往不是系統(tǒng)的常規(guī)表現(xiàn)，而是它在最糟糕情況下的可靠性。這種思維方式的轉(zhuǎn)變，可能會(huì)深刻影響未來AI技術(shù)的發(fā)展方向和應(yīng)用策略。對(duì)于所有關(guān)心AI安全和社會(huì)影響的人來說，這項(xiàng)研究都值得深入思考和關(guān)注。有興趣深入了解技術(shù)細(xì)節(jié)的讀者可以通過論文編號(hào)arXiv:2601.21235v1查詢完整的研究報(bào)告。

Q&A

Q1：SHARP框架是什么？

A：SHARP是一個(gè)專門評(píng)估大型語言模型社會(huì)危害的新框架，它不像傳統(tǒng)方法只看平均表現(xiàn)，而是特別關(guān)注極端情況下的風(fēng)險(xiǎn)。就像體檢時(shí)不僅要看平均血壓，還要看血壓在壓力狀態(tài)下的極值表現(xiàn)。SHARP將社會(huì)危害分解為偏見、公平性、倫理對(duì)齊和認(rèn)知可靠性四個(gè)維度進(jìn)行評(píng)估。

Q2：為什么傳統(tǒng)的AI評(píng)估方法會(huì)遺漏重要風(fēng)險(xiǎn)？

A：傳統(tǒng)方法就像只看學(xué)生的期末平均分來判斷能力，會(huì)忽視偏科或在關(guān)鍵考試中的失誤。兩個(gè)AI模型可能平均表現(xiàn)相似，但其中一個(gè)在某些情況下會(huì)出現(xiàn)嚴(yán)重的歧視或錯(cuò)誤判斷。在醫(yī)療、金融等高風(fēng)險(xiǎn)應(yīng)用中，這些罕見但嚴(yán)重的失敗往往比平均表現(xiàn)更重要。

Q3：SHARP框架發(fā)現(xiàn)了什么重要結(jié)果？

A：研究發(fā)現(xiàn)看似表現(xiàn)相近的AI模型在極端風(fēng)險(xiǎn)上差異巨大，最高可達(dá)五倍差異。比如Claude Sonnet 4.5的尾部風(fēng)險(xiǎn)僅為1.69，而LLaMA-3 405B卻高達(dá)8.40。同時(shí)不同模型的主要風(fēng)險(xiǎn)源不同，有些主要是偏見問題，有些則是認(rèn)知可靠性問題，需要采用針對(duì)性的防護(hù)措施。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

具身智能狂飆，安全卻嚴(yán)重滯后？首個(gè)安全可信EAI框架與路線圖！

機(jī)器之心Pro 2025-09-17 10:53:27
0 跟貼 0
治好信貸AI的選擇困難癥

虎嗅APP 2026-01-13 18:29:18
0 跟貼 0

火到OpenClaw創(chuàng)始人跟前了！百度“養(yǎng)蝦全家桶”到底有多猛？

智東西 2026-03-14 18:18:26
1 跟貼 1

從AI焦慮，到AI指揮官：一個(gè)能讓你立即行動(dòng)的思考框架

虎嗅APP 2026-03-14 19:54:09
0 跟貼 0
自動(dòng)駕駛安全難題，被清華團(tuán)隊(duì)用一套“減法”破解了

DeepTech深科技 2026-03-14 21:17:08
0 跟貼 0

告別數(shù)字游戲，清潔機(jī)器人該回歸什么本質(zhì)？

36氪 2026-03-14 20:27:57
0 跟貼 0

夢(mèng)境是四維空間嗎？如果人類進(jìn)入四維世界，會(huì)發(fā)生什么事情？

觀察宇宙 2026-03-13 19:41:45
4 跟貼 4
重慶13歲街舞少年奪世界冠軍，備戰(zhàn)下屆奧運(yùn)會(huì)霹靂舞項(xiàng)目，“繼續(xù)為國(guó)爭(zhēng)光”

齊魯頻道 2026-03-14 11:00:44
0 跟貼 0

五彩斑斕的手鐲

六個(gè)小鈴鐺 2026-03-12 16:21:52
1 跟貼 1
拒絕與中俄選手合影！德國(guó)選手：無法將體育與政治分開

風(fēng)流女漢 2026-03-14 19:58:21
0 跟貼 0
金牌教父再娶三女徒，奧運(yùn)冠軍變農(nóng)婦，前程毀后報(bào)應(yīng)至

眾生的世界觀 2026-03-14 11:19:40
1 跟貼 1
法國(guó)奧運(yùn)開幕式引尷尬，法國(guó)網(wǎng)友自嘲

糖炒小栗子 2026-03-13 02:46:33
0 跟貼 0
加時(shí)破門+烏龍鎖定勝局！中國(guó)女足力擒中國(guó)臺(tái)北，達(dá)成亞洲杯征戰(zhàn)“最低目標(biāo)”

揚(yáng)子晚報(bào) 2026-03-14 20:44:18
0 跟貼 0
告別輪胎選品迷茫 ApexTire 重構(gòu)十大品牌參考維度

中國(guó)輪胎商務(wù)網(wǎng) 2026-03-11 13:48:49
0 跟貼 0
媒體:若穆杰塔巴公開露面顯得虛弱會(huì)嚴(yán)重打擊政權(quán)士氣

中國(guó)新聞周刊 2026-03-13 16:48:07
11883 跟貼 11883
張?zhí)m回京迅速?zèng)Q策，馬筱梅直播拆臺(tái)，汪小菲反應(yīng)吃驚

角落的隱藏美景 2026-03-13 05:53:46
2 跟貼 2
大爺看到“大媽”一個(gè)人推磨，笑嘻嘻的就想上前幫忙，網(wǎng)友：發(fā)現(xiàn)是假的笑容瞬間消失

甘州融媒 2026-03-12 16:38:43
2 跟貼 2
女子店鋪門前擺攤，店主說不聽把攤掀了，女子直接撿垃圾倒店門口

老三說笑 2026-03-12 16:16:08
1 跟貼 1
全世界都在想一個(gè)問題，中國(guó)的實(shí)力，到底有多強(qiáng)？

栗子生活醬 2026-03-14 14:09:54
0 跟貼 0
中方終于動(dòng)手了！大批貨輪空集裝箱離開巴拿馬，形勢(shì)緊張！

小魚二動(dòng)漫 2026-03-14 02:12:20
0 跟貼 0
媒體：美國(guó)海軍陸戰(zhàn)隊(duì)遠(yuǎn)征中東一個(gè)戰(zhàn)爭(zhēng)泥潭正在成型

新京報(bào)評(píng)論 2026-03-14 15:49:35
7507 跟貼 7507
老外和攤主講價(jià)，中國(guó)大爺一聽，直接一口答應(yīng)了！

快樂笑彈庫(kù) 2026-03-12 11:55:24
1 跟貼 1
揭秘破紙還原幻術(shù)你看懂了嗎

宮羽魔術(shù) 2026-03-11 23:07:08
0 跟貼 0
大爺稱花30萬裝天文望遠(yuǎn)鏡擺攤觀星被質(zhì)疑是幻燈片

橙薪視頻 2026-03-14 15:33:42
0 跟貼 0
原來上海的商場(chǎng)，扶梯是可以旋轉(zhuǎn)的，香奈兒和迪奧支配擺攤

新言生活 2026-03-11 10:58:13
0 跟貼 0
下回，投資有風(fēng)險(xiǎn)入市需謹(jǐn)慎

股漲日常 2026-03-14 09:21:26
0 跟貼 0
黑天鵝帶著幼崽覓食，身后還跟著一群錦鯉

南陽日?qǐng)?bào) 2026-03-12 19:18:19
7 跟貼 7
日本拒絕美要求？為何說高市錯(cuò)過出兵海外機(jī)會(huì)卻凸顯出明智決策？

漢字筆跡心理分析 2026-03-14 02:45:06
0 跟貼 0
主播秀的是高端，你收的是地?cái)?，網(wǎng)購(gòu) “AB 貨” 從哪來

界面新聞 2026-03-14 08:01:04
280 跟貼 280
中美經(jīng)貿(mào)談判定檔！美國(guó)故意選在法國(guó)，背后竟藏著這樣的算計(jì)！

老颯觀世界 2026-03-13 17:51:11
0 跟貼 0
為什么冬奧運(yùn)會(huì)，會(huì)免費(fèi)發(fā)放避孕套？聽聽醫(yī)生咋說的

爆笑無極限 2026-03-13 08:56:10
1 跟貼 1
奧運(yùn)會(huì)上芭蕾遇上嘻哈，竟意外的和諧，表現(xiàn)出了性向美雌性美！

云邸光看點(diǎn) 2026-03-10 16:57:28
0 跟貼 0
古玩地?cái)傮@現(xiàn)“明代竹節(jié)劍”無人問津，小伙怕攤主反悔立馬付款跑

秋Tian動(dòng)漫 2026-03-14 08:27:29
0 跟貼 0
美軍是在系統(tǒng)性衰退嗎？一邊被爆龍蝦門，一邊福特號(hào)航母著火！

無我漂佩MY 2026-03-14 08:03:47
0 跟貼 0
以色列有個(gè)要命的軟肋——糧食

角落的隱藏美景 2026-03-14 04:52:56
0 跟貼 0
職場(chǎng)高手很少抱怨，因?yàn)橛羞@三種能力

教育思享 2026-03-10 20:45:33
2 跟貼 2
這招真絕了！用魔法打敗魔法，伊朗向美國(guó)人喊話：奪回自己的家園

奇趣放大鏡 2026-03-12 13:57:05
0 跟貼 0
剛火3個(gè)月，第一批餛飩酒館已經(jīng)開始關(guān)店了？

藍(lán)鯨新聞 2026-03-13 16:32:44
17 跟貼 17
河北一景區(qū)官宣：全國(guó)游客免門票！

大象新聞 2026-03-14 13:01:01
71 跟貼 71
空姐的工資有多少，看完真不敢相信，空姐多拿沒毛病工作有風(fēng)險(xiǎn)

嗡嗡生活說 2026-03-14 09:10:43
0 跟貼 0

中超巨大爭(zhēng)議！楊皓宇染紅離場(chǎng)，媒體人集體開炮：主裁莫名其妙

中超巨大爭(zhēng)議！楊皓宇染紅離場(chǎng)，媒體人集體開炮：主裁莫名其妙

奧拜爾

2026-03-14 17:40:57

震驚！3.15億暴利！中資券商幫外資做空自己人，這是最扎心的真相

震驚！3.15億暴利！中資券商幫外資做空自己人，這是最扎心的真相

火山詩話

2026-03-14 11:30:05

七旬翁直播間買了81箱酒，支付113筆花掉8.3萬，還收到7部手機(jī)認(rèn)為是“三無”產(chǎn)品，要求“退一賠三”

七旬翁直播間買了81箱酒，支付113筆花掉8.3萬，還收到7部手機(jī)認(rèn)為是“三無”產(chǎn)品，要求“退一賠三”

大風(fēng)新聞

2026-03-14 10:10:23

以防長(zhǎng)說與伊朗沖突進(jìn)入“決定性階段”

以防長(zhǎng)說與伊朗沖突進(jìn)入“決定性階段”

界面新聞

2026-03-14 19:09:07

男子網(wǎng)購(gòu)小皮卡卻收到超大“老頭樂”，宣傳的300公里續(xù)航變32公里，車牌假的，合格證假的，銷售也聯(lián)系不上

男子網(wǎng)購(gòu)小皮卡卻收到超大“老頭樂”，宣傳的300公里續(xù)航變32公里，車牌假的，合格證假的，銷售也聯(lián)系不上

觀威海

2026-03-14 14:51:02

“死”了7年的愛潑斯坦還活著？被人拍到駕駛豪車，在美國(guó)公路上悠然兜風(fēng)

“死”了7年的愛潑斯坦還活著？被人拍到駕駛豪車，在美國(guó)公路上悠然兜風(fēng)

不掉線電波

2026-03-14 16:51:20

全紅嬋被“罵”上熱搜！參加某品牌活動(dòng)，竟然連她穿的衣服也火了

全紅嬋被“罵”上熱搜！參加某品牌活動(dòng)，竟然連她穿的衣服也火了

火山詩話

2026-03-14 07:43:17

不要捏！不要踩！上海街頭小區(qū)正大量出現(xiàn)！不少人吐槽：苦不堪言！

不要捏！不要踩！上海街頭小區(qū)正大量出現(xiàn)！不少人吐槽：苦不堪言！

上觀新聞

2026-03-14 18:26:20

食品安全到底誰守護(hù)，21噸凍干草莓檢出劇毒農(nóng)藥，到底誰最毒

食品安全到底誰守護(hù)，21噸凍干草莓檢出劇毒農(nóng)藥，到底誰最毒

西樓知趣雜談

2026-03-14 16:15:52

哎！又一個(gè)賽季報(bào)銷的??！右腳趾籽骨切除

哎！又一個(gè)賽季報(bào)銷的?。∮夷_趾籽骨切除

柚子說球

2026-03-14 07:47:31

廣東一女子在天臺(tái)曬枕頭，結(jié)果枕頭下聚了密密麻麻一窩蜜蜂，養(yǎng)蜂人：是蜜蜂在分家

廣東一女子在天臺(tái)曬枕頭，結(jié)果枕頭下聚了密密麻麻一窩蜜蜂，養(yǎng)蜂人：是蜜蜂在分家

環(huán)球網(wǎng)資訊

2026-03-14 18:28:06

中國(guó)臺(tái)北女足日程表上寫著：打倒中國(guó)隊(duì)，前進(jìn)世界杯

中國(guó)臺(tái)北女足日程表上寫著：打倒中國(guó)隊(duì)，前進(jìn)世界杯

懂球帝

2026-03-14 12:25:09

主動(dòng)辭職女籃？宮魯鳴發(fā)聲，耐人尋味，籃協(xié)回應(yīng)，媒體人怒了

主動(dòng)辭職女籃？宮魯鳴發(fā)聲，耐人尋味，籃協(xié)回應(yīng)，媒體人怒了

萌蘭聊個(gè)球

2026-03-14 14:28:11

巴拿馬急了：中遠(yuǎn)海運(yùn)，恢復(fù)運(yùn)營(yíng)吧

巴拿馬急了：中遠(yuǎn)海運(yùn)，恢復(fù)運(yùn)營(yíng)吧

觀察者網(wǎng)

2026-03-14 09:24:05

女籃首節(jié)壓制南蘇丹！羅欣棫攻守兼?zhèn)?，多人發(fā)揮，李月汝犯規(guī)麻煩

女籃首節(jié)壓制南蘇丹！羅欣棫攻守兼?zhèn)洌嗳税l(fā)揮，李月汝犯規(guī)麻煩

籃球資訊達(dá)人

2026-03-14 19:54:05

中國(guó)女足為何戰(zhàn)勝中國(guó)臺(tái)北賽后王霜毫不客氣說出原因說的很實(shí)在

中國(guó)女足為何戰(zhàn)勝中國(guó)臺(tái)北賽后王霜毫不客氣說出原因說的很實(shí)在

籃球看比賽

2026-03-14 17:06:54

女籃半場(chǎng)碾壓南蘇丹！羅欣棫+2內(nèi)齊發(fā)揮，2首發(fā)后場(chǎng)亮眼！

女籃半場(chǎng)碾壓南蘇丹！羅欣棫+2內(nèi)齊發(fā)揮，2首發(fā)后場(chǎng)亮眼！

籃球資訊達(dá)人

2026-03-14 20:19:01

中方終于動(dòng)手，大批貨輪空集裝箱離開，巴媒：中資撤離或重創(chuàng)經(jīng)濟(jì)

中方終于動(dòng)手，大批貨輪空集裝箱離開，巴媒：中資撤離或重創(chuàng)經(jīng)濟(jì)

一簌月光

2026-03-14 10:42:06

重慶冠軍賽大冷門！王楚欽2-4不敵松島輝空，爆冷無緣男單四強(qiáng)

重慶冠軍賽大冷門！王楚欽2-4不敵松島輝空，爆冷無緣男單四強(qiáng)

全景體育V

2026-03-14 20:48:25

美國(guó)海軍陸戰(zhàn)隊(duì)遠(yuǎn)征波斯灣，有三個(gè)可能的目標(biāo) | 京釀館

美國(guó)海軍陸戰(zhàn)隊(duì)遠(yuǎn)征波斯灣，有三個(gè)可能的目標(biāo) | 京釀館

新京報(bào)評(píng)論

2026-03-14 15:49:35

科技正在如何變革商業(yè)世界

7585文章數(shù) 555關(guān)注度

往期回顧全部

科技要聞

xAI創(chuàng)始伙伴只剩兩人！馬斯克“痛改前非”

頭條要聞

伊朗“命根子”遭到中東史上最大轟炸特朗普表態(tài)

頭條要聞

伊朗“命根子”遭到中東史上最大轟炸特朗普表態(tài)

體育要聞

NBA唯一巴西球員，增重20KG頂內(nèi)線

娛樂要聞

張藝興，犯了大忌

財(cái)經(jīng)要聞

3·15影子暗訪｜神秘的“特供酒”

汽車要聞

吉利銀河M7技術(shù)首秀實(shí)力重構(gòu)主流電混SUV

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

時(shí)尚

親子

數(shù)碼

軍事航空

教育要聞

“終于不用為站崗請(qǐng)假了！”已有學(xué)校取消“家長(zhǎng)護(hù)學(xué)崗”引發(fā)熱議！

年年都流行的帆布鞋，今年這樣穿酷極了！

親子要聞

美國(guó)孕產(chǎn)革命，黑人父親爭(zhēng)當(dāng)陪產(chǎn)員，醫(yī)療系統(tǒng)終于低頭認(rèn)錯(cuò)

數(shù)碼要聞

老外擴(kuò)容成功！蘋果MacBook Neo升級(jí)1TB 果粉調(diào)侃：全新僅大修

軍事要聞

特朗普宣布空襲伊石油出口樞紐哈爾克島

© 1997-2026 網(wǎng)易公司版權(quán)所有 About NetEase | 公司簡(jiǎn)介 | 聯(lián)系方法 | 招聘信息 | 客戶服務(wù) | 隱私政策 | 不良信息舉報(bào) Complaint Center | 廉正舉報(bào) | 侵權(quán)投訴

無障礙瀏覽進(jìn)入關(guān)懷版

<s id="sqmms"><thead id="sqmms"></thead></s>

<big id="sqmms"><em id="sqmms"><fieldset id="sqmms"></fieldset></em></big>

<small id="sqmms"><thead id="sqmms"></thead></small>

<td id="sqmms"><b id="sqmms"></b></td><u id="sqmms"><thead id="sqmms"></thead></u>