国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

VideoDB突破:AI模型思考過(guò)程實(shí)現(xiàn)透明化揭示能力提升

0
分享至


這項(xiàng)由VideoDB工程團(tuán)隊(duì)完成的研究,以預(yù)印本形式發(fā)布于2026年4月,論文編號(hào)為arXiv:2604.11177,感興趣的讀者可通過(guò)該編號(hào)查閱完整論文。

當(dāng)你問(wèn)一個(gè)人"2加2等于幾",他可能脫口而出"4"。但如果你問(wèn)"請(qǐng)解釋一下為什么黑洞會(huì)扭曲時(shí)空",他大概需要先在腦海里轉(zhuǎn)幾圈,整理思路,再開口作答?,F(xiàn)代AI大模型其實(shí)也有類似的機(jī)制——在給出最終答案之前,它會(huì)先進(jìn)行一段"內(nèi)心獨(dú)白",把自己的推理過(guò)程一步步寫下來(lái),然后再把這些思考濃縮成最終的回答。

這段內(nèi)心獨(dú)白,研究團(tuán)隊(duì)稱之為"思維流"(Thought Stream)。問(wèn)題來(lái)了:這段獨(dú)白真的有用嗎?它里面都是真正有價(jià)值的分析,還是大量的廢話和自言自語(yǔ)?模型最終的回答,忠實(shí)反映了它的思考過(guò)程嗎?還是說(shuō),它思考了一堆,最后輸出的卻是另一套?

VideoDB的工程師們決定認(rèn)真研究這個(gè)問(wèn)題。他們拿來(lái)了谷歌最新的Gemini 2.5系列模型,讓這些模型處理從100小時(shí)視頻中提取的海量場(chǎng)景,然后一幀一幀地"解剖"模型的思維流,看看里面究竟藏著什么。

一、偵探的筆記本:什么是"思維流",為什么要研究它

把AI模型比作一位偵探來(lái)破案,是理解這項(xiàng)研究最直觀的方式。這位偵探接到任務(wù)后,會(huì)先在自己的筆記本上記錄觀察到的線索、推斷的邏輯、排除的可能性,最后整理出一份正式的案情報(bào)告交給委托人。

"思維流"就是這本筆記,而模型最終輸出的結(jié)構(gòu)化JSON數(shù)據(jù)(包含場(chǎng)景中的人物、動(dòng)作、場(chǎng)景、情緒等標(biāo)簽)就是那份正式報(bào)告。

研究團(tuán)隊(duì)關(guān)注的核心問(wèn)題有三個(gè)。第一,筆記本里的內(nèi)容有多少是真正有用的線索,有多少是偵探在自言自語(yǔ)、反復(fù)絮叨"我現(xiàn)在要開始分析了,我需要仔細(xì)思考一下"這類廢話?第二,筆記本里記錄的線索,有多少最終出現(xiàn)在了正式報(bào)告里?有沒有偵探在筆記里寫了很多,但報(bào)告里卻完全沒提到的情況?第三,報(bào)告里提到的內(nèi)容,是否都能在筆記本里找到對(duì)應(yīng)的來(lái)源?還是說(shuō)偵探在寫報(bào)告時(shí)憑空捏造了一些從未調(diào)查過(guò)的"證據(jù)"?

這三個(gè)問(wèn)題對(duì)應(yīng)了研究團(tuán)隊(duì)設(shè)計(jì)的三個(gè)核心評(píng)估指標(biāo),后面會(huì)詳細(xì)展開。

二、偵探團(tuán)隊(duì)與調(diào)查現(xiàn)場(chǎng):實(shí)驗(yàn)設(shè)計(jì)

這次調(diào)查的規(guī)模相當(dāng)可觀。研究團(tuán)隊(duì)使用VideoDB平臺(tái),將約100小時(shí)的視頻切割成一個(gè)個(gè)獨(dú)立的場(chǎng)景片段,涵蓋了37種不同的視覺風(fēng)格——從2D/3D動(dòng)畫、電影級(jí)敘事片段、紀(jì)錄片,到游戲直播、現(xiàn)場(chǎng)演唱會(huì)、運(yùn)動(dòng)賽事錄像、監(jiān)控畫面、社交媒體短視頻、Vlog,乃至復(fù)古膠片風(fēng)格,幾乎涵蓋了當(dāng)今主流內(nèi)容生產(chǎn)的全部類型。內(nèi)容領(lǐng)域橫跨38個(gè)不同類別,包括娛樂(lè)、體育、新聞、教育、美食烹飪、音樂(lè)表演、戲劇、喜劇、真人秀、游戲、企業(yè)宣傳、旅行Vlog和兒童內(nèi)容等。從畫面質(zhì)量分布來(lái)看,約64%屬于高質(zhì)量專業(yè)制作內(nèi)容,34%為中等質(zhì)量,僅有約2%為低質(zhì)量。

每個(gè)場(chǎng)景以每秒1幀的速度抽取畫面,最多保留10幀。模型在處理每個(gè)場(chǎng)景時(shí),完全獨(dú)立運(yùn)作,不會(huì)參考其他場(chǎng)景的信息。

調(diào)查任務(wù)交給了四個(gè)版本的Gemini 2.5模型,可以把它們理解為同一家偵探事務(wù)所旗下的四位偵探,能力層次和工作風(fēng)格各有不同。Flash版是事務(wù)所的資深偵探,而Flash Lite是經(jīng)驗(yàn)稍淺的助理偵探。更關(guān)鍵的區(qū)別在于給每位偵探分配的"思考時(shí)間",也就是允許他們?cè)诠P記本上寫多少字的推理過(guò)程。Flash-128版本只有105個(gè)思考詞的平均預(yù)算,相當(dāng)于讓偵探在極度緊張的時(shí)間壓力下速戰(zhàn)速?zèng)Q;Flash-Dynamic版本沒有限制,可以想多久寫多久,平均用了1021個(gè)思考詞;Lite-512版本給了助理偵探約366個(gè)思考詞的空間;Lite-1024版本則給了約718個(gè)思考詞的余地。

四位偵探處理所有場(chǎng)景后,總共產(chǎn)生了超過(guò)9.3萬(wàn)份場(chǎng)景級(jí)分析結(jié)果,為這次研究提供了極其豐富的數(shù)據(jù)基礎(chǔ)。

三、拆解筆記本:三把衡量"思維流"質(zhì)量的尺子

研究團(tuán)隊(duì)設(shè)計(jì)了三個(gè)評(píng)估指標(biāo),像三把不同用途的工具,從不同角度度量思維流的質(zhì)量。

第一把工具叫"內(nèi)容豐富度"(Contentfulness),專門測(cè)量筆記本里有多少是真正有價(jià)值的場(chǎng)景描述,有多少是無(wú)意義的自言自語(yǔ)。具體操作方式是:先用一組規(guī)則把所有"元評(píng)論"句子過(guò)濾掉——所謂元評(píng)論,就是"我現(xiàn)在要分析這段視頻"、"讓我一步一步思考"、"我需要考慮JSON格式"這類話,它們描述的是偵探自己的工作流程,而不是案發(fā)現(xiàn)場(chǎng)的任何實(shí)際信息。過(guò)濾完之后,再用自然語(yǔ)言處理工具(NLTK詞性標(biāo)注)統(tǒng)計(jì)剩余文字里有多少是真正的名詞和動(dòng)詞——也就是"女人"、"木質(zhì)桌子"、"打字"、"筆記本電腦"、"辦公室"這樣的實(shí)質(zhì)性內(nèi)容詞匯。最終得出的比值就是內(nèi)容豐富度分?jǐn)?shù),越高說(shuō)明筆記本里的干貨越多,廢話越少。

舉個(gè)具體的例子:假如偵探的筆記本里有一句"讓我仔細(xì)分析這個(gè)場(chǎng)景",以及一句"一位年輕女性坐在木質(zhì)書桌前,在明亮的辦公室里用一臺(tái)銀色筆記本電腦打字"。第一句是廢話,直接刪掉。第二句里,"女性"、"書桌"、"辦公室"、"筆記本電腦"是名詞,"坐"、"打字"是動(dòng)詞,這些才是真正有價(jià)值的內(nèi)容詞。如果整段筆記共有20個(gè)詞,其中6個(gè)是內(nèi)容詞,內(nèi)容豐富度就是0.30分。

第二把工具叫"思維-最終輸出覆蓋度"(Thought-Final Coverage),分為兩個(gè)子指標(biāo),共同衡量筆記本和正式報(bào)告之間的吻合程度。

"思維覆蓋率"(Thought Coverage)回答的是:偵探在筆記里記錄的所有線索,最終有多少進(jìn)入了正式報(bào)告?如果筆記里寫了六條線索,報(bào)告里只提到了五條,思維覆蓋率就是5/6。這個(gè)指標(biāo)低,意味著偵探調(diào)查了很多,但很多發(fā)現(xiàn)被丟在了筆記本里,沒有轉(zhuǎn)化為最終結(jié)論。

"輸出扎根度"(Output Grounding)回答的是:正式報(bào)告里提到的每一條信息,有多少能在筆記本里找到來(lái)源?如果報(bào)告里寫了六條信息,其中五條在筆記里有據(jù)可查,第六條完全是憑空出現(xiàn)的,輸出扎根度就是5/6。這個(gè)指標(biāo)低,意味著偵探在寫報(bào)告時(shí)"發(fā)揮"了——把從未調(diào)查過(guò)的內(nèi)容寫進(jìn)了報(bào)告,這就是研究團(tuán)隊(duì)所定義的"壓縮步驟幻覺"(Compression-Step Hallucination)。

這兩個(gè)指標(biāo)合并后會(huì)計(jì)算一個(gè)F1綜合分?jǐn)?shù),可以把它理解為筆記本和報(bào)告之間的"契合度總分"。整個(gè)評(píng)分過(guò)程由GPT-5擔(dān)任獨(dú)立裁判,通過(guò)多層次的模糊匹配算法(先精確匹配,再考慮詞序不同但詞匯相同的情況,最后考慮部分包含關(guān)系)來(lái)判斷筆記中的某條內(nèi)容是否對(duì)應(yīng)報(bào)告中的某條內(nèi)容。

第三把工具叫"主導(dǎo)實(shí)體分析"(Dominant Entity Analysis),追蹤每個(gè)場(chǎng)景中最突出的主體(是誰(shuí))、動(dòng)作(在做什么)和場(chǎng)景(在哪里)。這個(gè)工具專門用來(lái)發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象:當(dāng)偵探時(shí)間不夠用時(shí),他是否會(huì)用"有人"這個(gè)模糊表述來(lái)敷衍了事,而不是具體說(shuō)出"是一位廚師"還是"是一名游戲主播"?

四、揭秘調(diào)查結(jié)果:四位偵探的表現(xiàn)對(duì)比

調(diào)查結(jié)果出來(lái)后,最直接的總結(jié)是:給偵探足夠的思考時(shí)間,他就能寫出更忠實(shí)、更準(zhǔn)確的報(bào)告;但這種改善存在明顯的邊際遞減效應(yīng)——時(shí)間從極度緊張變?yōu)槌湓V?,質(zhì)量飛速提升,但時(shí)間從充裕變?yōu)楦湓V螅嵘染驮絹?lái)越小了。

Flash-128版本(平均僅105個(gè)思考詞)表現(xiàn)最差,F(xiàn)1綜合分?jǐn)?shù)只有0.83。更糟糕的是,它的輸出扎根度只有0.767,換句話說(shuō),在它最終報(bào)告里出現(xiàn)的內(nèi)容中,大約有四分之一是從未在筆記本中出現(xiàn)過(guò)的——它在寫報(bào)告時(shí)"臨場(chǎng)發(fā)揮"了相當(dāng)多的內(nèi)容,這正是"壓縮步驟幻覺"最典型的表現(xiàn)。

Flash-Dynamic版本(無(wú)限制,平均1021個(gè)思考詞)表現(xiàn)優(yōu)秀,F(xiàn)1達(dá)到0.957,輸出扎根度提升到0.964,說(shuō)明幾乎所有報(bào)告內(nèi)容都能在筆記本中找到來(lái)源。

Lite-512版本(平均366個(gè)思考詞)的表現(xiàn)令人驚喜,F(xiàn)1達(dá)到0.942,遠(yuǎn)超預(yù)期,思維覆蓋率和輸出扎根度分別達(dá)到0.940和0.948,已經(jīng)非常接近高配版本的水準(zhǔn)。

Lite-1024版本(平均718個(gè)思考詞)則摘得綜合最優(yōu)桂冠,F(xiàn)1 0.959,輸出扎根度0.966,完美得分率(F1滿分場(chǎng)景比例)達(dá)到64.3%,低分率(F1低于0.5的場(chǎng)景比例)僅有0.2%。更重要的是,它實(shí)現(xiàn)這一切只用了約2918個(gè)總token,而Flash-Dynamic需要約3258個(gè),相當(dāng)于用更少的資源達(dá)到了同等甚至更好的效果。

穩(wěn)定性方面,F(xiàn)lash-128的表現(xiàn)極不穩(wěn)定,變異系數(shù)(衡量穩(wěn)定性的指標(biāo),數(shù)值越低越穩(wěn)定)高達(dá)0.282,意味著同樣的模型在不同場(chǎng)景下的表現(xiàn)差異很大。相比之下,Lite-1024的變異系數(shù)只有0.082,表現(xiàn)極為穩(wěn)定可預(yù)期,是生產(chǎn)環(huán)境中最值得信賴的選擇。

五、質(zhì)量提升的"邊際遞減":多思考未必等比收益

把四種配置按照思考詞數(shù)從少到多排列,可以看到一條很有意思的曲線。從Flash-128(105詞)跳到Lite-512(366詞),F(xiàn)1從0.83驟升至0.942,這是一個(gè)相當(dāng)顯著的提升,花了約261個(gè)額外思考詞換來(lái)了超過(guò)11個(gè)百分點(diǎn)的質(zhì)量改善。

然而,從Lite-512(366詞)跳到Lite-1024(718詞),幾乎翻倍的思考詞預(yù)算,換來(lái)的F1提升僅有約0.017。而Flash-Dynamic(1021詞)雖然比Lite-1024多用了約40%的思考詞,最終F1反而略低于Lite-1024(0.957對(duì)比0.959)。

這個(gè)"思考越多,邊際收益越低"的現(xiàn)象在實(shí)踐中有重要啟示意義:對(duì)于大量視頻內(nèi)容的工業(yè)化處理,一味追求最高思考預(yù)算并非最優(yōu)策略,找到質(zhì)量與成本的最佳平衡點(diǎn)才是關(guān)鍵。研究團(tuán)隊(duì)明確指出,超過(guò)約700個(gè)思考詞之后,額外思考帶來(lái)的收益在他們的數(shù)據(jù)集上已經(jīng)相當(dāng)微薄。

內(nèi)容豐富度的表現(xiàn)則截然不同,它隨著思考詞數(shù)增加幾乎呈線性增長(zhǎng)。從Flash-128的0.323一路提升至Flash-Dynamic的0.594。這說(shuō)明更多的思考時(shí)間確實(shí)讓模型寫出了更多實(shí)質(zhì)性的場(chǎng)景描述,但這種"質(zhì)量提升"并不完全等同于最終輸出質(zhì)量的提升——多寫并不總是意味著最終報(bào)告更好。

六、最出乎意料的發(fā)現(xiàn):兩個(gè)級(jí)別的偵探,寫出了幾乎一模一樣的筆記

研究中最令人意外的發(fā)現(xiàn),或許是Flash和Flash Lite這兩個(gè)"不同級(jí)別"的模型,它們寫出的思維流內(nèi)容驚人地相似。

研究團(tuán)隊(duì)設(shè)計(jì)了一項(xiàng)專門的相似度測(cè)試:讓GPT-5逐場(chǎng)景對(duì)比不同模型的思維流內(nèi)容,打出0到1的相似度分?jǐn)?shù)。結(jié)果顯示,F(xiàn)lash Dynamic與Lite 1024之間的思維流相似度為0.887,F(xiàn)lash 128與Lite 1024的相似度也有0.885。而同一個(gè)模型的兩個(gè)不同預(yù)算版本之間(比如Lite 1024與Lite 512),相似度也只有0.905,與跨級(jí)別對(duì)比的差距非常小。

換句話說(shuō),資深偵探和助理偵探在各自的筆記本上記錄的,幾乎是同樣的線索。兩者"想的東西"高度一致。

不過(guò),這兩位偵探的筆記風(fēng)格有明顯差異。Flash(資深偵探)喜歡在筆記里大量寫下自己的工作思路,比如"我需要先識(shí)別畫面中的主要人物,然后分析他們的動(dòng)作,再判斷場(chǎng)景類型……"。而Flash Lite(助理偵探)則更直接,跳過(guò)這些工作流程的描述,直接寫下場(chǎng)景內(nèi)容:"畫面中有一位中年男性,身穿白色廚師服,正在切菜,背景是一間現(xiàn)代化廚房。"

這種風(fēng)格差異正好解釋了為什么在相同的思考詞預(yù)算下,Lite版本的內(nèi)容豐富度更高——它把同樣的"筆記紙"用來(lái)記錄了更多實(shí)際有用的內(nèi)容,而不是記錄自己的工作流程。這也是為什么Lite版本能以更少的token達(dá)到相當(dāng)甚至更好的輸出質(zhì)量。

研究團(tuán)隊(duì)還特別做了一個(gè)"重跑測(cè)試":把同一批視頻用Flash Dynamic跑兩遍,看兩次的思維流相似度。結(jié)果是0.893,與跨級(jí)別對(duì)比的相似度(0.887)幾乎相差無(wú)幾。這個(gè)發(fā)現(xiàn)頗為有趣:不同級(jí)別模型之間的差異,甚至不比同一個(gè)模型兩次運(yùn)行之間的差異大多少。在兩次重跑中保持穩(wěn)定的內(nèi)容,主要是品牌名稱、Logo、文字識(shí)別和物體識(shí)別;而容易發(fā)生變化的,則是情緒判斷和地點(diǎn)描述。

七、當(dāng)筆記太簡(jiǎn)短:壓縮步驟幻覺與主體識(shí)別偏差

Flash-128的低輸出扎根度揭示了一個(gè)值得深入討論的現(xiàn)象。當(dāng)模型被強(qiáng)迫在極短的思考空間里完成分析,筆記本里的內(nèi)容太少,不足以支撐一份完整的結(jié)構(gòu)化報(bào)告時(shí),它在"把筆記整理成報(bào)告"的壓縮步驟中,會(huì)憑空填入一些從未在筆記里出現(xiàn)過(guò)的內(nèi)容。

這并不意味著這些內(nèi)容一定是錯(cuò)誤的——也許模型在"筆記本之外"還有某種更深層的認(rèn)知,只是沒有顯式地寫在思維流里。但從用戶和系統(tǒng)設(shè)計(jì)者的角度來(lái)看,這種行為是危險(xiǎn)的:思維流作為可追溯的"推理依據(jù)"失去了可信度,輸出內(nèi)容中有相當(dāng)比例無(wú)法在推理過(guò)程中找到來(lái)源,給審核和修正帶來(lái)很大困難。

隨著思考預(yù)算的增加,這個(gè)問(wèn)題顯著改善。給模型足夠的思考空間,讓它建立一份詳盡的筆記,在最終整理報(bào)告時(shí)就不需要"填空"了,輸出內(nèi)容和推理過(guò)程的對(duì)應(yīng)關(guān)系變得清晰而可靠。

另一個(gè)與思考預(yù)算相關(guān)的現(xiàn)象是主體識(shí)別的精確度。Flash-128版本在約15%的場(chǎng)景中,把畫面中最突出的人物標(biāo)注為"person"(人)這個(gè)極其模糊的標(biāo)簽,而Flash-Dynamic版本這個(gè)比例只有約8%。Lite系列也有類似規(guī)律:Lite-512約有13%的場(chǎng)景用"person"標(biāo)注主體,Lite-1024則降至約11%。

這說(shuō)明當(dāng)思考空間充裕時(shí),模型更有可能識(shí)別出具體的角色身份——它會(huì)告訴你畫面里的是"游戲主播"、"廚師"、"貓",而不是敷衍地說(shuō)"有個(gè)人"。在視頻內(nèi)容的實(shí)際應(yīng)用場(chǎng)景中,這種具體性的差異對(duì)于搜索、推薦、內(nèi)容標(biāo)簽等下游任務(wù)有直接影響。

八、研究的邊界與未竟之事

研究團(tuán)隊(duì)對(duì)自己工作的局限性有著清醒認(rèn)識(shí)。整套評(píng)估體系衡量的是思維流與最終輸出之間的內(nèi)部一致性,而非與真實(shí)世界的符合程度。換句話說(shuō),一個(gè)偵探可以寫出前后完全一致、邏輯自洽的筆記和報(bào)告,但這份報(bào)告對(duì)案件的描述完全是錯(cuò)誤的——高度的內(nèi)部一致性并不等于高度的準(zhǔn)確性。

此外,評(píng)分裁判GPT-5本身也可能存在系統(tǒng)性偏差,目前還沒有用多個(gè)不同的裁判模型進(jìn)行交叉驗(yàn)證。數(shù)據(jù)集方面,所有場(chǎng)景都以每秒1幀、最多10幀的方式處理,這對(duì)于分析時(shí)間跨度較長(zhǎng)的連續(xù)動(dòng)作、多場(chǎng)景敘事結(jié)構(gòu)或長(zhǎng)篇影視的情節(jié)發(fā)展來(lái)說(shuō)明顯不夠。

研究團(tuán)隊(duì)列出了不少值得繼續(xù)探索的方向:引入人工標(biāo)注的真實(shí)標(biāo)準(zhǔn),把內(nèi)部一致性與外部準(zhǔn)確性分開測(cè)量;擴(kuò)展到OpenAI、Anthropic以及各類開源模型,看看這些規(guī)律是否普遍適用;進(jìn)行更細(xì)粒度的預(yù)算掃描(從64到2048 token),繪制更精確的質(zhì)量-成本曲線;加入延遲和實(shí)際費(fèi)用的分析;針對(duì)醫(yī)療、體育、安防等特定領(lǐng)域進(jìn)行專項(xiàng)評(píng)估;以及更大規(guī)模的確定性測(cè)試,深入了解哪類信息是模型的"穩(wěn)定認(rèn)知",哪類是容易飄忽的"不確定判斷"。

說(shuō)到底,這項(xiàng)研究告訴我們,AI模型的"內(nèi)心獨(dú)白"確實(shí)有價(jià)值,但這個(gè)價(jià)值是有門檻的——思考太少,報(bào)告就會(huì)摻入從未思考過(guò)的內(nèi)容;思考足夠多,質(zhì)量就能快速達(dá)到不錯(cuò)的水平;但瘋狂追加思考預(yù)算,收益的增幅會(huì)越來(lái)越小。對(duì)于大規(guī)模視頻處理這樣的實(shí)際應(yīng)用場(chǎng)景,Lite 1024是目前最佳的性價(jià)比選擇:最低的錯(cuò)誤率、最高的完美場(chǎng)景比例、最穩(wěn)定的表現(xiàn),同時(shí)比頂配版本便宜約10%。

歸根結(jié)底,F(xiàn)lash和Flash Lite的思維流內(nèi)容如此相似這一發(fā)現(xiàn),或許是整篇研究中最耐人尋味的一點(diǎn)——模型的"級(jí)別"決定的不是它思考什么,而是它如何表達(dá)自己的思考過(guò)程。這對(duì)于AI開發(fā)和部署來(lái)說(shuō)是一個(gè)很有價(jià)值的參考信號(hào)。對(duì)這一課題有進(jìn)一步研究興趣的讀者,可通過(guò)arXiv編號(hào)2604.11177查閱完整論文,代碼也已在GitHub的video-db/gemini-reasoning-eval倉(cāng)庫(kù)開源。

Q&A

Q1:什么是"壓縮步驟幻覺",它在視頻理解中會(huì)造成什么問(wèn)題?

A:壓縮步驟幻覺是指AI模型在將內(nèi)部思考過(guò)程整理成最終輸出報(bào)告時(shí),報(bào)告里出現(xiàn)了思考過(guò)程中從未提到過(guò)的內(nèi)容。Flash-128配置下大約每四條輸出信息中就有一條屬于這種情況。在視頻內(nèi)容管理場(chǎng)景中,這會(huì)導(dǎo)致元數(shù)據(jù)標(biāo)簽無(wú)法溯源,給內(nèi)容審核和質(zhì)量控制帶來(lái)困難,因?yàn)橛脩魺o(wú)法判斷這些無(wú)法追溯的內(nèi)容是真實(shí)識(shí)別到的還是模型自行填充的。

Q2:Gemini Flash和Flash Lite的思維流為什么會(huì)如此相似?

A:根據(jù)這項(xiàng)研究,兩者的思維流內(nèi)容相似度約為0.88,與同一模型兩次運(yùn)行之間的相似度(0.893)相差無(wú)幾。研究推測(cè)這是因?yàn)閮蓚€(gè)模型層級(jí)共享相近的底層推理模式,真正的差別在于表達(dá)風(fēng)格——Flash更傾向于描述自己的推理步驟,Lite更傾向于直接描述場(chǎng)景內(nèi)容,這也解釋了為何Lite在相同token預(yù)算下能產(chǎn)出更多有效內(nèi)容。

Q3:Gemini 2.5視頻場(chǎng)景理解中,思考token數(shù)量超過(guò)多少之后收益就開始明顯下降?

A:根據(jù)這項(xiàng)研究的數(shù)據(jù),大約在700個(gè)思考token左右,質(zhì)量提升開始明顯放緩。從105個(gè)token(Flash-128)跳到366個(gè)token(Lite-512)帶來(lái)了超過(guò)11個(gè)百分點(diǎn)的F1提升,但從366個(gè)token增加到718個(gè)token(Lite-1024)只帶來(lái)了約1.7個(gè)百分點(diǎn)的提升,而從718個(gè)繼續(xù)增加到1021個(gè)token(Flash-Dynamic)的F1反而略低于Lite-1024。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
繼續(xù)破紀(jì)錄,72小時(shí)訂單超10萬(wàn):比亞迪大唐這次會(huì)動(dòng)M9的蛋糕嗎?

繼續(xù)破紀(jì)錄,72小時(shí)訂單超10萬(wàn):比亞迪大唐這次會(huì)動(dòng)M9的蛋糕嗎?

藍(lán)色海邊
2026-04-28 14:24:53
刻不容緩!中央政治局定調(diào),釋放大信號(hào)!看清大局,中國(guó)全面出手!

刻不容緩!中央政治局定調(diào),釋放大信號(hào)!看清大局,中國(guó)全面出手!

互聯(lián)網(wǎng)思想
2026-04-28 23:24:38
美股三大指數(shù)集體收跌,道指跌0.06%,納指跌0.9%,標(biāo)普500指數(shù)跌0.49%,熱門科技股多數(shù)下跌,博通跌超4%,英偉達(dá)跌超1%。

美股三大指數(shù)集體收跌,道指跌0.06%,納指跌0.9%,標(biāo)普500指數(shù)跌0.49%,熱門科技股多數(shù)下跌,博通跌超4%,英偉達(dá)跌超1%。

財(cái)聯(lián)社
2026-04-29 04:08:08
夏洛特公主長(zhǎng)相絕了!有戴妃的甜美,凱特的凌厲,也有女王的霸氣

夏洛特公主長(zhǎng)相絕了!有戴妃的甜美,凱特的凌厲,也有女王的霸氣

小魚愛魚樂(lè)
2026-04-28 09:28:11
斯諾克賽程:趙心童2次出場(chǎng)對(duì)陣墨菲,吳宜澤先戰(zhàn)8局,世界冠軍PK

斯諾克賽程:趙心童2次出場(chǎng)對(duì)陣墨菲,吳宜澤先戰(zhàn)8局,世界冠軍PK

劉姚堯的文字城堡
2026-04-28 09:37:20
美股收盤:OpenAI相關(guān)股票承壓 三大指數(shù)集體下跌

美股收盤:OpenAI相關(guān)股票承壓 三大指數(shù)集體下跌

財(cái)聯(lián)社
2026-04-29 05:39:18
陳思誠(chéng)找小21歲阮巨不是瞎了眼:他比誰(shuí)都精,要的是情緒穩(wěn)定

陳思誠(chéng)找小21歲阮巨不是瞎了眼:他比誰(shuí)都精,要的是情緒穩(wěn)定

小貓娛樂(lè)叭叭
2026-04-27 20:42:52
溫州民商銀行9.9%股權(quán)易主,浙商大佬仇建平輾轉(zhuǎn)入局

溫州民商銀行9.9%股權(quán)易主,浙商大佬仇建平輾轉(zhuǎn)入局

達(dá)摩財(cái)經(jīng)
2026-04-26 09:32:45
美聯(lián)合10國(guó)對(duì)中國(guó)發(fā)起猛攻,中方不隔夜強(qiáng)力反制

美聯(lián)合10國(guó)對(duì)中國(guó)發(fā)起猛攻,中方不隔夜強(qiáng)力反制

至今
2026-04-29 03:03:01
砸進(jìn)六個(gè)師,談判桌都不給!鐵了心的以色列,真主黨在劫難逃嗎?

砸進(jìn)六個(gè)師,談判桌都不給!鐵了心的以色列,真主黨在劫難逃嗎?

寰球經(jīng)緯所
2026-04-27 23:35:08
5月1日正式開刀!3萬(wàn)就立案,所有打工人都要警惕

5月1日正式開刀!3萬(wàn)就立案,所有打工人都要警惕

洞見小能手
2026-04-27 21:17:44
1976年,江青被捕入獄后,兩個(gè)人趁著深夜去看她,江青丑態(tài)畢露

1976年,江青被捕入獄后,兩個(gè)人趁著深夜去看她,江青丑態(tài)畢露

兵鑒史
2026-04-29 03:01:16
下課!曝張慶鵬無(wú)緣率隊(duì)進(jìn)季后賽將卸任北控主帥 僅執(zhí)教一季

下課!曝張慶鵬無(wú)緣率隊(duì)進(jìn)季后賽將卸任北控主帥 僅執(zhí)教一季

醉臥浮生
2026-04-28 21:15:10
驚掉下巴!39 歲鄭欣宜暴瘦現(xiàn)身,整張臉瘦脫形,差點(diǎn)沒認(rèn)出來(lái)

驚掉下巴!39 歲鄭欣宜暴瘦現(xiàn)身,整張臉瘦脫形,差點(diǎn)沒認(rèn)出來(lái)

橙星文娛
2026-04-28 09:29:00
南京二級(jí)高級(jí)警長(zhǎng)李才玉案2026年5月9日開庭

南京二級(jí)高級(jí)警長(zhǎng)李才玉案2026年5月9日開庭

安志軍律師
2026-04-28 19:00:40
泡泡瑪特推出Labubu冰箱,售價(jià)5999元,上千人預(yù)約

泡泡瑪特推出Labubu冰箱,售價(jià)5999元,上千人預(yù)約

大象新聞
2026-04-26 13:01:02
云南“14歲男生奸殺同班女生”被判無(wú)期,受害人家屬將申請(qǐng)抗訴

云南“14歲男生奸殺同班女生”被判無(wú)期,受害人家屬將申請(qǐng)抗訴

新京報(bào)
2026-04-28 19:36:18
阿sa蔡卓妍宣布結(jié)婚,阿嬌鐘欣潼發(fā)文祝福:很開心你等到了那個(gè)合拍又珍視你的人,看著你被愛意包裹,滿心滿眼都是溫柔幸福,真的好欣慰

阿sa蔡卓妍宣布結(jié)婚,阿嬌鐘欣潼發(fā)文祝福:很開心你等到了那個(gè)合拍又珍視你的人,看著你被愛意包裹,滿心滿眼都是溫柔幸福,真的好欣慰

極目新聞
2026-04-28 13:14:42
放話了,太陽(yáng)隊(duì)老板在球隊(duì)被雷霆隊(duì)首輪橫掃后稱已開始籌劃下一步

放話了,太陽(yáng)隊(duì)老板在球隊(duì)被雷霆隊(duì)首輪橫掃后稱已開始籌劃下一步

好火子
2026-04-29 00:26:37
比披絲巾更可怕的是“瑜伽褲外穿”,廉價(jià)又卡襠,三角區(qū)更尷尬

比披絲巾更可怕的是“瑜伽褲外穿”,廉價(jià)又卡襠,三角區(qū)更尷尬

生命之泉的奧秘
2026-03-20 03:56:49
2026-04-29 06:27:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
8183文章數(shù) 563關(guān)注度
往期回顧 全部

科技要聞

10億周活目標(biāo)落空!傳OpenAI爆發(fā)內(nèi)部分歧

頭條要聞

美國(guó):對(duì)35個(gè)伊朗相關(guān)實(shí)體及個(gè)人實(shí)施制裁

頭條要聞

美國(guó):對(duì)35個(gè)伊朗相關(guān)實(shí)體及個(gè)人實(shí)施制裁

體育要聞

魔術(shù)黑八活塞,一步之遙?!

娛樂(lè)要聞

蔡卓妍官宣結(jié)婚,老公比她小10歲

財(cái)經(jīng)要聞

中央政治局會(huì)議定調(diào),八大看點(diǎn)速覽!

汽車要聞

拒絕瘋狂套娃!現(xiàn)代艾尼氪金星長(zhǎng)在未來(lái)審美點(diǎn)上

態(tài)度原創(chuàng)

本地
房產(chǎn)
藝術(shù)
時(shí)尚
公開課

本地新聞

用青花瓷的方式,打開西溪濕地

房產(chǎn)要聞

紅利爆發(fā)!海南,沖到全國(guó)人口增量第4?。?/h3>

藝術(shù)要聞

趙樸初:比風(fēng)水厲害100倍的宇宙定律

普通女性春天穿什么好看?這些穿搭值得借鑒,自然舒適

公開課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版