網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

VideoDB突破：AI模型思考過(guò)程實(shí)現(xiàn)透明化揭示能力提升

2026-04-23 21:20:46　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由VideoDB工程團(tuán)隊(duì)完成的研究，以預(yù)印本形式發(fā)布于2026年4月，論文編號(hào)為arXiv:2604.11177，感興趣的讀者可通過(guò)該編號(hào)查閱完整論文。

當(dāng)你問(wèn)一個(gè)人"2加2等于幾"，他可能脫口而出"4"。但如果你問(wèn)"請(qǐng)解釋一下為什么黑洞會(huì)扭曲時(shí)空"，他大概需要先在腦海里轉(zhuǎn)幾圈，整理思路，再開口作答?，F(xiàn)代AI大模型其實(shí)也有類似的機(jī)制——在給出最終答案之前，它會(huì)先進(jìn)行一段"內(nèi)心獨(dú)白"，把自己的推理過(guò)程一步步寫下來(lái)，然后再把這些思考濃縮成最終的回答。

這段內(nèi)心獨(dú)白，研究團(tuán)隊(duì)稱之為"思維流"（Thought Stream）。問(wèn)題來(lái)了：這段獨(dú)白真的有用嗎？它里面都是真正有價(jià)值的分析，還是大量的廢話和自言自語(yǔ)？模型最終的回答，忠實(shí)反映了它的思考過(guò)程嗎？還是說(shuō)，它思考了一堆，最后輸出的卻是另一套？

VideoDB的工程師們決定認(rèn)真研究這個(gè)問(wèn)題。他們拿來(lái)了谷歌最新的Gemini 2.5系列模型，讓這些模型處理從100小時(shí)視頻中提取的海量場(chǎng)景，然后一幀一幀地"解剖"模型的思維流，看看里面究竟藏著什么。

一、偵探的筆記本：什么是"思維流"，為什么要研究它

把AI模型比作一位偵探來(lái)破案，是理解這項(xiàng)研究最直觀的方式。這位偵探接到任務(wù)后，會(huì)先在自己的筆記本上記錄觀察到的線索、推斷的邏輯、排除的可能性，最后整理出一份正式的案情報(bào)告交給委托人。

"思維流"就是這本筆記，而模型最終輸出的結(jié)構(gòu)化JSON數(shù)據(jù)（包含場(chǎng)景中的人物、動(dòng)作、場(chǎng)景、情緒等標(biāo)簽）就是那份正式報(bào)告。

研究團(tuán)隊(duì)關(guān)注的核心問(wèn)題有三個(gè)。第一，筆記本里的內(nèi)容有多少是真正有用的線索，有多少是偵探在自言自語(yǔ)、反復(fù)絮叨"我現(xiàn)在要開始分析了，我需要仔細(xì)思考一下"這類廢話？第二，筆記本里記錄的線索，有多少最終出現(xiàn)在了正式報(bào)告里？有沒有偵探在筆記里寫了很多，但報(bào)告里卻完全沒提到的情況？第三，報(bào)告里提到的內(nèi)容，是否都能在筆記本里找到對(duì)應(yīng)的來(lái)源？還是說(shuō)偵探在寫報(bào)告時(shí)憑空捏造了一些從未調(diào)查過(guò)的"證據(jù)"？

這三個(gè)問(wèn)題對(duì)應(yīng)了研究團(tuán)隊(duì)設(shè)計(jì)的三個(gè)核心評(píng)估指標(biāo)，后面會(huì)詳細(xì)展開。

二、偵探團(tuán)隊(duì)與調(diào)查現(xiàn)場(chǎng)：實(shí)驗(yàn)設(shè)計(jì)

這次調(diào)查的規(guī)模相當(dāng)可觀。研究團(tuán)隊(duì)使用VideoDB平臺(tái)，將約100小時(shí)的視頻切割成一個(gè)個(gè)獨(dú)立的場(chǎng)景片段，涵蓋了37種不同的視覺風(fēng)格——從2D/3D動(dòng)畫、電影級(jí)敘事片段、紀(jì)錄片，到游戲直播、現(xiàn)場(chǎng)演唱會(huì)、運(yùn)動(dòng)賽事錄像、監(jiān)控畫面、社交媒體短視頻、Vlog，乃至復(fù)古膠片風(fēng)格，幾乎涵蓋了當(dāng)今主流內(nèi)容生產(chǎn)的全部類型。內(nèi)容領(lǐng)域橫跨38個(gè)不同類別，包括娛樂(lè)、體育、新聞、教育、美食烹飪、音樂(lè)表演、戲劇、喜劇、真人秀、游戲、企業(yè)宣傳、旅行Vlog和兒童內(nèi)容等。從畫面質(zhì)量分布來(lái)看，約64%屬于高質(zhì)量專業(yè)制作內(nèi)容，34%為中等質(zhì)量，僅有約2%為低質(zhì)量。

每個(gè)場(chǎng)景以每秒1幀的速度抽取畫面，最多保留10幀。模型在處理每個(gè)場(chǎng)景時(shí)，完全獨(dú)立運(yùn)作，不會(huì)參考其他場(chǎng)景的信息。

調(diào)查任務(wù)交給了四個(gè)版本的Gemini 2.5模型，可以把它們理解為同一家偵探事務(wù)所旗下的四位偵探，能力層次和工作風(fēng)格各有不同。Flash版是事務(wù)所的資深偵探，而Flash Lite是經(jīng)驗(yàn)稍淺的助理偵探。更關(guān)鍵的區(qū)別在于給每位偵探分配的"思考時(shí)間"，也就是允許他們?cè)诠P記本上寫多少字的推理過(guò)程。Flash-128版本只有105個(gè)思考詞的平均預(yù)算，相當(dāng)于讓偵探在極度緊張的時(shí)間壓力下速戰(zhàn)速?zèng)Q；Flash-Dynamic版本沒有限制，可以想多久寫多久，平均用了1021個(gè)思考詞；Lite-512版本給了助理偵探約366個(gè)思考詞的空間；Lite-1024版本則給了約718個(gè)思考詞的余地。

四位偵探處理所有場(chǎng)景后，總共產(chǎn)生了超過(guò)9.3萬(wàn)份場(chǎng)景級(jí)分析結(jié)果，為這次研究提供了極其豐富的數(shù)據(jù)基礎(chǔ)。

三、拆解筆記本：三把衡量"思維流"質(zhì)量的尺子

研究團(tuán)隊(duì)設(shè)計(jì)了三個(gè)評(píng)估指標(biāo)，像三把不同用途的工具，從不同角度度量思維流的質(zhì)量。

第一把工具叫"內(nèi)容豐富度"（Contentfulness），專門測(cè)量筆記本里有多少是真正有價(jià)值的場(chǎng)景描述，有多少是無(wú)意義的自言自語(yǔ)。具體操作方式是：先用一組規(guī)則把所有"元評(píng)論"句子過(guò)濾掉——所謂元評(píng)論，就是"我現(xiàn)在要分析這段視頻"、"讓我一步一步思考"、"我需要考慮JSON格式"這類話，它們描述的是偵探自己的工作流程，而不是案發(fā)現(xiàn)場(chǎng)的任何實(shí)際信息。過(guò)濾完之后，再用自然語(yǔ)言處理工具（NLTK詞性標(biāo)注）統(tǒng)計(jì)剩余文字里有多少是真正的名詞和動(dòng)詞——也就是"女人"、"木質(zhì)桌子"、"打字"、"筆記本電腦"、"辦公室"這樣的實(shí)質(zhì)性內(nèi)容詞匯。最終得出的比值就是內(nèi)容豐富度分?jǐn)?shù)，越高說(shuō)明筆記本里的干貨越多，廢話越少。

舉個(gè)具體的例子：假如偵探的筆記本里有一句"讓我仔細(xì)分析這個(gè)場(chǎng)景"，以及一句"一位年輕女性坐在木質(zhì)書桌前，在明亮的辦公室里用一臺(tái)銀色筆記本電腦打字"。第一句是廢話，直接刪掉。第二句里，"女性"、"書桌"、"辦公室"、"筆記本電腦"是名詞，"坐"、"打字"是動(dòng)詞，這些才是真正有價(jià)值的內(nèi)容詞。如果整段筆記共有20個(gè)詞，其中6個(gè)是內(nèi)容詞，內(nèi)容豐富度就是0.30分。

第二把工具叫"思維-最終輸出覆蓋度"（Thought-Final Coverage），分為兩個(gè)子指標(biāo)，共同衡量筆記本和正式報(bào)告之間的吻合程度。

"思維覆蓋率"（Thought Coverage）回答的是：偵探在筆記里記錄的所有線索，最終有多少進(jìn)入了正式報(bào)告？如果筆記里寫了六條線索，報(bào)告里只提到了五條，思維覆蓋率就是5/6。這個(gè)指標(biāo)低，意味著偵探調(diào)查了很多，但很多發(fā)現(xiàn)被丟在了筆記本里，沒有轉(zhuǎn)化為最終結(jié)論。

"輸出扎根度"（Output Grounding）回答的是：正式報(bào)告里提到的每一條信息，有多少能在筆記本里找到來(lái)源？如果報(bào)告里寫了六條信息，其中五條在筆記里有據(jù)可查，第六條完全是憑空出現(xiàn)的，輸出扎根度就是5/6。這個(gè)指標(biāo)低，意味著偵探在寫報(bào)告時(shí)"發(fā)揮"了——把從未調(diào)查過(guò)的內(nèi)容寫進(jìn)了報(bào)告，這就是研究團(tuán)隊(duì)所定義的"壓縮步驟幻覺"（Compression-Step Hallucination）。

這兩個(gè)指標(biāo)合并后會(huì)計(jì)算一個(gè)F1綜合分?jǐn)?shù)，可以把它理解為筆記本和報(bào)告之間的"契合度總分"。整個(gè)評(píng)分過(guò)程由GPT-5擔(dān)任獨(dú)立裁判，通過(guò)多層次的模糊匹配算法（先精確匹配，再考慮詞序不同但詞匯相同的情況，最后考慮部分包含關(guān)系）來(lái)判斷筆記中的某條內(nèi)容是否對(duì)應(yīng)報(bào)告中的某條內(nèi)容。

第三把工具叫"主導(dǎo)實(shí)體分析"（Dominant Entity Analysis），追蹤每個(gè)場(chǎng)景中最突出的主體（是誰(shuí)）、動(dòng)作（在做什么）和場(chǎng)景（在哪里）。這個(gè)工具專門用來(lái)發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象：當(dāng)偵探時(shí)間不夠用時(shí)，他是否會(huì)用"有人"這個(gè)模糊表述來(lái)敷衍了事，而不是具體說(shuō)出"是一位廚師"還是"是一名游戲主播"？

四、揭秘調(diào)查結(jié)果：四位偵探的表現(xiàn)對(duì)比

調(diào)查結(jié)果出來(lái)后，最直接的總結(jié)是：給偵探足夠的思考時(shí)間，他就能寫出更忠實(shí)、更準(zhǔn)確的報(bào)告；但這種改善存在明顯的邊際遞減效應(yīng)——時(shí)間從極度緊張變?yōu)槌湓Ｖ?，質(zhì)量飛速提升，但時(shí)間從充裕變?yōu)楦湓Ｖ螅嵘染驮絹?lái)越小了。

Flash-128版本（平均僅105個(gè)思考詞）表現(xiàn)最差，F(xiàn)1綜合分?jǐn)?shù)只有0.83。更糟糕的是，它的輸出扎根度只有0.767，換句話說(shuō)，在它最終報(bào)告里出現(xiàn)的內(nèi)容中，大約有四分之一是從未在筆記本中出現(xiàn)過(guò)的——它在寫報(bào)告時(shí)"臨場(chǎng)發(fā)揮"了相當(dāng)多的內(nèi)容，這正是"壓縮步驟幻覺"最典型的表現(xiàn)。

Flash-Dynamic版本（無(wú)限制，平均1021個(gè)思考詞）表現(xiàn)優(yōu)秀，F(xiàn)1達(dá)到0.957，輸出扎根度提升到0.964，說(shuō)明幾乎所有報(bào)告內(nèi)容都能在筆記本中找到來(lái)源。

Lite-512版本（平均366個(gè)思考詞）的表現(xiàn)令人驚喜，F(xiàn)1達(dá)到0.942，遠(yuǎn)超預(yù)期，思維覆蓋率和輸出扎根度分別達(dá)到0.940和0.948，已經(jīng)非常接近高配版本的水準(zhǔn)。

Lite-1024版本（平均718個(gè)思考詞）則摘得綜合最優(yōu)桂冠，F(xiàn)1 0.959，輸出扎根度0.966，完美得分率（F1滿分場(chǎng)景比例）達(dá)到64.3%，低分率（F1低于0.5的場(chǎng)景比例）僅有0.2%。更重要的是，它實(shí)現(xiàn)這一切只用了約2918個(gè)總token，而Flash-Dynamic需要約3258個(gè)，相當(dāng)于用更少的資源達(dá)到了同等甚至更好的效果。

穩(wěn)定性方面，F(xiàn)lash-128的表現(xiàn)極不穩(wěn)定，變異系數(shù)（衡量穩(wěn)定性的指標(biāo)，數(shù)值越低越穩(wěn)定）高達(dá)0.282，意味著同樣的模型在不同場(chǎng)景下的表現(xiàn)差異很大。相比之下，Lite-1024的變異系數(shù)只有0.082，表現(xiàn)極為穩(wěn)定可預(yù)期，是生產(chǎn)環(huán)境中最值得信賴的選擇。

五、質(zhì)量提升的"邊際遞減"：多思考未必等比收益

把四種配置按照思考詞數(shù)從少到多排列，可以看到一條很有意思的曲線。從Flash-128（105詞）跳到Lite-512（366詞），F(xiàn)1從0.83驟升至0.942，這是一個(gè)相當(dāng)顯著的提升，花了約261個(gè)額外思考詞換來(lái)了超過(guò)11個(gè)百分點(diǎn)的質(zhì)量改善。

然而，從Lite-512（366詞）跳到Lite-1024（718詞），幾乎翻倍的思考詞預(yù)算，換來(lái)的F1提升僅有約0.017。而Flash-Dynamic（1021詞）雖然比Lite-1024多用了約40%的思考詞，最終F1反而略低于Lite-1024（0.957對(duì)比0.959）。

這個(gè)"思考越多，邊際收益越低"的現(xiàn)象在實(shí)踐中有重要啟示意義：對(duì)于大量視頻內(nèi)容的工業(yè)化處理，一味追求最高思考預(yù)算并非最優(yōu)策略，找到質(zhì)量與成本的最佳平衡點(diǎn)才是關(guān)鍵。研究團(tuán)隊(duì)明確指出，超過(guò)約700個(gè)思考詞之后，額外思考帶來(lái)的收益在他們的數(shù)據(jù)集上已經(jīng)相當(dāng)微薄。

內(nèi)容豐富度的表現(xiàn)則截然不同，它隨著思考詞數(shù)增加幾乎呈線性增長(zhǎng)。從Flash-128的0.323一路提升至Flash-Dynamic的0.594。這說(shuō)明更多的思考時(shí)間確實(shí)讓模型寫出了更多實(shí)質(zhì)性的場(chǎng)景描述，但這種"質(zhì)量提升"并不完全等同于最終輸出質(zhì)量的提升——多寫并不總是意味著最終報(bào)告更好。

六、最出乎意料的發(fā)現(xiàn)：兩個(gè)級(jí)別的偵探，寫出了幾乎一模一樣的筆記

研究中最令人意外的發(fā)現(xiàn)，或許是Flash和Flash Lite這兩個(gè)"不同級(jí)別"的模型，它們寫出的思維流內(nèi)容驚人地相似。

研究團(tuán)隊(duì)設(shè)計(jì)了一項(xiàng)專門的相似度測(cè)試：讓GPT-5逐場(chǎng)景對(duì)比不同模型的思維流內(nèi)容，打出0到1的相似度分?jǐn)?shù)。結(jié)果顯示，F(xiàn)lash Dynamic與Lite 1024之間的思維流相似度為0.887，F(xiàn)lash 128與Lite 1024的相似度也有0.885。而同一個(gè)模型的兩個(gè)不同預(yù)算版本之間（比如Lite 1024與Lite 512），相似度也只有0.905，與跨級(jí)別對(duì)比的差距非常小。

換句話說(shuō)，資深偵探和助理偵探在各自的筆記本上記錄的，幾乎是同樣的線索。兩者"想的東西"高度一致。

不過(guò)，這兩位偵探的筆記風(fēng)格有明顯差異。Flash（資深偵探）喜歡在筆記里大量寫下自己的工作思路，比如"我需要先識(shí)別畫面中的主要人物，然后分析他們的動(dòng)作，再判斷場(chǎng)景類型……"。而Flash Lite（助理偵探）則更直接，跳過(guò)這些工作流程的描述，直接寫下場(chǎng)景內(nèi)容："畫面中有一位中年男性，身穿白色廚師服，正在切菜，背景是一間現(xiàn)代化廚房。"

這種風(fēng)格差異正好解釋了為什么在相同的思考詞預(yù)算下，Lite版本的內(nèi)容豐富度更高——它把同樣的"筆記紙"用來(lái)記錄了更多實(shí)際有用的內(nèi)容，而不是記錄自己的工作流程。這也是為什么Lite版本能以更少的token達(dá)到相當(dāng)甚至更好的輸出質(zhì)量。

研究團(tuán)隊(duì)還特別做了一個(gè)"重跑測(cè)試"：把同一批視頻用Flash Dynamic跑兩遍，看兩次的思維流相似度。結(jié)果是0.893，與跨級(jí)別對(duì)比的相似度（0.887）幾乎相差無(wú)幾。這個(gè)發(fā)現(xiàn)頗為有趣：不同級(jí)別模型之間的差異，甚至不比同一個(gè)模型兩次運(yùn)行之間的差異大多少。在兩次重跑中保持穩(wěn)定的內(nèi)容，主要是品牌名稱、Logo、文字識(shí)別和物體識(shí)別；而容易發(fā)生變化的，則是情緒判斷和地點(diǎn)描述。

七、當(dāng)筆記太簡(jiǎn)短：壓縮步驟幻覺與主體識(shí)別偏差

Flash-128的低輸出扎根度揭示了一個(gè)值得深入討論的現(xiàn)象。當(dāng)模型被強(qiáng)迫在極短的思考空間里完成分析，筆記本里的內(nèi)容太少，不足以支撐一份完整的結(jié)構(gòu)化報(bào)告時(shí)，它在"把筆記整理成報(bào)告"的壓縮步驟中，會(huì)憑空填入一些從未在筆記里出現(xiàn)過(guò)的內(nèi)容。

這并不意味著這些內(nèi)容一定是錯(cuò)誤的——也許模型在"筆記本之外"還有某種更深層的認(rèn)知，只是沒有顯式地寫在思維流里。但從用戶和系統(tǒng)設(shè)計(jì)者的角度來(lái)看，這種行為是危險(xiǎn)的：思維流作為可追溯的"推理依據(jù)"失去了可信度，輸出內(nèi)容中有相當(dāng)比例無(wú)法在推理過(guò)程中找到來(lái)源，給審核和修正帶來(lái)很大困難。

隨著思考預(yù)算的增加，這個(gè)問(wèn)題顯著改善。給模型足夠的思考空間，讓它建立一份詳盡的筆記，在最終整理報(bào)告時(shí)就不需要"填空"了，輸出內(nèi)容和推理過(guò)程的對(duì)應(yīng)關(guān)系變得清晰而可靠。

另一個(gè)與思考預(yù)算相關(guān)的現(xiàn)象是主體識(shí)別的精確度。Flash-128版本在約15%的場(chǎng)景中，把畫面中最突出的人物標(biāo)注為"person"（人）這個(gè)極其模糊的標(biāo)簽，而Flash-Dynamic版本這個(gè)比例只有約8%。Lite系列也有類似規(guī)律：Lite-512約有13%的場(chǎng)景用"person"標(biāo)注主體，Lite-1024則降至約11%。

這說(shuō)明當(dāng)思考空間充裕時(shí)，模型更有可能識(shí)別出具體的角色身份——它會(huì)告訴你畫面里的是"游戲主播"、"廚師"、"貓"，而不是敷衍地說(shuō)"有個(gè)人"。在視頻內(nèi)容的實(shí)際應(yīng)用場(chǎng)景中，這種具體性的差異對(duì)于搜索、推薦、內(nèi)容標(biāo)簽等下游任務(wù)有直接影響。

八、研究的邊界與未竟之事

研究團(tuán)隊(duì)對(duì)自己工作的局限性有著清醒認(rèn)識(shí)。整套評(píng)估體系衡量的是思維流與最終輸出之間的內(nèi)部一致性，而非與真實(shí)世界的符合程度。換句話說(shuō)，一個(gè)偵探可以寫出前后完全一致、邏輯自洽的筆記和報(bào)告，但這份報(bào)告對(duì)案件的描述完全是錯(cuò)誤的——高度的內(nèi)部一致性并不等于高度的準(zhǔn)確性。

此外，評(píng)分裁判GPT-5本身也可能存在系統(tǒng)性偏差，目前還沒有用多個(gè)不同的裁判模型進(jìn)行交叉驗(yàn)證。數(shù)據(jù)集方面，所有場(chǎng)景都以每秒1幀、最多10幀的方式處理，這對(duì)于分析時(shí)間跨度較長(zhǎng)的連續(xù)動(dòng)作、多場(chǎng)景敘事結(jié)構(gòu)或長(zhǎng)篇影視的情節(jié)發(fā)展來(lái)說(shuō)明顯不夠。

研究團(tuán)隊(duì)列出了不少值得繼續(xù)探索的方向：引入人工標(biāo)注的真實(shí)標(biāo)準(zhǔn)，把內(nèi)部一致性與外部準(zhǔn)確性分開測(cè)量；擴(kuò)展到OpenAI、Anthropic以及各類開源模型，看看這些規(guī)律是否普遍適用；進(jìn)行更細(xì)粒度的預(yù)算掃描（從64到2048 token），繪制更精確的質(zhì)量-成本曲線；加入延遲和實(shí)際費(fèi)用的分析；針對(duì)醫(yī)療、體育、安防等特定領(lǐng)域進(jìn)行專項(xiàng)評(píng)估；以及更大規(guī)模的確定性測(cè)試，深入了解哪類信息是模型的"穩(wěn)定認(rèn)知"，哪類是容易飄忽的"不確定判斷"。

說(shuō)到底，這項(xiàng)研究告訴我們，AI模型的"內(nèi)心獨(dú)白"確實(shí)有價(jià)值，但這個(gè)價(jià)值是有門檻的——思考太少，報(bào)告就會(huì)摻入從未思考過(guò)的內(nèi)容；思考足夠多，質(zhì)量就能快速達(dá)到不錯(cuò)的水平；但瘋狂追加思考預(yù)算，收益的增幅會(huì)越來(lái)越小。對(duì)于大規(guī)模視頻處理這樣的實(shí)際應(yīng)用場(chǎng)景，Lite 1024是目前最佳的性價(jià)比選擇：最低的錯(cuò)誤率、最高的完美場(chǎng)景比例、最穩(wěn)定的表現(xiàn)，同時(shí)比頂配版本便宜約10%。

歸根結(jié)底，F(xiàn)lash和Flash Lite的思維流內(nèi)容如此相似這一發(fā)現(xiàn)，或許是整篇研究中最耐人尋味的一點(diǎn)——模型的"級(jí)別"決定的不是它思考什么，而是它如何表達(dá)自己的思考過(guò)程。這對(duì)于AI開發(fā)和部署來(lái)說(shuō)是一個(gè)很有價(jià)值的參考信號(hào)。對(duì)這一課題有進(jìn)一步研究興趣的讀者，可通過(guò)arXiv編號(hào)2604.11177查閱完整論文，代碼也已在GitHub的video-db/gemini-reasoning-eval倉(cāng)庫(kù)開源。

Q&A

Q1：什么是"壓縮步驟幻覺"，它在視頻理解中會(huì)造成什么問(wèn)題？

A：壓縮步驟幻覺是指AI模型在將內(nèi)部思考過(guò)程整理成最終輸出報(bào)告時(shí)，報(bào)告里出現(xiàn)了思考過(guò)程中從未提到過(guò)的內(nèi)容。Flash-128配置下大約每四條輸出信息中就有一條屬于這種情況。在視頻內(nèi)容管理場(chǎng)景中，這會(huì)導(dǎo)致元數(shù)據(jù)標(biāo)簽無(wú)法溯源，給內(nèi)容審核和質(zhì)量控制帶來(lái)困難，因?yàn)橛脩魺o(wú)法判斷這些無(wú)法追溯的內(nèi)容是真實(shí)識(shí)別到的還是模型自行填充的。

Q2：Gemini Flash和Flash Lite的思維流為什么會(huì)如此相似？

A：根據(jù)這項(xiàng)研究，兩者的思維流內(nèi)容相似度約為0.88，與同一模型兩次運(yùn)行之間的相似度（0.893）相差無(wú)幾。研究推測(cè)這是因?yàn)閮蓚€(gè)模型層級(jí)共享相近的底層推理模式，真正的差別在于表達(dá)風(fēng)格——Flash更傾向于描述自己的推理步驟，Lite更傾向于直接描述場(chǎng)景內(nèi)容，這也解釋了為何Lite在相同token預(yù)算下能產(chǎn)出更多有效內(nèi)容。

Q3：Gemini 2.5視頻場(chǎng)景理解中，思考token數(shù)量超過(guò)多少之后收益就開始明顯下降？

A：根據(jù)這項(xiàng)研究的數(shù)據(jù)，大約在700個(gè)思考token左右，質(zhì)量提升開始明顯放緩。從105個(gè)token（Flash-128）跳到366個(gè)token（Lite-512）帶來(lái)了超過(guò)11個(gè)百分點(diǎn)的F1提升，但從366個(gè)token增加到718個(gè)token（Lite-1024）只帶來(lái)了約1.7個(gè)百分點(diǎn)的提升，而從718個(gè)繼續(xù)增加到1021個(gè)token（Flash-Dynamic）的F1反而略低于Lite-1024。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.