国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

東京大學(xué)突破:AI生成評(píng)測(cè)揭示開源多模態(tài)模型缺陷

0
分享至


這項(xiàng)由東京大學(xué)宮井敦之(Atsuyuki Miyai)、小野原翔太(Shota Onohara)、白正勛(Jeonghun Baek)和相沢清晴(Kiyoharu Aizawa)領(lǐng)導(dǎo)的研究團(tuán)隊(duì)完成的創(chuàng)新性研究,發(fā)表于2025年12月16日,論文編號(hào)為arXiv:2512.14620v1。有興趣深入了解的讀者可以通過該編號(hào)查詢完整論文。

想象一下這樣的場(chǎng)景:你拿著手機(jī)拍攝了一張包含日文問題和圖片的考試卷子,然后問AI助手這道題的答案。這個(gè)過程看似簡(jiǎn)單,但實(shí)際上對(duì)AI來說是個(gè)巨大挑戰(zhàn)——它需要同時(shí)"看懂"圖片和"讀懂"文字,并將兩者結(jié)合起來理解問題的真正含義。就像人類在做一道既有圖表又有文字描述的數(shù)學(xué)題時(shí),需要眼睛和大腦協(xié)同工作一樣。

東京大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人驚訝的現(xiàn)象:當(dāng)前最先進(jìn)的AI模型在處理這種"圖文混合"的日語問題時(shí)表現(xiàn)得出奇糟糕,甚至有些模型的正確率接近隨機(jī)猜測(cè)的水平。這就像是一個(gè)在紙質(zhì)考試中表現(xiàn)優(yōu)異的學(xué)生,一旦換成電子屏幕考試就突然變得手忙腳亂。

為了深入研究這個(gè)問題,研究團(tuán)隊(duì)開發(fā)了一個(gè)名為JMMMU-Pro的全新測(cè)試基準(zhǔn)。這個(gè)基準(zhǔn)的特別之處在于,它將原本分開提供給AI的圖片和文字問題合并成一張完整的圖像,就像真實(shí)世界中的考試卷子、網(wǎng)頁截圖或者黑板照片一樣。更有趣的是,他們還提出了一種叫做"Vibe基準(zhǔn)構(gòu)建法"的創(chuàng)新方法,讓AI圖像生成模型來自動(dòng)創(chuàng)建這些測(cè)試題目,而人類只需要在旁邊"監(jiān)工",檢查質(zhì)量并在必要時(shí)調(diào)整指令。

研究結(jié)果揭示了一個(gè)令人擔(dān)憂的現(xiàn)狀:幾乎所有開源AI模型在這項(xiàng)測(cè)試中都表現(xiàn)不佳,最好的開源模型正確率還不到50%,而許多模型的表現(xiàn)甚至接近瞎猜的水平。相比之下,像GPT和Gemini這樣的商業(yè)閉源模型卻能輕松應(yīng)對(duì),正確率高達(dá)80-90%。這種巨大差距就像是業(yè)余選手和職業(yè)選手之間的較量,差距之大令人震驚。

一、日語多模態(tài)理解的現(xiàn)狀困境

在當(dāng)今這個(gè)信息爆炸的時(shí)代,AI技術(shù)在英語世界取得了令人矚目的成就。我們經(jīng)??吹礁鞣NAI助手能夠流暢地回答英文問題,甚至能夠處理包含圖片和文字的復(fù)雜任務(wù)。然而,當(dāng)我們把目光轉(zhuǎn)向其他語言,特別是日語時(shí),情況就大不相同了。

日語作為世界上使用人數(shù)眾多的語言之一,有著獨(dú)特的文字系統(tǒng)和文化背景。日語文字系統(tǒng)包含平假名、片假名和漢字三套文字,這就像是在同一個(gè)句子中混合使用三種不同的密碼系統(tǒng)。此外,日語的語法結(jié)構(gòu)與英語截然不同,文化內(nèi)涵也有著深厚的歷史積淀。

研究團(tuán)隊(duì)發(fā)現(xiàn),目前針對(duì)日語的AI模型評(píng)測(cè)基準(zhǔn)相對(duì)匱乏,特別是在多模態(tài)理解方面。所謂多模態(tài)理解,就是指AI需要同時(shí)處理文字、圖片、聲音等多種信息類型,并將它們整合起來理解問題的完整含義。這就好比人類在看一本圖文并茂的教科書時(shí),不僅要讀懂文字,還要理解圖表,并將兩者結(jié)合起來掌握知識(shí)點(diǎn)。

現(xiàn)有的日語AI評(píng)測(cè)基準(zhǔn)大多存在一個(gè)根本性問題:它們將圖片和文字分別提供給AI模型。這種做法就像是把一道完整的題目拆分成兩部分,先給學(xué)生看圖片,再單獨(dú)給出文字問題,這與真實(shí)世界中的情況相去甚遠(yuǎn)。在現(xiàn)實(shí)生活中,我們看到的往往是圖文混合的內(nèi)容,比如包含圖表的報(bào)告、帶有說明圖的說明書、或者課堂上老師在黑板上同時(shí)寫字和畫圖。

更重要的是,這種分離式的評(píng)測(cè)方法無法真正檢驗(yàn)AI模型的核心認(rèn)知能力——即通過視覺感知來整合理解圖像和文字信息的能力。這種能力對(duì)于未來的智能機(jī)器人和自主系統(tǒng)來說至關(guān)重要。設(shè)想一下,一個(gè)在日本工作的服務(wù)機(jī)器人需要能夠理解日語標(biāo)識(shí)牌、閱讀包含圖片的使用說明,甚至理解顧客拿著的包含圖文信息的手機(jī)屏幕。

東京大學(xué)研究團(tuán)隊(duì)意識(shí)到這個(gè)問題的嚴(yán)重性。他們發(fā)現(xiàn),雖然在英語世界已經(jīng)有了MMMU-Pro這樣的先進(jìn)測(cè)試基準(zhǔn),但日語領(lǐng)域卻缺乏相應(yīng)的評(píng)測(cè)工具。MMMU-Pro的創(chuàng)新之處在于將圖片和文字問題融合到同一張圖像中,從而更真實(shí)地模擬人類的認(rèn)知過程。然而,這種測(cè)試方法在日語領(lǐng)域還是一片空白。

研究團(tuán)隊(duì)還注意到另一個(gè)重要現(xiàn)象:日語用戶越來越多地使用包含圖文混合內(nèi)容的屏幕截圖來與AI助手交流。用戶可能會(huì)拍攝包含日語文字和圖像的網(wǎng)頁、考試題目、或者說明書,然后詢問AI助手相關(guān)問題。然而,當(dāng)前的AI模型在處理這種真實(shí)使用場(chǎng)景時(shí)表現(xiàn)如何,一直缺乏系統(tǒng)性的評(píng)估。

這種評(píng)估空白不僅影響了學(xué)術(shù)研究的發(fā)展,也阻礙了實(shí)用AI產(chǎn)品的改進(jìn)。開發(fā)者無法準(zhǔn)確了解他們的模型在處理日語圖文混合內(nèi)容時(shí)的真實(shí)表現(xiàn),用戶也無法對(duì)不同AI產(chǎn)品的能力有清晰的認(rèn)知。這就像是在沒有標(biāo)準(zhǔn)尺子的情況下試圖測(cè)量物體長(zhǎng)度——缺乏統(tǒng)一、可靠的測(cè)量標(biāo)準(zhǔn),整個(gè)領(lǐng)域的進(jìn)步都會(huì)受到影響。

二、JMMMU-Pro基準(zhǔn)的創(chuàng)新設(shè)計(jì)

面對(duì)日語多模態(tài)理解評(píng)測(cè)的空白,東京大學(xué)研究團(tuán)隊(duì)決定構(gòu)建一個(gè)全新的測(cè)試基準(zhǔn)——JMMMU-Pro。這個(gè)基準(zhǔn)的設(shè)計(jì)理念可以用一個(gè)生動(dòng)的比喻來理解:如果說原來的測(cè)試方法像是給學(xué)生分別展示課本的文字頁面和圖片頁面,那么JMMMU-Pro就像是把完整的課本頁面直接展示給學(xué)生,讓他們?cè)谡鎸?shí)的閱讀情境中解答問題。

JMMMU-Pro基準(zhǔn)建立在已有的JMMMU基準(zhǔn)之上。JMMMU是目前最重要的日語多學(xué)科多模態(tài)理解測(cè)試基準(zhǔn),包含1320個(gè)涵蓋28個(gè)學(xué)科的問題。這些問題分為兩大類:文化無關(guān)類和文化特定類。文化無關(guān)類包含720個(gè)問題,涵蓋藝術(shù)心理學(xué)、商業(yè)、健康醫(yī)學(xué)、科學(xué)、技術(shù)工程等24個(gè)學(xué)科,這些問題主要通過翻譯英語MMMU基準(zhǔn)獲得。文化特定類則包含600個(gè)問題,涵蓋日本藝術(shù)、日本傳統(tǒng)、日本歷史和世界史等4個(gè)學(xué)科,這些問題專門針對(duì)日本文化背景設(shè)計(jì)。

JMMMU-Pro的核心創(chuàng)新在于將JMMMU中的每一個(gè)問題都轉(zhuǎn)換為圖像形式。原本在JMMMU中,AI模型會(huì)分別接收到一張圖片和一段文字問題,然后需要結(jié)合兩者來回答。而在JMMMU-Pro中,圖片和文字問題被合并成一張完整的復(fù)合圖像,AI模型只能通過視覺感知來獲取所有信息。

這種轉(zhuǎn)換過程就像是把傳統(tǒng)的分鏡頭電影改編成單鏡頭長(zhǎng)片。原來需要在不同畫面間切換的信息,現(xiàn)在都要在同一個(gè)畫面中呈現(xiàn)。這不僅考驗(yàn)AI模型的圖像識(shí)別能力,更重要的是考驗(yàn)它們整合視覺信息的能力——既要能夠準(zhǔn)確識(shí)別圖像中的文字內(nèi)容,又要理解圖像本身的含義,還要將兩者結(jié)合起來推理出正確答案。

為了讓這些復(fù)合圖像盡可能接近真實(shí)世界的使用場(chǎng)景,研究團(tuán)隊(duì)設(shè)計(jì)了多種不同的呈現(xiàn)形式。這些圖像可能看起來像是用手機(jī)拍攝的練習(xí)冊(cè)頁面,可能是電腦屏幕的截圖,也可能是投影儀上顯示的課件,或者是黑板上的板書。這種多樣化的設(shè)計(jì)確保了測(cè)試的真實(shí)性和全面性。

研究團(tuán)隊(duì)在驗(yàn)證原始JMMMU基準(zhǔn)時(shí)還進(jìn)行了一些重要的改進(jìn)。他們將所有開放式問題轉(zhuǎn)換為選擇題形式,這樣做的好處是讓評(píng)分更加客觀準(zhǔn)確,避免了因?yàn)榇鸢副磉_(dá)方式不同而造成的誤判。同時(shí),他們還修正了原基準(zhǔn)中的兩個(gè)錯(cuò)誤樣本,并改進(jìn)了答案解析算法,使其能夠更準(zhǔn)確地處理現(xiàn)代AI模型輸出的長(zhǎng)篇推理過程。

這個(gè)改進(jìn)后的基準(zhǔn)被命名為JMMMU-verified-2025-12,確保了研究結(jié)果的可靠性和可比較性。這就像是在進(jìn)行科學(xué)實(shí)驗(yàn)之前先校準(zhǔn)好所有的測(cè)量?jī)x器,確保后續(xù)的實(shí)驗(yàn)結(jié)果能夠準(zhǔn)確反映真實(shí)情況。

JMMMU-Pro基準(zhǔn)的另一個(gè)重要特點(diǎn)是其廣泛的學(xué)科覆蓋面。從藝術(shù)到科學(xué),從歷史到工程,從醫(yī)學(xué)到商業(yè),這些問題涵蓋了大學(xué)水平的各個(gè)主要學(xué)科領(lǐng)域。這種廣泛性確保了測(cè)試結(jié)果能夠全面反映AI模型在不同知識(shí)領(lǐng)域的表現(xiàn),而不是僅僅在某個(gè)特定領(lǐng)域的能力。

更重要的是,這個(gè)基準(zhǔn)還特別注重文化層面的理解。日語不僅僅是一種語言工具,更承載著深厚的文化內(nèi)涵。通過包含大量文化特定的問題,JMMMU-Pro能夠測(cè)試AI模型是否真正理解日本文化背景下的概念和表達(dá)方式,而不只是機(jī)械地翻譯文字。

三、Vibe基準(zhǔn)構(gòu)建法的技術(shù)突破

在構(gòu)建JMMMU-Pro的過程中,研究團(tuán)隊(duì)面臨著一個(gè)巨大的挑戰(zhàn):如何高效地將1320個(gè)問題都轉(zhuǎn)換為圖像形式。傳統(tǒng)的做法是讓人工設(shè)計(jì)師一個(gè)一個(gè)地制作這些圖像,但這種方法不僅成本高昂,而且極其耗時(shí)。就像是要求一位藝術(shù)家手工繪制數(shù)千張插圖一樣,即使是最勤奮的團(tuán)隊(duì)也難以在合理的時(shí)間內(nèi)完成。

為了解決這個(gè)問題,研究團(tuán)隊(duì)提出了一種革命性的方法——Vibe基準(zhǔn)構(gòu)建法(Vibe Benchmark Construction)。這種方法的核心思想是讓AI圖像生成模型承擔(dān)主要的制作工作,而人類只需要扮演"質(zhì)量監(jiān)督員"的角色。這就像是從手工作坊轉(zhuǎn)向現(xiàn)代化工廠生產(chǎn)——機(jī)器負(fù)責(zé)批量生產(chǎn),人類負(fù)責(zé)質(zhì)量控制。

Vibe基準(zhǔn)構(gòu)建法的工作流程可以比作一個(gè)智能化的圖像制作工廠。首先,原始的問題文本和圖像被輸入到工廠的"原材料倉庫"。然后,高度智能的圖像生成模型——在這個(gè)研究中使用的是Nano Banana Pro(實(shí)際上是Google的Gemini 3 Pro圖像生成模型)——就像是工廠中的自動(dòng)化生產(chǎn)線,根據(jù)指令將原材料加工成成品圖像。

Nano Banana Pro的選擇并非偶然。這個(gè)模型具有兩個(gè)關(guān)鍵優(yōu)勢(shì):首先,它能夠生成極其逼真的圖像,生成的內(nèi)容看起來就像真實(shí)拍攝的照片;其次,它對(duì)日語文本的處理能力特別出色,能夠準(zhǔn)確地在圖像中嵌入清晰、可讀的日語文字。這種能力對(duì)于JMMMU-Pro來說至關(guān)重要,因?yàn)樵S多問題都包含復(fù)雜的日語文本。

研究團(tuán)隊(duì)為這個(gè)"圖像工廠"設(shè)計(jì)了詳細(xì)的生產(chǎn)指南。他們創(chuàng)建了一套靈活的指令模板,可以控制生成圖像的各種特征。這就像是為工廠制定了不同的生產(chǎn)配方,每種配方都能產(chǎn)生不同風(fēng)格的產(chǎn)品。

生產(chǎn)配方包括六個(gè)主要參數(shù)。背景類型可以選擇練習(xí)冊(cè)、考試卷、白板、黑板、投影儀屏幕、iPad屏幕、網(wǎng)頁、任天堂Switch屏幕或電視節(jié)目等九種不同樣式。背景顏色可以選擇白色、淺綠色、淺黃色、淺粉色、淺灰色或淺藍(lán)色等多種顏色。字體樣式包括手寫文字、電腦字體、粗體電腦字體、細(xì)體電腦字體和漫畫風(fēng)格電腦字體。頁邊距可以設(shè)置為大或小。拍攝狀態(tài)可以模擬手機(jī)拍照、電腦截圖或手機(jī)截圖。圖像寬高比可以選擇9:16、16:9、3:4或1:1等不同比例。

通過這些參數(shù)的不同組合,研究團(tuán)隊(duì)能夠生成風(fēng)格多樣的圖像,確保測(cè)試的多樣性和真實(shí)性。這就像是一家能夠生產(chǎn)多種口味糕點(diǎn)的面包店,每種糕點(diǎn)都有獨(dú)特的特色,但制作工藝都同樣精良。

在生產(chǎn)過程中,質(zhì)量控制是至關(guān)重要的一環(huán)。研究團(tuán)隊(duì)建立了一套嚴(yán)格的人工審查流程。每一個(gè)生成的圖像都需要經(jīng)過人工檢查,確保文字清晰可讀、圖像內(nèi)容準(zhǔn)確、整體視覺效果自然。如果發(fā)現(xiàn)問題,審查員會(huì)調(diào)整生產(chǎn)指令并要求重新生成,就像質(zhì)檢員發(fā)現(xiàn)不合格產(chǎn)品后要求重新生產(chǎn)一樣。

在第一輪審查中,約71%的圖像通過了質(zhì)量檢驗(yàn)。剩余29%的圖像主要存在以下問題:?jiǎn)栴}圖像被替換為無關(guān)圖像、圖像中的文字無法清晰讀取、部分問題文字缺失或錯(cuò)誤、或者生成的圖像在視覺上顯得不自然。對(duì)于這些不合格的圖像,研究團(tuán)隊(duì)會(huì)使用相同或稍作調(diào)整的指令重新生成,直到達(dá)到質(zhì)量標(biāo)準(zhǔn)。

值得注意的是,Nano Banana Pro在處理某些類型的內(nèi)容時(shí)存在限制。研究團(tuán)隊(duì)發(fā)現(xiàn),對(duì)于問題文本特別長(zhǎng)的情況、圖像中包含很小或難以渲染的文字、極端寬高比的圖像、化學(xué)公式或樂譜等特殊領(lǐng)域,以及因政策限制被拒絕生成的內(nèi)容,自動(dòng)化生成方法效果不佳。對(duì)于這些情況,研究團(tuán)隊(duì)采用了人工制作的方式,共手工制作了67個(gè)樣本。

通過Vibe基準(zhǔn)構(gòu)建法,研究團(tuán)隊(duì)成功地將約95%的JMMMU-Pro問題實(shí)現(xiàn)了自動(dòng)化生成。這種方法不僅大大降低了制作成本,還顯著提高了制作效率。更重要的是,這種方法具有很強(qiáng)的可擴(kuò)展性,隨著圖像生成技術(shù)的不斷進(jìn)步,未來可以更輕松地構(gòu)建更大規(guī)模、更復(fù)雜的圖像基準(zhǔn)。

四、全面實(shí)驗(yàn)結(jié)果的驚人發(fā)現(xiàn)

為了全面評(píng)估JMMMU-Pro基準(zhǔn)的效果,研究團(tuán)隊(duì)對(duì)14個(gè)不同的大型多模態(tài)模型進(jìn)行了詳細(xì)測(cè)試。這些模型就像是來自不同學(xué)校的學(xué)生,有的來自頂尖私立學(xué)校(閉源商業(yè)模型),有的來自優(yōu)秀公立學(xué)校(開源模型),還有的專門擅長(zhǎng)某種語言或文化背景。通過讓它們參加同一場(chǎng)考試,研究團(tuán)隊(duì)想要了解誰的表現(xiàn)最好,以及不同類型的"學(xué)生"在哪些方面存在差距。

參與測(cè)試的模型可以分為幾個(gè)主要類別。首先是閉源商業(yè)模型的代表,包括OpenAI的GPT-5.2和Google的Gemini3Pro,這些可以看作是"私立貴族學(xué)校"的尖子生。然后是以英語為主的開源模型,如LLaVA-OneVision系列和InternVL系列,它們就像是在英語環(huán)境中接受良好教育的國(guó)際學(xué)生。還有多語言開源模型,如Qwen3VL系列、Phi-4-multimodal等,這些模型具備處理多種語言的能力,就像是從國(guó)際學(xué)校培養(yǎng)出來的多語言人才。最后是專門針對(duì)日語優(yōu)化的開源模型,如Sarashina2系列和Heron-NVILA-Lite,這些可以視為在日語環(huán)境中專門培訓(xùn)的本地化模型。

實(shí)驗(yàn)結(jié)果揭示了一個(gè)令人震驚的現(xiàn)實(shí):幾乎所有開源模型在JMMMU-Pro測(cè)試中都表現(xiàn)不佳,即使是表現(xiàn)最好的開源模型Qwen3-VL-8B也只達(dá)到了47.27%的準(zhǔn)確率,還不到及格線。更令人擔(dān)憂的是,有9個(gè)開源模型的表現(xiàn)甚至低于32%,接近于隨機(jī)猜測(cè)的水平。這就像是一群平時(shí)成績(jī)不錯(cuò)的學(xué)生突然遇到了一種全新的考試形式,結(jié)果大部分人都考得很糟糕。

相比之下,閉源商業(yè)模型的表現(xiàn)則截然不同。GPT-5.2達(dá)到了83.33%的準(zhǔn)確率,而Gemini3Pro更是達(dá)到了驚人的87.04%,這種表現(xiàn)差距就像是普通學(xué)生和學(xué)霸之間的巨大鴻溝。這種差距不僅令人驚訝,也引發(fā)了人們對(duì)開源模型能力的深思。

更有趣的是,當(dāng)研究團(tuán)隊(duì)比較同一模型在原始JMMMU和新的JMMMU-Pro上的表現(xiàn)時(shí),發(fā)現(xiàn)了另一個(gè)重要現(xiàn)象:大部分開源模型在JMMMU-Pro上的表現(xiàn)都比在原始JMMMU上要差。有些模型的準(zhǔn)確率下降幅度甚至達(dá)到了23個(gè)百分點(diǎn),這就像是一個(gè)學(xué)生從課堂測(cè)試到實(shí)際應(yīng)用考試時(shí)成績(jī)大幅下滑。

這種性能下降說明了什么呢?研究團(tuán)隊(duì)認(rèn)為,這反映出開源模型在真正的視覺文本整合理解方面存在根本性缺陷。原來的JMMMU測(cè)試允許模型分別處理圖像和文字,然后再進(jìn)行整合,這相當(dāng)于給了模型額外的"輔助工具"。而JMMMU-Pro則要求模型完全依靠視覺感知來獲取和理解所有信息,這是一個(gè)更接近人類認(rèn)知方式的挑戰(zhàn)。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:不同類型的開源模型表現(xiàn)出不同的問題模式。英語中心的開源模型往往在日語文字識(shí)別方面存在困難,就像一個(gè)只會(huì)英語的學(xué)生突然要用日語答題。多語言模型雖然理論上支持日語,但在復(fù)雜的視覺文本整合任務(wù)中仍然力不從心。而專門的日語模型雖然在語言理解方面有優(yōu)勢(shì),但在視覺感知能力上卻顯得不足。

通過詳細(xì)分析模型在不同學(xué)科領(lǐng)域的表現(xiàn),研究團(tuán)隊(duì)還發(fā)現(xiàn)了一些有趣的規(guī)律。某些需要深度文化理解的題目,即使是表現(xiàn)相對(duì)較好的模型也經(jīng)常出錯(cuò)。這就像是外國(guó)學(xué)生在處理帶有濃厚本土文化色彩的問題時(shí)會(huì)感到困惑一樣。而涉及技術(shù)或科學(xué)計(jì)算的問題,模型的表現(xiàn)相對(duì)更穩(wěn)定一些。

更值得注意的是,研究團(tuán)隊(duì)發(fā)現(xiàn)鏈?zhǔn)剿季S提示(Chain-of-Thought prompting)在JMMMU-Pro中的效果與在原始JMMMU中截然不同。在原始JMMMU中,只有少數(shù)模型能從鏈?zhǔn)剿季S提示中受益,而在JMMMU-Pro中,有更多模型表現(xiàn)出對(duì)這種提示方式的依賴。這說明當(dāng)任務(wù)變得更加復(fù)雜時(shí),模型需要更明確的推理指導(dǎo)。

這些發(fā)現(xiàn)讓研究團(tuán)隊(duì)意識(shí)到,開源社區(qū)在多模態(tài)理解特別是視覺文本整合方面還有很長(zhǎng)的路要走。雖然開源模型在某些單項(xiàng)任務(wù)上表現(xiàn)不錯(cuò),但在需要深度整合多種信息源的復(fù)雜任務(wù)中,它們與商業(yè)閉源模型之間存在顯著差距。

五、深入分析揭示的根本問題

為了理解開源模型在JMMMU-Pro上表現(xiàn)不佳的根本原因,研究團(tuán)隊(duì)進(jìn)行了一系列深入分析。他們就像醫(yī)生診斷病因一樣,試圖找出模型"生病"的確切原因,從而為"治療"提供明確方向。

首先,研究團(tuán)隊(duì)?wèi)岩蓡栴}可能出在日語光學(xué)字符識(shí)別(OCR)能力上。OCR就像是模型的"眼睛",如果連圖像中的文字都無法準(zhǔn)確識(shí)別,那么后續(xù)的理解和推理自然無從談起。為了驗(yàn)證這個(gè)假設(shè),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)專門的OCR測(cè)試:讓每個(gè)模型提取JMMMU-Pro圖像中的完整文字內(nèi)容,然后與原始文字進(jìn)行比較,計(jì)算準(zhǔn)確率。

這種測(cè)試方法類似于視力檢查——讓模型"讀出"圖像中的所有文字,看看它們的"視力"到底如何。研究團(tuán)隊(duì)使用編輯距離算法來計(jì)算模型提取的文字與原始文字之間的相似度,就像比較兩份文檔的相似程度一樣。

測(cè)試結(jié)果顯示,OCR能力確實(shí)與JMMMU-Pro性能存在正相關(guān)關(guān)系,相關(guān)系數(shù)達(dá)到0.593。這意味著模型的"視力"越好,在JMMMU-Pro上的表現(xiàn)也越好。然而,這種相關(guān)性并非絕對(duì)的線性關(guān)系,研究團(tuán)隊(duì)發(fā)現(xiàn)了一些有趣的例外情況。

比如,Heron-NVILA和Sarashina2.2-Vision這兩個(gè)模型在OCR測(cè)試中表現(xiàn)相當(dāng),但在JMMMU-Pro上的成績(jī)卻相差很大。這就像兩個(gè)人的視力測(cè)試結(jié)果差不多,但在需要理解文字內(nèi)容的閱讀理解考試中成績(jī)卻天差地別。這說明僅有良好的"視力"是不夠的,還需要強(qiáng)大的"理解力"。

這個(gè)發(fā)現(xiàn)讓研究團(tuán)隊(duì)意識(shí)到,解決JMMMU-Pro的挑戰(zhàn)需要兩個(gè)層面的能力提升:基礎(chǔ)的OCR能力和高級(jí)的視覺文本整合理解能力。前者就像是學(xué)會(huì)讀字,后者則像是學(xué)會(huì)理解文章含義。即使模型能夠準(zhǔn)確識(shí)別圖像中的每個(gè)字符,如果缺乏將視覺信息和文本信息整合起來進(jìn)行推理的能力,依然無法正確回答問題。

研究團(tuán)隊(duì)通過分析模型的錯(cuò)誤案例進(jìn)一步驗(yàn)證了這個(gè)觀點(diǎn)。他們發(fā)現(xiàn)模型的錯(cuò)誤主要分為兩大類:感知錯(cuò)誤和推理錯(cuò)誤。感知錯(cuò)誤就像是看錯(cuò)了圖或者讀錯(cuò)了字,這類錯(cuò)誤主要源于OCR能力不足。而推理錯(cuò)誤則是在正確識(shí)別了所有信息后,仍然得出錯(cuò)誤結(jié)論,這類錯(cuò)誤反映出模型在深層理解和邏輯推理方面的缺陷。

有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)即使是同一個(gè)模型,在處理JMMMU(原始版本)和JMMMU-Pro時(shí)也會(huì)出現(xiàn)不同類型的錯(cuò)誤。在原始版本中表現(xiàn)正常的模型,在JMMMU-Pro中可能會(huì)犯一些明顯的感知錯(cuò)誤,比如誤讀文字或者混淆圖像內(nèi)容。這說明當(dāng)信息呈現(xiàn)方式發(fā)生變化時(shí),模型的感知機(jī)制也會(huì)受到影響。

研究團(tuán)隊(duì)還發(fā)現(xiàn),模型在處理不同類型的圖像布局時(shí)表現(xiàn)出明顯的偏好性。某些模型在處理類似課本頁面的整齊布局時(shí)表現(xiàn)較好,但在面對(duì)手寫筆記或者黑板照片這樣的"非正式"布局時(shí)就容易出錯(cuò)。這就像某些學(xué)生習(xí)慣了印刷體,突然看到手寫字就感到困惑。

更深層的分析顯示,開源模型在處理需要文化背景知識(shí)的問題時(shí)困難更大。這些問題不僅要求模型具備技術(shù)處理能力,還需要對(duì)日本文化有深入理解。這種文化理解的缺失不僅體現(xiàn)在語言層面,也體現(xiàn)在視覺理解層面——某些具有文化特色的圖像或者符號(hào),模型往往無法正確理解其含義。

通過這些深入分析,研究團(tuán)隊(duì)得出了一個(gè)重要結(jié)論:構(gòu)建真正優(yōu)秀的多模態(tài)理解模型需要在多個(gè)維度同時(shí)發(fā)力。不僅要提升基礎(chǔ)的OCR能力,還要強(qiáng)化視覺文本整合理解能力,同時(shí)還需要豐富的文化背景知識(shí)。這就像培養(yǎng)一個(gè)全面的人才,不僅要有好眼力,還要有好腦力,更要有豐富的文化素養(yǎng)。

六、技術(shù)創(chuàng)新的深遠(yuǎn)影響

JMMMU-Pro和Vibe基準(zhǔn)構(gòu)建法的提出,不僅僅是解決了一個(gè)技術(shù)測(cè)試問題,更在多個(gè)層面產(chǎn)生了深遠(yuǎn)的影響。這些創(chuàng)新就像是在AI研究的海洋中投下了幾顆石頭,激起的漣漪正在向四面八方擴(kuò)散。

從技術(shù)發(fā)展角度來看,JMMMU-Pro填補(bǔ)了日語多模態(tài)理解評(píng)估的重要空白。在這個(gè)基準(zhǔn)出現(xiàn)之前,研究人員就像是在沒有標(biāo)準(zhǔn)尺子的情況下試圖測(cè)量不同AI模型的能力——缺乏統(tǒng)一可靠的測(cè)量工具,很難準(zhǔn)確比較不同模型的優(yōu)劣?,F(xiàn)在,研究社區(qū)終于有了一個(gè)專門針對(duì)日語視覺文本整合理解的"標(biāo)準(zhǔn)尺子"。

這種標(biāo)準(zhǔn)化的評(píng)估工具對(duì)于推動(dòng)開源社區(qū)的發(fā)展具有重要意義。研究結(jié)果清晰地顯示了開源模型與閉源商業(yè)模型之間的巨大差距,這種"現(xiàn)實(shí)沖擊"往往是推動(dòng)技術(shù)進(jìn)步的最強(qiáng)動(dòng)力。就像運(yùn)動(dòng)員看到自己與世界紀(jì)錄之間的差距后會(huì)更加努力訓(xùn)練一樣,開源社區(qū)也會(huì)因?yàn)榭吹矫鞔_的目標(biāo)而加速發(fā)展。

Vibe基準(zhǔn)構(gòu)建法的創(chuàng)新意義可能更加深遠(yuǎn)。這種方法論代表了數(shù)據(jù)集構(gòu)建思維的根本性轉(zhuǎn)變——從傳統(tǒng)的人工主導(dǎo)轉(zhuǎn)向AI輔助的自動(dòng)化生產(chǎn)。這就像是從手工業(yè)時(shí)代跨入了機(jī)器大生產(chǎn)時(shí)代,不僅大大提高了效率,還為構(gòu)建更大規(guī)模、更復(fù)雜的評(píng)估基準(zhǔn)開辟了新道路。

隨著圖像生成技術(shù)的快速發(fā)展,Vibe基準(zhǔn)構(gòu)建法的優(yōu)勢(shì)將變得更加明顯。目前,Nano Banana Pro已經(jīng)能夠處理約95%的樣本自動(dòng)化生成,隨著技術(shù)進(jìn)步,這個(gè)比例還會(huì)繼續(xù)提高。未來,我們可能會(huì)看到完全自動(dòng)化的基準(zhǔn)構(gòu)建流程,人類只需要提供高級(jí)指導(dǎo),具體的制作工作都由AI完成。

這種自動(dòng)化基準(zhǔn)構(gòu)建方法還具有很強(qiáng)的可擴(kuò)展性。研究團(tuán)隊(duì)展示的只是針對(duì)日語的應(yīng)用,但同樣的方法論可以輕松擴(kuò)展到其他語言和文化背景。想象一下,未來可能會(huì)出現(xiàn)阿拉伯語版、泰語版、甚至各種方言版本的類似基準(zhǔn),每種都能準(zhǔn)確反映該語言文化的獨(dú)特特征。

從產(chǎn)業(yè)應(yīng)用角度來看,JMMMU-Pro揭示的問題直指實(shí)際應(yīng)用的痛點(diǎn)。在現(xiàn)實(shí)世界中,用戶經(jīng)常需要AI助手處理包含圖文混合內(nèi)容的任務(wù)——拍攝說明書詢問操作步驟,截圖網(wǎng)頁詢問內(nèi)容理解,拍攝考試題目尋求幫助等等。JMMMU-Pro的測(cè)試結(jié)果表明,目前的開源模型在這些實(shí)際應(yīng)用場(chǎng)景中可能表現(xiàn)不如預(yù)期。

這種"現(xiàn)實(shí)檢驗(yàn)"對(duì)于產(chǎn)品開發(fā)者來說具有重要價(jià)值。它提醒開發(fā)者不能僅僅滿足于模型在單項(xiàng)測(cè)試中的優(yōu)異表現(xiàn),還需要關(guān)注模型在真實(shí)使用場(chǎng)景中的綜合能力。這就像汽車制造商不能僅僅測(cè)試發(fā)動(dòng)機(jī)性能,還需要在真實(shí)道路條件下測(cè)試整車表現(xiàn)一樣。

研究還揭示了一個(gè)重要的商業(yè)現(xiàn)實(shí):在高端多模態(tài)理解能力方面,開源模型與商業(yè)閉源模型之間存在顯著差距。這種差距不僅體現(xiàn)在技術(shù)層面,也反映了資源投入和研發(fā)重點(diǎn)的不同。商業(yè)公司往往有更充足的資源進(jìn)行深度優(yōu)化,特別是在復(fù)雜的多模態(tài)理解任務(wù)上。

然而,這種差距也為開源社區(qū)指明了努力方向。研究團(tuán)隊(duì)通過詳細(xì)分析找出了開源模型的具體不足之處——OCR能力不足、視覺文本整合理解能力欠缺、文化背景知識(shí)缺失等。這些具體的問題診斷為改進(jìn)工作提供了明確的路線圖。

從學(xué)術(shù)研究角度來看,這項(xiàng)工作還催生了許多新的研究問題。如何提升模型的OCR能力?如何增強(qiáng)視覺文本整合理解能力?如何在模型中融入文化背景知識(shí)?如何構(gòu)建更高質(zhì)量的多模態(tài)訓(xùn)練數(shù)據(jù)?每一個(gè)問題都可能成為未來研究的重要方向。

更有趣的是,Vibe基準(zhǔn)構(gòu)建法還可能改變我們對(duì)數(shù)據(jù)集質(zhì)量的認(rèn)知。傳統(tǒng)觀念認(rèn)為人工制作的數(shù)據(jù)集質(zhì)量最高,但這項(xiàng)研究顯示,在合適的質(zhì)量控制機(jī)制下,AI生成的數(shù)據(jù)集也能達(dá)到很高的質(zhì)量標(biāo)準(zhǔn)。這種認(rèn)知轉(zhuǎn)變可能會(huì)影響整個(gè)機(jī)器學(xué)習(xí)領(lǐng)域的數(shù)據(jù)集構(gòu)建實(shí)踐。

展望未來,JMMMU-Pro和Vibe基準(zhǔn)構(gòu)建法可能會(huì)成為推動(dòng)多模態(tài)AI發(fā)展的重要催化劑。就像當(dāng)年ImageNet數(shù)據(jù)集推動(dòng)了計(jì)算機(jī)視覺的飛速發(fā)展一樣,這些新的評(píng)估基準(zhǔn)和構(gòu)建方法可能會(huì)為多模態(tài)理解帶來新的突破。

七、研究的局限與未來展望

任何科學(xué)研究都有其局限性,這項(xiàng)關(guān)于JMMMU-Pro的研究也不例外。研究團(tuán)隊(duì)在論文中坦誠(chéng)地討論了當(dāng)前工作的限制,這種科學(xué)誠(chéng)實(shí)的態(tài)度就像醫(yī)生如實(shí)告知治療方案的適用范圍和潛在風(fēng)險(xiǎn)一樣,有助于讀者正確理解和應(yīng)用研究成果。

首先,Vibe基準(zhǔn)構(gòu)建法雖然大大提高了效率,但并非萬能的解決方案。研究團(tuán)隊(duì)發(fā)現(xiàn),約5%的樣本仍然需要人工制作,這些樣本通常具有一些特殊特征:文本內(nèi)容過長(zhǎng)、圖像中包含極小或難以渲染的文字、極端的圖像寬高比、特殊領(lǐng)域內(nèi)容如化學(xué)公式或音樂符號(hào),以及因內(nèi)容政策限制而被拒絕生成的樣本。這就像是自動(dòng)化工廠雖然能處理大部分產(chǎn)品,但某些特殊工藝品仍然需要手工制作。

這種局限性提醒我們,即使是最先進(jìn)的AI圖像生成技術(shù),在處理某些復(fù)雜或特殊情況時(shí)仍然有其邊界。未來的技術(shù)發(fā)展可能會(huì)逐步縮小這些邊界,但在可預(yù)見的未來,人工干預(yù)仍然是確保質(zhì)量的必要手段。

其次,當(dāng)前的評(píng)估主要集中在選擇題形式的問題上。雖然研究團(tuán)隊(duì)將原始JMMMU中的開放式問題都轉(zhuǎn)換為了選擇題,但這種轉(zhuǎn)換可能會(huì)丟失一些信息。在現(xiàn)實(shí)應(yīng)用中,用戶往往期望AI能夠提供詳細(xì)的解釋和推理過程,而不僅僅是一個(gè)簡(jiǎn)單的選擇。這就像考試形式從論述題變成了選擇題,雖然便于評(píng)分,但可能無法完全反映學(xué)生的真實(shí)能力。

此外,目前的基準(zhǔn)主要關(guān)注日語環(huán)境,雖然方法論具有普遍適用性,但在推廣到其他語言和文化時(shí)可能需要進(jìn)行相應(yīng)的調(diào)整。不同語言的文字系統(tǒng)、文化背景和視覺呈現(xiàn)習(xí)慣都可能影響基準(zhǔn)的適用性。這就像一套為日本學(xué)生設(shè)計(jì)的教材,在應(yīng)用到其他國(guó)家時(shí)需要考慮當(dāng)?shù)氐慕逃幕町悺?/p>

從技術(shù)層面來看,當(dāng)前的評(píng)估主要關(guān)注最終的答案準(zhǔn)確性,而對(duì)模型的推理過程關(guān)注相對(duì)較少。雖然研究團(tuán)隊(duì)測(cè)試了鏈?zhǔn)剿季S提示的效果,但對(duì)于模型內(nèi)部的推理機(jī)制仍然缺乏深入分析。這就像只看到了學(xué)生的考試成績(jī),但不了解他們的解題思路和知識(shí)掌握程度。

針對(duì)這些局限性,研究團(tuán)隊(duì)也提出了未來的改進(jìn)方向。首先,可以進(jìn)一步優(yōu)化Vibe基準(zhǔn)構(gòu)建法,提高AI生成圖像的質(zhì)量和適用范圍,減少需要人工干預(yù)的情況。隨著圖像生成技術(shù)的不斷進(jìn)步,這個(gè)目標(biāo)是完全可以實(shí)現(xiàn)的。

其次,可以擴(kuò)展基準(zhǔn)的評(píng)估維度,不僅評(píng)估最終答案的準(zhǔn)確性,還要評(píng)估模型的推理過程、解釋能力和錯(cuò)誤類型。這種多維度評(píng)估能夠更全面地反映模型的能力水平,為改進(jìn)提供更精確的指導(dǎo)。

再次,可以將這種方法論推廣到更多語言和文化背景,構(gòu)建真正的多語言多文化評(píng)估體系。這不僅有助于推動(dòng)各語言AI技術(shù)的發(fā)展,也有助于研究不同文化背景對(duì)AI理解能力的影響。

從長(zhǎng)遠(yuǎn)來看,研究團(tuán)隊(duì)認(rèn)為JMMMU-Pro可能會(huì)推動(dòng)開源社區(qū)在多模態(tài)理解方面的快速發(fā)展。目前顯現(xiàn)的巨大差距往往是最強(qiáng)的發(fā)展動(dòng)力,就像競(jìng)爭(zhēng)激烈的市場(chǎng)環(huán)境會(huì)催生更多創(chuàng)新一樣,明確的技術(shù)挑戰(zhàn)會(huì)激發(fā)研究者的創(chuàng)造力。

研究團(tuán)隊(duì)還展望了一種可能的未來場(chǎng)景:當(dāng)開源模型在JMMMU-Pro上的表現(xiàn)顯著提升時(shí),我們可能需要構(gòu)建更加復(fù)雜和具有挑戰(zhàn)性的基準(zhǔn)。這種持續(xù)升級(jí)的評(píng)估體系將推動(dòng)AI技術(shù)不斷向前發(fā)展,就像奧運(yùn)會(huì)不斷刷新紀(jì)錄一樣。

最后,這項(xiàng)研究還可能催生一系列相關(guān)的研究方向。比如,如何構(gòu)建更高質(zhì)量的多模態(tài)訓(xùn)練數(shù)據(jù)?如何設(shè)計(jì)更有效的視覺文本整合學(xué)習(xí)算法?如何在有限的計(jì)算資源下實(shí)現(xiàn)最優(yōu)的模型性能?每一個(gè)問題都可能成為未來研究的重要課題。

總的來說,雖然當(dāng)前的研究還存在一些局限性,但它已經(jīng)為多模態(tài)AI研究開辟了新的道路。就像任何開創(chuàng)性的工作一樣,它的價(jià)值不僅在于解決了當(dāng)前的問題,更在于為未來的發(fā)展指明了方向。

研究團(tuán)隊(duì)相信,隨著技術(shù)的不斷進(jìn)步和研究的深入開展,今天的局限將成為明天的突破起點(diǎn)。JMMMU-Pro和Vibe基準(zhǔn)構(gòu)建法就像是種下的種子,在合適的土壤和氣候條件下,必將開花結(jié)果,為AI技術(shù)的發(fā)展貢獻(xiàn)力量。

這項(xiàng)由東京大學(xué)研究團(tuán)隊(duì)完成的工作,不僅為日語AI技術(shù)發(fā)展提供了重要工具,也為整個(gè)多模態(tài)AI研究領(lǐng)域貢獻(xiàn)了新的方法論。它提醒我們,真正的AI進(jìn)步不僅需要技術(shù)創(chuàng)新,還需要科學(xué)嚴(yán)謹(jǐn)?shù)脑u(píng)估方法和持續(xù)不懈的努力。通過這樣的研究,我們正在一步步向著更智能、更實(shí)用的AI系統(tǒng)邁進(jìn)。

Q&A

Q1:JMMMU-Pro與傳統(tǒng)的JMMMU基準(zhǔn)有什么不同?

A:JMMMU-Pro將原本分開提供的圖片和文字問題合并成一張完整圖像,AI模型需要通過視覺感知同時(shí)理解圖像和文字內(nèi)容,這更接近真實(shí)使用場(chǎng)景,如拍攝包含圖文的考試卷、網(wǎng)頁截圖等情況。

Q2:什么是Vibe基準(zhǔn)構(gòu)建法?

A:Vibe基準(zhǔn)構(gòu)建法是一種讓AI圖像生成模型自動(dòng)創(chuàng)建測(cè)試題目的方法,人類只需要檢查質(zhì)量和在必要時(shí)調(diào)整指令。研究中使用Nano Banana Pro生成了約95%的題目,大大提高了效率并降低了成本。

Q3:為什么開源AI模型在JMMMU-Pro測(cè)試中表現(xiàn)這么差?

A:主要有兩個(gè)原因:一是日語OCR能力不足,無法準(zhǔn)確識(shí)別圖像中的文字;二是缺乏視覺文本整合理解能力,即使能看懂文字也無法將圖像和文字信息結(jié)合起來進(jìn)行推理,這需要更深層的認(rèn)知能力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
來聚餐還補(bǔ)工資!東莞一工廠年底聚餐,當(dāng)晚按工時(shí)3.5小時(shí)核工資

來聚餐還補(bǔ)工資!東莞一工廠年底聚餐,當(dāng)晚按工時(shí)3.5小時(shí)核工資

火山詩話
2025-12-28 11:03:19
內(nèi)訌了?洛夫頓發(fā)文:都不相信我,我要回母校,網(wǎng)友: 趕緊滾吧!

內(nèi)訌了?洛夫頓發(fā)文:都不相信我,我要回母校,網(wǎng)友: 趕緊滾吧!

南海浪花
2025-12-28 12:32:59
女子分享10年前火車上偶遇的唱歌小男孩,竟被當(dāng)事人刷到:互聯(lián)網(wǎng)讓10年前的“一面之緣”有了續(xù)集

女子分享10年前火車上偶遇的唱歌小男孩,竟被當(dāng)事人刷到:互聯(lián)網(wǎng)讓10年前的“一面之緣”有了續(xù)集

環(huán)球網(wǎng)資訊
2025-12-28 10:11:35
民族英雄從課本移除,“民族英雄”卻受到吹捧,這事該反思嗎

民族英雄從課本移除,“民族英雄”卻受到吹捧,這事該反思嗎

何氽簡(jiǎn)史
2025-12-27 13:45:11
美國(guó)經(jīng)濟(jì)難于擺脫嚴(yán)重衰退 1975年11月19日《人民日?qǐng)?bào)》

美國(guó)經(jīng)濟(jì)難于擺脫嚴(yán)重衰退 1975年11月19日《人民日?qǐng)?bào)》

那些看得見的老照片
2025-12-17 17:13:44
董明珠零下三十度蹲守黑瞎子島,盯著空調(diào)連續(xù)燒了一百小時(shí)

董明珠零下三十度蹲守黑瞎子島,盯著空調(diào)連續(xù)燒了一百小時(shí)

百態(tài)人間
2025-12-28 05:20:05
中國(guó)不跟美國(guó)談判?特朗普以最高統(tǒng)帥的身份,下令美軍造更多航母

中國(guó)不跟美國(guó)談判?特朗普以最高統(tǒng)帥的身份,下令美軍造更多航母

議紀(jì)史
2025-12-27 17:25:02
極品領(lǐng)導(dǎo)人高市早苗,創(chuàng)下十年最快紀(jì)錄

極品領(lǐng)導(dǎo)人高市早苗,創(chuàng)下十年最快紀(jì)錄

陸棄
2025-11-12 08:55:03
攤牌了!72歲唐國(guó)強(qiáng)終于承認(rèn)與劉曉慶的真實(shí)關(guān)系,曾志偉當(dāng)場(chǎng)傻眼

攤牌了!72歲唐國(guó)強(qiáng)終于承認(rèn)與劉曉慶的真實(shí)關(guān)系,曾志偉當(dāng)場(chǎng)傻眼

觀察鑒娛
2025-12-28 09:51:57
掃地機(jī)器人巨頭給全員發(fā)金子,或共超37斤

掃地機(jī)器人巨頭給全員發(fā)金子,或共超37斤

21世紀(jì)經(jīng)濟(jì)報(bào)道
2025-12-28 17:13:20
俄國(guó)防部前副部長(zhǎng)薩多文科上將在莫斯科突然去世,享年56歲

俄國(guó)防部前副部長(zhǎng)薩多文科上將在莫斯科突然去世,享年56歲

山河路口
2025-12-26 19:47:21
43歲男保姆哭訴:大媽每月給我10000工資,卻讓我每天做這樣的事

43歲男保姆哭訴:大媽每月給我10000工資,卻讓我每天做這樣的事

孢木情感
2025-11-25 07:55:53
腦?!捌珢邸敝袊?guó)人?80%患者都缺一種維生素!

腦?!捌珢邸敝袊?guó)人?80%患者都缺一種維生素!

孟大夫之家1
2025-12-02 19:46:07
俱樂部對(duì)主帥失控,邱彪對(duì)球員失控,球隊(duì)對(duì)輿論失控,山東隊(duì)真亂

俱樂部對(duì)主帥失控,邱彪對(duì)球員失控,球隊(duì)對(duì)輿論失控,山東隊(duì)真亂

姜大叔侃球
2025-12-27 19:46:34
烏專家:中國(guó)“榨干”蘇聯(lián)遺產(chǎn),我們圖紙都沒看懂,他們?cè)斐?.0

烏專家:中國(guó)“榨干”蘇聯(lián)遺產(chǎn),我們圖紙都沒看懂,他們?cè)斐?.0

混沌錄
2025-12-27 21:33:28
分手后“60后”男子起訴“90后”女友,開庭前在法院門口捅刺女方致重傷二級(jí),法院判了

分手后“60后”男子起訴“90后”女友,開庭前在法院門口捅刺女方致重傷二級(jí),法院判了

大象新聞
2025-12-28 16:53:04
馬斯克語出驚人:“日本若繼續(xù)這樣下去,遲早會(huì)從世界上消失!”

馬斯克語出驚人:“日本若繼續(xù)這樣下去,遲早會(huì)從世界上消失!”

忠于法紀(jì)
2025-11-29 22:02:53
1977 年李敏見親姐楊月花,姐姐提特殊要求,舅舅嘆如母性格

1977 年李敏見親姐楊月花,姐姐提特殊要求,舅舅嘆如母性格

嘮叨說歷史
2025-12-24 09:40:23
河北:降雪時(shí)間確定!

河北:降雪時(shí)間確定!

掌中邯鄲
2025-12-28 11:07:50
1952 年鄭洞國(guó)進(jìn)京任職,妻嫌薪低改嫁,20 年后哭著找上門

1952 年鄭洞國(guó)進(jìn)京任職,妻嫌薪低改嫁,20 年后哭著找上門

嘮叨說歷史
2025-12-24 14:47:32
2025-12-28 19:07:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
6680文章數(shù) 544關(guān)注度
往期回顧 全部

科技要聞

特斯拉將在華布局自動(dòng)駕駛?記者求證→

頭條要聞

杭州"兔子警官"哄孩子式執(zhí)法火了 曾當(dāng)過2年幼兒園老師

頭條要聞

杭州"兔子警官"哄孩子式執(zhí)法火了 曾當(dāng)過2年幼兒園老師

體育要聞

83分鐘絕殺!曼城2-1年度收官:英超6連勝狂飆

娛樂要聞

白敬亭現(xiàn)身冰雪大世界 拍視頻還翻車了

財(cái)經(jīng)要聞

英偉達(dá)的收購(gòu)史

汽車要聞

理想的2026:L9不容有失,i9再戰(zhàn)純電?

態(tài)度原創(chuàng)

房產(chǎn)
親子
藝術(shù)
手機(jī)
公開課

房產(chǎn)要聞

降維打擊!三亞CBD驚現(xiàn)“豪宅新王”,高端局要變天了!

親子要聞

千萬別把孩子,養(yǎng)成這種“奴隸”?

藝術(shù)要聞

郭沫若為何輸給康生?只因后者練過一部“百億法帖”,內(nèi)藏古人秘法

手機(jī)要聞

蘋果越戰(zhàn)越勇,小米、vivo、OPPO呢?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版