国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

考試周來了,港科大教授實測戴AI眼鏡“作弊”

0
分享至

夢瑤 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

離了大譜了,AI真·走進(jìn)了大學(xué)期末考場,并且還是以作弊者的身份。(你就說震不震驚吧)

沒開玩笑,事情就發(fā)生在香港科技大學(xué)《計算機(jī)網(wǎng)絡(luò)原理》的本科期末考試“現(xiàn)場”。

一副搭載ChatGPT-5.2模型的AI眼鏡,被直接戴上鼻梁,在復(fù)刻真實考試條件的情況下,完成了整套期末試卷:



結(jié)果甚是魔幻:30分鐘交卷,狂攬92.5分,并在一百多人的排名里躋身進(jìn)了前五,輕松碾壓超95%的人類考生:



果然,一代人有一代人的學(xué)習(xí)工具,以前是小抄復(fù)習(xí)資料,這回直接升級成——「整機(jī)」。

只不過,當(dāng)這套整機(jī)已經(jīng)能完整跑完一整套考試流程時,大家關(guān)注的重點,可能不再只是AI會不會答卷了。

這一次,AI“作弊者”只是像人類學(xué)生那樣完整答了一遍題,卻讓傳統(tǒng)的教學(xué)評估體系看起來似乎有點站不住腳。

一副AI眼鏡,跑完了一整場大學(xué)期末考試

這場看似離譜的「人機(jī)同場考試」,可不是學(xué)生的臨時整活,而是由香港科技大學(xué)張軍教授、孟子立教授團(tuán)隊主導(dǎo)的一場實驗。

目標(biāo)很明確,那就是讓一副搭載大模型的AI眼鏡,光明正大地在考場“作弊”,然后看它能考多高分~

其選中的測試場景也是非常的簡單粗暴,直接瞄準(zhǔn)了令無數(shù)大學(xué)生《聞風(fēng)喪膽》的專業(yè)課——計算機(jī)網(wǎng)絡(luò)原理。(瑟瑟發(fā)抖…



這門課程不僅考查海量的專業(yè)概念,更涉及嚴(yán)密的邏輯推導(dǎo)與算法應(yīng)用,對人類學(xué)生來說是不小的挑戰(zhàn),對AI而言更是難度拉滿。

對此,為了讓這位AI考生發(fā)揮出最強(qiáng)實力,項目組在「軟硬件」篩選上可謂是做足了功課!

在硬件篩選環(huán)節(jié),項目團(tuán)隊對市面上12款主流商業(yè)智能眼鏡進(jìn)行了系統(tǒng)評估,其中也包括大家熟悉的Meta、小米、樂奇Rokid等廠商的產(chǎn)品:



第一輪篩選后,團(tuán)隊發(fā)現(xiàn)真正同時具備內(nèi)置攝像頭和集成顯示屏的產(chǎn)品其實并不多,進(jìn)入候選范圍的主要只有Meta Ray-Ban、Frame,以及樂奇Rokid。

但實驗還需要進(jìn)行二次開發(fā),盡管Meta提供了設(shè)備訪問工具包,但并未開放對顯示內(nèi)容的直接控制接口,難以滿足實驗對信息呈現(xiàn)方式的要求。

相比之下,樂奇Rokid的SDK更豐富、生態(tài)更完善,開發(fā)自由度顯著更高。

再綜合考慮Frame在試卷識別等場景下的相機(jī)畫質(zhì)限制,研究團(tuán)隊最終選擇了樂奇AI眼鏡作為這次人機(jī)同場考試的硬件測試選手:



而在決定大腦上限的大模型篩選上,團(tuán)隊則對比了多款主流模型,最終鎖定了OpenAI目前最新的模型——無論是響應(yīng)速度還是通用知識能力都較強(qiáng)的ChatGPT—5.2

軟硬件「考生」均已就位,接下來就是重頭戲——大考。

考試過程,可以用絲滑二字來形容:學(xué)生低頭查看試卷,AI眼鏡通過攝像頭快速拍攝題目,并經(jīng)由“眼鏡—手機(jī)—云端”鏈路將圖像傳輸至遠(yuǎn)程大模型完成推理,生成的答案再沿相反路徑返回,最終顯示在眼鏡屏幕上,供學(xué)生抄錄。



結(jié)果您猜怎么著?這款基于Rokid Glasses開發(fā)、搭載GPT-5.2模型的AI眼鏡,在本次期末考試中拿下92.5分,成績超過了95%的學(xué)生。

不僅如此,在多項選擇題和單頁短答題中,樂奇Rokid均獲得滿分,即便是難度更高的跨頁短答題(SAQ),也拿到了大部分分?jǐn)?shù):



此外,在面對那些核心問題被拆分在不同頁碼、高度依賴上下文邏輯的跨頁短答題,樂奇Rokid依然展現(xiàn)出了極強(qiáng)的推理連貫性。

即便在計算最復(fù)雜的部分偶爾出現(xiàn)偏差,但AI給出的中間步驟也算得上非常完整,在處理高壓知識任務(wù)時也是手拿把掐~



當(dāng)然,這場測試在跑通軟件邏輯的同時,也無情地照出了目前商業(yè)AI眼鏡存在的《短板》。

首先暴露出來的,是功耗問題。

在考試這樣的高壓連續(xù)場景下,連接本身就已經(jīng)成為主要耗電源,實驗中只要開啟Wi-Fi、持續(xù)進(jìn)行高分辨率圖像傳輸,30分鐘內(nèi)眼鏡電量就會從100%迅速跌到58%。

換句話說,如果AI眼鏡要真正走向全天候、長時間使用,功耗控制和連接穩(wěn)定性依然是繞不開的工程瓶頸…

不僅如此,項目團(tuán)隊還發(fā)現(xiàn)眼鏡攝像頭的「清晰度」會直接決定AI的視力,一旦題目出現(xiàn)模糊、反光或拍攝角度偏差,再強(qiáng)的模型也只能在不完整信息上做推理,最終體現(xiàn)在答題表現(xiàn)上的,就是明顯下滑的穩(wěn)定性。

但…這場測試帶來的沖擊和反思,并不只停留在技術(shù)層面。

在不做任何特殊照顧的前提下,AI眼鏡依然能夠把一整套讀題—理解—作答的流程跑得又快又穩(wěn),這反過來照出了一個更值得注意的問題——

當(dāng)教學(xué)評估主要關(guān)注的只是最后有沒有交出一份「標(biāo)準(zhǔn)答案」時,它恰好落在了AI最擅長、也最穩(wěn)定的能力區(qū)間里。

也正因為如此,那套以知識點掌握程度和標(biāo)準(zhǔn)解題路徑為核心的教學(xué)評估方式,在一個早已被各種“學(xué)習(xí)機(jī)”包圍的時代,開始顯得有些吃力了。

有了聰明的AI,傳統(tǒng)教學(xué)評估標(biāo)準(zhǔn)還站得住腳嗎

不知道大家有沒有發(fā)現(xiàn)一件挺有意思的事情:

從小學(xué)一路考到大學(xué),我們最熟悉的考試,其實一直在反復(fù)確認(rèn)同一件事,那就是有沒有把老師講的內(nèi)容記住,以及能不能按標(biāo)準(zhǔn)方法,把題一步步算對。

u1s1,在很長一段時間里,這套評估方式確實挺管用。

因為在記憶、計算、按步驟推導(dǎo)這些能力上,人和人之間確實存在明顯差距,有人記得牢、算得快,有人就是會漏步驟、算錯數(shù)。

成績單上的數(shù)字,也確實能覆蓋一個人相當(dāng)大比例的學(xué)習(xí)表現(xiàn)。

但問題在于,當(dāng)AI開始在這些評估維度上,也變得又快、又穩(wěn)、而且?guī)缀醪怀鲥e時,事情就開始變得微妙了…



此前,一位創(chuàng)業(yè)者小孩哥Eddy Xu通過改裝Meta智能眼鏡,做出了一套可以在國際象棋比賽中實時顯示最優(yōu)解法的“作弊”設(shè)備,在幾乎不需要自己思考的情況下,就能穩(wěn)定贏下對局:



在這個過程中,AI眼鏡不會緊張,也不會疲勞,更不存在臨場波動,一個字形容——穩(wěn)。

這和樂奇Rokid眼鏡參加期末考試的表現(xiàn)其實是同一套邏輯:只要題目規(guī)則清晰、評價目標(biāo)單一,AI就能把讀題—理解—推理—作答這套流程穩(wěn)定跑完。

哪怕脫離紙筆形態(tài),它依然能在高度結(jié)構(gòu)化的考試?yán)?,持續(xù)拿到高分。

類似的案例并不只發(fā)生在個人層面。

此前,英國雷丁大學(xué)的一項研究還發(fā)現(xiàn),當(dāng)研究人員將AI生成的答卷混入考試題庫后,有高達(dá)94%的試卷成功“渾水摸魚”,而這些AI的平均成績,甚至還明顯高于真實學(xué)生…(天塌啦

這下是真有點尷尬了——比人比不過,比AI也比不過:



讓人大跌眼鏡大開眼界的同時,一個原本不那么尖銳的問題被直接推到臺前——

當(dāng)AI或機(jī)器比人更擅長按標(biāo)準(zhǔn)作答時,那套以筆試為核心、用來衡量知識點掌握程度的評估體系,到底在測什么?

回過頭看教學(xué)培養(yǎng)的最初目的,我們會發(fā)現(xiàn)很多被反復(fù)強(qiáng)調(diào)的重要能力,其實并不天然適配“一張試卷”這種形式。

——比如提出好問題的能力。

——在信息不完整時做判斷的能力。

——在多種方案之間權(quán)衡取舍的能力。

——以及理解現(xiàn)實情境、理解他人立場的能力。

這些能力真正指向的是學(xué)習(xí)過程、思考路徑決策質(zhì)量,答案是否標(biāo)準(zhǔn)只是其中很小的一部分。

也是長期以來最難被傳統(tǒng)筆試捕捉,最容易被系統(tǒng)性忽略,恰好也是AI最難替代、也最能區(qū)分學(xué)生真實素養(yǎng)的地方。

從結(jié)果導(dǎo)向,轉(zhuǎn)向?qū)ν评砺窂?、探究過程、跨學(xué)科整合與創(chuàng)造性解題能力的整體評估,這也許才是AI眼鏡進(jìn)入考場后,對現(xiàn)有教學(xué)評估體系提出的那道真正難題。

評估重心從「交答案」到「交思路」

教育心理學(xué)家加德納曾在《Frames of Mind》中提到,人類至少擁有8種不同類型的智能——

包括語言、邏輯數(shù)學(xué)、空間、音樂、人際、內(nèi)省、身體運動、自然觀察。

從這個視角看,人類能力本身就是一個高度多維的結(jié)構(gòu),而我們所熟悉的教學(xué)評估體系,長期以來卻只集中捕捉了其中非常狹窄的一段。



這也不難解釋,為啥一些在標(biāo)準(zhǔn)化測試中表現(xiàn)并不突出的學(xué)生,反而能在真實世界中展現(xiàn)出更強(qiáng)的創(chuàng)造力、協(xié)作能力和復(fù)雜問題解決能力。

畢竟單一考試成績更多反映的只是學(xué)生在「標(biāo)準(zhǔn)化環(huán)境」中的發(fā)揮穩(wěn)定性,像真實情境下的個人綜合素質(zhì)其實顯露不太出來……

也正因如此,如何評估創(chuàng)新能力、批判性思維和復(fù)雜問題解決能力,正在成為教育評估體系繞不開的一個現(xiàn)實難題。

目前一些指向不同方向的評估嘗試,已經(jīng)出現(xiàn)~

前不久,紐約大學(xué)Stern商學(xué)院教授Panos Ipeirotis推出了一套由AI支撐的口試評估方式,學(xué)生不僅要提交作業(yè),還需要當(dāng)場解釋自己的決策依據(jù)和思路走向,在對話中把理解與推理展開來。

這套機(jī)制中,AI先充當(dāng)考官進(jìn)行追問,再參與到后續(xù)評估環(huán)節(jié)。

Claude、Gemini和ChatGPT會分別對口試轉(zhuǎn)錄進(jìn)行獨立評分,隨后交叉審查并修訂結(jié)果,用來判斷學(xué)生是否真正理解問題,同時暴露教學(xué)中的共性盲區(qū):



怎么說呢,感覺這種做法談不上專門“對付”AI,但確實把教學(xué)評估重心往理解本身挪了一步。

類似的變化并非個例,此前《華盛頓郵報》也提到,目前國外部分高校已經(jīng)開始引入口試、展示型作業(yè)等形式,本質(zhì)上也是為了讓學(xué)生的思考過程變得顯現(xiàn)。

所以回過頭看,當(dāng)搭載GPT-5.2的樂奇AI眼鏡走進(jìn)考場并交出高分時,AI是否「考贏」了學(xué)生似乎也沒有那么重要了。

它更像一次特別但清晰的顯影實驗,讓一個長期存在卻很少被正視的問題浮出水面:

傳統(tǒng)教學(xué)評估高度依賴最終答案,卻幾乎無法刻畫整個學(xué)習(xí)過程。

分?jǐn)?shù)當(dāng)然是有意義的,但它所能解釋的范圍正在變窄,理解是否真正發(fā)生、思路是否連貫、判斷是否經(jīng)過取舍,這些關(guān)鍵環(huán)節(jié),仍然被壓縮成一個單一結(jié)果,難以被區(qū)分和看見。

也正是在這一點上,單純地把技術(shù)擋在門外,其實已經(jīng)很難回應(yīng)問題本身了。(也不見得阻擋得了…

更現(xiàn)實的挑戰(zhàn),變成了如何讓學(xué)生把AI用在信息整理、方案推演和假設(shè)驗證上,把人的精力集中到判斷、理解和選擇這些無法被「外包」的環(huán)節(jié)。

當(dāng)工具可以穩(wěn)定完成信息提取與標(biāo)準(zhǔn)作答,課堂與考試是否還能區(qū)分不同層次的思考,正被推到臺前。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
深圳一高速今年或?qū)⒚赓M通行!

深圳一高速今年或?qū)⒚赓M通行!

深圳晚報
2026-01-07 22:10:45
突發(fā)!柬埔寨太子集團(tuán)創(chuàng)始人、電詐頭目陳志落網(wǎng),已被遣送回中國

突發(fā)!柬埔寨太子集團(tuán)創(chuàng)始人、電詐頭目陳志落網(wǎng),已被遣送回中國

每日經(jīng)濟(jì)新聞
2026-01-07 22:31:34
俄羅斯這一招,把烏克蘭干懵了。就連整個歐洲都開始后怕起來。

俄羅斯這一招,把烏克蘭干懵了。就連整個歐洲都開始后怕起來。

安安說
2025-12-21 14:46:34
依木蘭落選原因曝光!名記:對抗無優(yōu)勢,未來大有用武之地

依木蘭落選原因曝光!名記:對抗無優(yōu)勢,未來大有用武之地

奧拜爾
2026-01-07 15:03:33
太給力了!郴州一工廠員工聚餐抽獎,獎金168000元,設(shè)1143個名額

太給力了!郴州一工廠員工聚餐抽獎,獎金168000元,設(shè)1143個名額

火山詩話
2026-01-07 11:06:32
全球首款可量產(chǎn)全固態(tài)電池發(fā)布,充電一分鐘可續(xù)航60公里,已有摩托車采用

全球首款可量產(chǎn)全固態(tài)電池發(fā)布,充電一分鐘可續(xù)航60公里,已有摩托車采用

紅星資本局
2026-01-06 19:14:11
他曾是香港最紅風(fēng)水師,臨終前留給信命之人的三句話,值得借鑒

他曾是香港最紅風(fēng)水師,臨終前留給信命之人的三句話,值得借鑒

阿器談史
2026-01-07 10:45:12
美橄欖球明星的隱私部位尺寸,被模特前妻公開討論,怒而對簿公堂

美橄欖球明星的隱私部位尺寸,被模特前妻公開討論,怒而對簿公堂

譯言
2026-01-07 10:33:38
連續(xù)4年破萬!梅毒成日本亞文化,年輕人竟追當(dāng)潮流?

連續(xù)4年破萬!梅毒成日本亞文化,年輕人竟追當(dāng)潮流?

湊近看世界
2026-01-06 15:41:43
專家臉被打腫!2025年油車銷量逆勢暴漲,車主:終于明白了!

專家臉被打腫!2025年油車銷量逆勢暴漲,車主:終于明白了!

老特有話說
2026-01-07 00:30:03
美軍突襲帶走馬杜羅,中俄遭遇嚴(yán)峻考驗,影響著實遠(yuǎn)超經(jīng)濟(jì)層面

美軍突襲帶走馬杜羅,中俄遭遇嚴(yán)峻考驗,影響著實遠(yuǎn)超經(jīng)濟(jì)層面

聚焦熱點內(nèi)幕
2026-01-07 23:46:17
挪威媒體:索爾斯克亞正和曼聯(lián)談判,可能最快周五完成簽約

挪威媒體:索爾斯克亞正和曼聯(lián)談判,可能最快周五完成簽約

懂球帝
2026-01-07 17:27:25
住建部已摸清國內(nèi)房子數(shù)量,過剩嚴(yán)重到什么程度?樓市迎來大變局

住建部已摸清國內(nèi)房子數(shù)量,過剩嚴(yán)重到什么程度?樓市迎來大變局

復(fù)轉(zhuǎn)這些年
2026-01-06 23:53:39
股價跌去近70%!霸王茶姬,咋了?

股價跌去近70%!霸王茶姬,咋了?

包不同
2026-01-07 11:12:42
新的發(fā)現(xiàn)必將震驚世界,黃土高原的地底,埋藏著無數(shù)的古人類遺跡

新的發(fā)現(xiàn)必將震驚世界,黃土高原的地底,埋藏著無數(shù)的古人類遺跡

兵鑒史
2026-01-07 16:59:56
尷尬,特雷楊表示籃網(wǎng)和森林狼是他的首選,但這兩隊對他不感興趣

尷尬,特雷楊表示籃網(wǎng)和森林狼是他的首選,但這兩隊對他不感興趣

好火子
2026-01-08 01:12:38
賴清德準(zhǔn)備抓人,鄭麗文也有危險?大陸出手,對臺獨打手終身追責(zé)

賴清德準(zhǔn)備抓人,鄭麗文也有危險?大陸出手,對臺獨打手終身追責(zé)

觸摸史跡
2026-01-07 13:55:48
再摳門,也不要在網(wǎng)上買這6樣?xùn)|西,會致癌,看完真會后怕的!

再摳門,也不要在網(wǎng)上買這6樣?xùn)|西,會致癌,看完真會后怕的!

古事尋蹤記
2026-01-07 07:18:22
這下麻煩大了!不到48小時,閆學(xué)晶再迎2大噩耗,何慶魁也被牽連

這下麻煩大了!不到48小時,閆學(xué)晶再迎2大噩耗,何慶魁也被牽連

阿纂看事
2026-01-07 12:16:27
聯(lián)合國還有什么意義?在安理會無視中方發(fā)言后,中國記者靈魂提問

聯(lián)合國還有什么意義?在安理會無視中方發(fā)言后,中國記者靈魂提問

墨蘭史書
2026-01-07 16:25:03
2026-01-08 01:36:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11983文章數(shù) 176356關(guān)注度
往期回顧 全部

科技要聞

精華!黃仁勛CES記者會:揭秘新款大殺器

頭條要聞

委向美移交5000萬桶原油有部分原本銷往中國 中方回應(yīng)

頭條要聞

委向美移交5000萬桶原油有部分原本銷往中國 中方回應(yīng)

體育要聞

賣水果、搬磚的小伙,與哈蘭德爭英超金靴

娛樂要聞

《馬背搖籃》首播,革命的樂觀主義故事

財經(jīng)要聞

農(nóng)大教授科普:無需過度擔(dān)憂蔬菜農(nóng)殘

汽車要聞

燃油駕趣+智能電感雙Buff 試駕全新奧迪Q5L

態(tài)度原創(chuàng)

健康
教育
旅游
時尚
軍事航空

這些新療法,讓化療不再那么痛苦

教育要聞

中等生的“勤奮”,為何毫無回報

旅游要聞

嗨到凌晨3點!仙游一網(wǎng)紅夜市即將啟用!0成本即可當(dāng)老板...

李夢系穿搭,就這么養(yǎng)成了

軍事要聞

特朗普政府正在討論獲取格陵蘭島的方案 包括軍事選項

無障礙瀏覽 進(jìn)入關(guān)懷版