国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

人均不到3元!被AI作弊逼急的教授玩“邪修”:“花105元,給全班36人辦了場AI口試”

0
分享至


編譯 | 鄭麗媛

出品 | CSDN(ID:CSDNnews)

最近,紐約大學(xué)斯特恩商學(xué)院數(shù)據(jù)科學(xué)教授 Panos Ipeirotis 遇到了一種“詭異的幸?!?。

在他與 Konstantinos Rizakos 聯(lián)合授課的全新課程《AI/ML 產(chǎn)品管理》上,學(xué)生們的課前作業(yè)質(zhì)量突然整體飆升,好得有點反常:不是“優(yōu)秀學(xué)生”的那種好,而是“像咨詢公司報告、被反復(fù)精修三輪”的那種好。

于是,Panos 和 Konstantinos 干了一件十分原始的事情:課堂隨機點名,讓學(xué)生現(xiàn)場解釋自己寫的作業(yè)內(nèi)容。結(jié)果非?!澳Щ谩保汉芏嘧鳂I(yè)看起來條理清晰、結(jié)構(gòu)完美的學(xué)生,在被追問兩三個細節(jié)后就露餡了——連自己為什么這么做都講不清楚,還有些學(xué)生干脆全程“當(dāng)機”。

“這種現(xiàn)象不可能只是緊張或運氣不好”,Panos 直言:“如果一個人連自己交的作業(yè)都講不明白,那么這份書面作業(yè),就根本沒測出我們想要評估的真實能力。”

發(fā)現(xiàn)這個問題后,Panos 突然想到了幾個月前,芝加哥大學(xué)布斯大學(xué)商學(xué)院 Brian Jabarian 領(lǐng)導(dǎo)的一項研究結(jié)果:AI 在做招聘面試時,反而比人類更好,原因很簡單:人會累、有偏見、執(zhí)行標(biāo)準(zhǔn)不一致,而 AI 不會。

而這個結(jié)論,讓 Panos 他們產(chǎn)生了一個放在兩年前聽起來像笑話的想法:

既然這樣,要不直接讓語音 AI 代理來當(dāng)期末口試的考官?


有人會問為什么現(xiàn)在口試

這個問題的核心,其實既簡單又殘酷:現(xiàn)在,學(xué)生可以隨時調(diào)用 LLM來應(yīng)對傳統(tǒng)意義上的大部分考題,過去那種“通過課后作業(yè)就能衡量學(xué)生理解程度”的舊模式,已經(jīng)徹底失效了。

那改成課堂閉卷筆試不就行了?確實,Panos 他們在期中考試時就這么干了,但還有一個更棘手的問題:小組項目。

以前,Panos 擔(dān)心的是“搭便車”,即學(xué)生把任務(wù)甩給隊友;而現(xiàn)在,更可怕的事情出現(xiàn)了:Gemini 3.0 發(fā)布,NotebookLM 能直接生成毫無破綻的演示文稿。

一瞬間,哪怕一個學(xué)生對項目毫無參與,他也能在臺上講得天花亂墜——而老師根本無從分辨。

基于此,口試成了自然而然的應(yīng)對方案:

● 它要求學(xué)生進行實時推理、對全新問題靈活應(yīng)用知識、并為自己的每一個決策辯護;

● 沒有 LLM 在旁“提示”,更沒有“我查一下”的時間讓 ChatGPT 生成答案;

● 整個過程,只有你、你的知識儲備,以及考官。

但唯一的問題是:口試的規(guī)?;涞?,簡直是一場后勤噩夢。

以 Panos 的這門課為例,有 36 名學(xué)生、2位授課老師,勉強還能應(yīng)付。但不少學(xué)生要求協(xié)調(diào)考試時間:“我 15 號要趕飛機”、“那天我還有三門期末考”、“我要回家參加家庭活動”……Panos 感慨,這些理由全都合情合理:“但試想一下,如果班級規(guī)模擴大十倍,協(xié)調(diào)考試時間就會變成一場曠日持久的拉鋸戰(zhàn)。”

這就是為什么口試一直難以規(guī)?;脑颉菗Q個思路,用 AI“走個捷徑”。


語音 AI 代理,搞定口試規(guī)?;?/strong>

Panos 他們選擇用 ElevenLabs 的對話式 AI 平臺,打造了一個“語音口試智能體”。

據(jù)介紹,這個平臺把 ASR、TTS、打斷處理、輪次控制等臟活全都封裝好了。針對低風(fēng)險場景(比如日常作業(yè))的基礎(chǔ)版 AI 考官,甚至幾分鐘就能搭建好了——只需要寫一段提示詞,明確 AI 需要向?qū)W生提問的方向,整個系統(tǒng)就可以上線運行。

在 Panos 的方案中,有兩個功能起到了關(guān)鍵作用:

● 動態(tài)變量:將學(xué)生姓名、項目細節(jié)等個性化信息作為參數(shù)傳入對話流程,實現(xiàn)真正的 “個性化口試”。

● 工作流設(shè)計:用多個子 Agent 構(gòu)建結(jié)構(gòu)化流程,而不是通用一個“話癆大模型”去亂聊。


這場 AI 口試長什么樣?

具體而言,Panos 他們設(shè)計的口試分為兩部分:

(1)環(huán)節(jié)一:“聊聊你的項目”

AI 代理將圍繞學(xué)生的結(jié)課項目展開提問,包括項目目標(biāo)、數(shù)據(jù)來源、模型選型依據(jù)、評估指標(biāo)設(shè)計、以及項目中遇到的失敗與不足。這正是“用 LLM 代寫作業(yè)”的學(xué)生的死穴——你可以讓 ChatGPT 幫你寫,但你很難即興編出一套自洽的決策邏輯。

(2)環(huán)節(jié)二:“現(xiàn)場分析一個案例”

AI 代理將從課程講過的案例中隨機抽取一個,圍繞案例涉及的知識點進行提問——本質(zhì)上是檢驗學(xué)生是真的吸收了知識,還是僅僅來課堂“打個卡”。

為了支撐這套結(jié)構(gòu)化流程,他們把口試工作流拆分成了三個各司其職的子 Agent:

● 身份驗證 Agent:要求學(xué)生提供學(xué)號,只有輸入有效學(xué)號才能進入考試環(huán)節(jié)。

● 項目討論 Agent:通過參數(shù)注入學(xué)生的項目背景,提示詞中包含每個項目的詳細信息,確保 AI 能提出有針對性的問題。

● 案例討論 Agent:負(fù)責(zé)隨機抽取案例并進行結(jié)構(gòu)化提問。

這種“多個小 Agent 協(xié)作”的模式,絕非為了追求技術(shù)上的“好看”,它不僅能有效防止對話偏離預(yù)設(shè)軌道,還能讓系統(tǒng)調(diào)試變得清晰可控。


成本與效果如何?用數(shù)字說話

把這套 AI 口試系統(tǒng)實踐之后,Panos 他們初步統(tǒng)計了一下:

● 36 名學(xué)生,9 天內(nèi)完成全部口試

● 平均耗時 25 分鐘(最短 9 分鐘,最長 64 分鐘)

● 每場對話平均交互 65 輪

● 成本:0.42 美元/人,總計 15 美元

● 三個 AI 模型評分一致度:89% 在 1 分以內(nèi)

● 最短考試時間 9 分鐘的學(xué)生,反而拿了最高分 19 分(滿分 20 分)

對此,Panos 還仔細算了一筆賬:36 名學(xué)生的口試總成本為 15 美元(約人民幣 105 元),具體開銷如下:Claude(主評分模型)8 美元、Gemini 2 美元、OpenAI 0.3 美元、ElevenLabs 語音時長費用約 5 美元——平攤下來,每個學(xué)生僅需 0.42 美元(約人民幣 2.9 元)。

要是換成純?nèi)斯さ脑挘?6 名學(xué)生 × 每人 25 分鐘 × 2 名考官 = 30 小時的人工工時。哪怕按助教時薪 25 美元計算,總成本也高達 750 美元,如果按教授時薪計算,成本更是高到 Panos “根本就不會考慮組織口試”的地步。

可如今僅花費15 美元,Panos 就實現(xiàn)了:實時口試評估、Claude + Gemini + ChatGPT 三模型評審委員會、包含原文引用的結(jié)構(gòu)化反饋、完整的考試審計追蹤。更重要的是,通過這次嘗試,他們還發(fā)現(xiàn)了自己教學(xué)過程中存在的漏洞。


踩過的坑,比你想象的多

不過,對于這套 AI 口試系統(tǒng)的打磨,Panos 他們也并非一步到位,在實踐中踩了不少坑。

(1)聲音太“嚇人”

Panos 他們原本選擇了 Foster Provost 的聲音,結(jié)果大多學(xué)生反饋:像在被罵。

解決方案:以后 A/B Test 多種聲音,優(yōu)化“理解體驗”,而不是一味強調(diào)“權(quán)威感”。

(2)一次性問四個問題

Agent 會說:請解釋你的指標(biāo)選擇,并告訴我你試過哪些基線,為什么沒用 X,以及你下一步打算做什么——顯然,這一下子問了 4 個問題。口試本身就要求學(xué)生實時思考,認(rèn)知負(fù)荷已經(jīng)很高,疊加多個問題只會讓學(xué)生不堪重負(fù)。

解決:在 Prompt 中加入硬性規(guī)則,一次只提一個問題,如果需要進行多維度追問,必須拆分成多個對話輪次。

(3)重復(fù)問題時偷偷改寫

過程中,學(xué)生會問:“能重復(fù)一下問題嗎?”有時 Agent 會換種問法,結(jié)果把原本的題目都變了。

解決:在 Prompt 中明確指令,當(dāng)學(xué)生要求重復(fù)問題時,必須逐字復(fù)述,嚴(yán)禁改寫,一個字都不能變。

(4)不給學(xué)生思考時間

學(xué)生剛一停頓思考,AI 就立刻插話追問,甚至?xí)殉聊?dāng)成“學(xué)生沒聽懂”,直接跳過當(dāng)前問題。解決:在 Prompt 中要求 AI 留出思考時間,避免過度追問。把 AI 觸發(fā)“你還在嗎?”的超時等待時間,從 5 秒延長到了 10 秒。

(5)LLM 根本不懂什么叫隨機

Panos 原本要求 AI “隨機抽取” 一個案例進行提問,結(jié)果 12 月 12-18 日期間,只要案例列表里有“Zillow”(美國房產(chǎn)平臺),AI 選中它的概率就高達 8%。

解決:把隨機性從 Prompt 層面轉(zhuǎn)移到代碼層面,即生成一個顯式的隨機數(shù),再將隨機數(shù)與案例進行確定性映射。隨機性由代碼來保證,而非依賴 LLM 的選擇。


評分委員會:三模型互相“掰頭”真的有效

借鑒 Andrej Karpathy 的思路,Panos 他們采用了“LLM 評分委員會”的模式:

讓 Claude、Gemini、ChatGPT 三個模型,分別獨立評估每場口試的對話記錄;之后,讓每個模型看到另外兩個模型的評分和理由,并據(jù)此修正自己的評分;最后,由 Claude 擔(dān)任 “主考官”,綜合所有模型的意見,生成最終評分和詳細依據(jù)。

第一輪的結(jié)果簡直慘不忍睹:三個模型的評分完全一致的情況為 0%,僅有 23% 的評分誤差在 2 分以內(nèi);在 20 分滿分的體系下,評分的最大平均誤差接近 4 分。

甚至,不同模型的“打分風(fēng)格”也不一樣:Gemini 堪稱“心軟的老好人”,平均分高達 17分;而 Claude 的平均分只有 13.4 分——3.6 分的差距,剛好是 B+ 和 B- 的區(qū)別。而 Claude 和 OpenAI 的打分尺度在第一輪就已經(jīng)比較接近:70% 的評分誤差不超過 1 分。


而當(dāng)模型們進入 “審議環(huán)節(jié)”(看到彼此的評分和理由)后,評分一致性發(fā)生了質(zhì)的飛躍:Gemini 在參考了 Claude 和 OpenAI 更嚴(yán)格的評分依據(jù)后,平均分直接下調(diào)了 2 分——因為它無法再為那些“實驗討論存在明顯 bug”的答卷,給出 17 分的高分。


更有意思的是,模型之間的評分分歧并不是隨機出現(xiàn)的。

在“問題框架設(shè)計”和“評估指標(biāo)選擇”這兩個維度上,三大模型在 1 分以內(nèi)的一致率是 100%;但在“實驗設(shè)計”上,一致率只有 57%。


為什么會這樣?原因其實很直觀: 當(dāng)學(xué)生給出的回答清晰、具體、有結(jié)構(gòu)時,不論是人還是 AI,評分都高度一致;當(dāng)學(xué)生的回答開始變得空泛、含糊、全是套話時,評分者就會在“到底該給多少部分分”上產(chǎn)生巨大分歧。所以,“實驗設(shè)計”這一項的一致率低,反映的不是模型不靠譜,而是學(xué)生的回答本身就存在模糊性。

除此之外,Panos 坦言這套系統(tǒng)給出的評分,比他平時給學(xué)生的要嚴(yán)格一些。關(guān)于這一點,他認(rèn)為是好事:“畢竟學(xué)生走出校園后,這個世界可不會習(xí)慣性給他們打高分?!?/p>


AI反饋質(zhì)量,遠超人類水平

Panos 還提到,AI 系統(tǒng)會自動生成“優(yōu)點 / 不足 / 改進行動”三段式反饋,并直接引用學(xué)生原話作為證據(jù)。

以最高分學(xué)生的反饋為例:

“你對指標(biāo)權(quán)衡與 Goodhart 定律風(fēng)險的理解非常出色—— 你用‘熱水浴缸’的例子,完美闡釋了優(yōu)化單一指標(biāo)如何導(dǎo)致其他指標(biāo)失效。”

再以一位 B- 學(xué)生的反饋為例:

“請練習(xí)完整闡述 A/B 測試方案:明確提出假設(shè)、定義隨機化單元、指定監(jiān)控指標(biāo)閾值、并建立方案上線或回滾的決策標(biāo)準(zhǔn)。”

這些反饋都具體、可落地,還附帶實證支撐。Panos 感慨:“說實話,換成人類評分者,根本不可能為每個學(xué)生都做到這一步。”

而當(dāng) Panos 他們開始按考點拆分學(xué)生成績時,一個短板暴露得淋漓盡致——實驗設(shè)計。這個考點的平均分僅為 1.94 分(滿分 4 分),對比“問題框架設(shè)計”考點的 3.39 分,差距一目了然。

具體的分?jǐn)?shù)分布更是觸目驚心:

● 3 名學(xué)生(8%)得 0 分——完全無法就該考點展開論述

● 7 名學(xué)生(19%)得 1 分——僅具備表層理解

● 15 名學(xué)生(42%)得 2 分——具備基礎(chǔ)理解

● 0 名學(xué)生得 4 分——無人達到精通水平

這些數(shù)據(jù)讓 Panos 他們意識到了自己的問題:課程中講解 A/B 測試方法論的部分太過倉促。而這場由 AI 主導(dǎo)的口試,把這個教學(xué)漏洞赤裸裸地擺在了他們面前,想忽視都不行。

另一個令他們頗感意外的發(fā)現(xiàn)是:口試時長與最終得分完全不相關(guān)(相關(guān)系數(shù) r = -0.03)。耗時最短的一場口試(9 分鐘),反而拿到了最高分 19 分;而耗時最長的一場(64 分鐘),得分只有 12 分。

也就是說,時間長并不代表懂得多,而真正的理解,反而是高效的。


那么,學(xué)生怎么說?

在公布成績前,Panos 他們對學(xué)生做了問卷調(diào)查,收集他們對AI口試的感受,結(jié)果很有意思:

● 僅 13% 的學(xué)生更喜歡 AI 口試模式,57% 的學(xué)生還是傾向于傳統(tǒng)筆試

● 83% 的學(xué)生認(rèn)為 AI 口試比筆試更有壓力

但與此同時:70% 的學(xué)生認(rèn)同,AI 口試能更準(zhǔn)確地檢驗他們的真實理解水平——這也是所有調(diào)查選項中認(rèn)可度最高的一項。簡單來說,大多數(shù)學(xué)生都認(rèn)可這種評估方式,但對體驗過程并不滿意。


所以,結(jié)論很顯然:核心思路是可行的,只是執(zhí)行細節(jié)還需迭代優(yōu)化。

在分享的最后,Panos 提到,課后作業(yè)的時代已經(jīng)落幕,而退回傳統(tǒng)的線下紙筆考試,更像是一種技術(shù)上的倒退。當(dāng)今教師需要的,是一種能獎勵真正的理解能力、決策能力和實時推理能力的評估方式:

“口試曾經(jīng)是主流的評估手段,只是受限于規(guī)模問題才被淘汰;如今,AI 正在讓口試重新變得規(guī)模化、可落地?!?/p>

Panos 補充道,還可以把整套 AI 口試系統(tǒng)直接開放給學(xué)生,讓他們反復(fù)練習(xí)、充分備考。因為與傳統(tǒng)考試“考題泄露即災(zāi)難”不同,AI 口試的考題是實時生成的——學(xué)生練得越多,掌握得就越扎實。

“而這,才是學(xué)習(xí)本該有的樣子”,他表示,“以毒攻毒,方為上策?!?/p>

原文鏈接:https://www.behind-the-enemy-lines.com/2025/12/fighting-fire-with-fire-scalable-oral.html



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
第一次見牛仔褲這么會穿的小姐姐,腰細臀翹,讓人忍不住多看幾眼

第一次見牛仔褲這么會穿的小姐姐,腰細臀翹,讓人忍不住多看幾眼

小喬古裝漢服
2025-12-21 07:56:28
1974年王稼祥逝世,彌留之際含淚囑咐妻子朱仲麗:一定要記住啊

1974年王稼祥逝世,彌留之際含淚囑咐妻子朱仲麗:一定要記住啊

小港哎歷史
2026-01-09 09:00:03
張國強:被前妻嫌窮,40歲二婚帶子娶郭京飛舊愛,如今苦盡甘來

張國強:被前妻嫌窮,40歲二婚帶子娶郭京飛舊愛,如今苦盡甘來

白面書誏
2025-12-15 14:11:04
44歲張杰近照曝光:體脂低至8%,這肌肉是認(rèn)真的嗎?

44歲張杰近照曝光:體脂低至8%,這肌肉是認(rèn)真的嗎?

健身迷
2026-01-10 09:47:21
張本智和終于油耗光倒在決賽門外 3-4不敵林昀儒無緣男單爭冠

張本智和終于油耗光倒在決賽門外 3-4不敵林昀儒無緣男單爭冠

勁爆體壇
2026-01-11 21:26:24
新蔡學(xué)生死亡真相大白!官方再通報,原因曝光,我們冤枉學(xué)校了

新蔡學(xué)生死亡真相大白!官方再通報,原因曝光,我們冤枉學(xué)校了

鋭娛之樂
2026-01-11 16:16:20
1.6萬億消費大遷徙!商場空到只剩導(dǎo)購,中產(chǎn)的錢都流向了這里

1.6萬億消費大遷徙!商場空到只剩導(dǎo)購,中產(chǎn)的錢都流向了這里

墨印齋
2026-01-10 21:32:39
目前戰(zhàn)況異常慘烈,雙方已經(jīng)都沒有了退路,中美終極對決?

目前戰(zhàn)況異常慘烈,雙方已經(jīng)都沒有了退路,中美終極對決?

尋墨閣
2026-01-10 19:01:52
遼粵大戰(zhàn)無懸念,繼偉無奈抱頭捂臉,奎因真敢講也真能打

遼粵大戰(zhàn)無懸念,繼偉無奈抱頭捂臉,奎因真敢講也真能打

大飛說籃球
2026-01-11 22:19:37
最新 | 岳云鵬透露今年不上央視春晚

最新 | 岳云鵬透露今年不上央視春晚

天津廣播
2026-01-11 12:14:15
WTT多哈冠軍賽:張本智和敗北!苦戰(zhàn)7局被淘汰,林昀儒進決賽爭冠

WTT多哈冠軍賽:張本智和敗北!苦戰(zhàn)7局被淘汰,林昀儒進決賽爭冠

全言作品
2026-01-11 21:12:29
獨家深度:星鏈1.5萬顆VS中國4萬顆,中美太空6G基建大戰(zhàn)開打!

獨家深度:星鏈1.5萬顆VS中國4萬顆,中美太空6G基建大戰(zhàn)開打!

人工智能學(xué)家
2026-01-11 17:48:08
零元購!泰山隊瞄準(zhǔn)挪威鐵衛(wèi),身價120萬歐,向澤卡打聽山東生活

零元購!泰山隊瞄準(zhǔn)挪威鐵衛(wèi),身價120萬歐,向澤卡打聽山東生活

體壇小鵬
2026-01-11 16:44:38
緬甸電詐團伙潛逃至柬埔寨,已建起新園區(qū)

緬甸電詐團伙潛逃至柬埔寨,已建起新園區(qū)

暹羅飛鳥
2026-01-10 20:02:19
對話“死了么”App創(chuàng)始人:這幾天付費人數(shù)翻了200倍;另有“活了么”App上線

對話“死了么”App創(chuàng)始人:這幾天付費人數(shù)翻了200倍;另有“活了么”App上線

紅星資本局
2026-01-11 17:23:29
就在剛剛,臺灣媒體突然曝光驚天新聞!

就在剛剛,臺灣媒體突然曝光驚天新聞!

安安說
2026-01-11 16:37:22
斯基拉:吉達聯(lián)合正嘗試?yán)m(xù)約38歲的本澤馬,已開出兩年新合同

斯基拉:吉達聯(lián)合正嘗試?yán)m(xù)約38歲的本澤馬,已開出兩年新合同

懂球帝
2026-01-11 22:54:27
醫(yī)學(xué)的盡頭真是玄學(xué)嗎?網(wǎng)友:國家不讓你迷信,沒說讓你不信

醫(yī)學(xué)的盡頭真是玄學(xué)嗎?網(wǎng)友:國家不讓你迷信,沒說讓你不信

帶你感受人間冷暖
2025-12-31 00:20:05
1991 年,鄧小平特派代表赴美團聚張學(xué)良,邀他重返故土,張學(xué)良回應(yīng):“回大陸可以,但我有三個要求”

1991 年,鄧小平特派代表赴美團聚張學(xué)良,邀他重返故土,張學(xué)良回應(yīng):“回大陸可以,但我有三個要求”

文史明鑒
2025-12-21 17:07:19
小S二女兒遭群嘲,自宣迪奧合作沒被品牌認(rèn)領(lǐng),才18歲翻車好幾次

小S二女兒遭群嘲,自宣迪奧合作沒被品牌認(rèn)領(lǐng),才18歲翻車好幾次

萌神木木
2026-01-09 17:07:16
2026-01-11 23:08:49
CSDN incentive-icons
CSDN
成就一億技術(shù)人
26249文章數(shù) 242213關(guān)注度
往期回顧 全部

科技要聞

“我們與美國的差距也許還在拉大”

頭條要聞

4.5萬株草莓苗停止生長 果農(nóng)急求助1小時后獲專家回應(yīng)

頭條要聞

4.5萬株草莓苗停止生長 果農(nóng)急求助1小時后獲專家回應(yīng)

體育要聞

U23國足形勢:末輪不負(fù)泰國即確保晉級

娛樂要聞

留幾手為閆學(xué)晶叫屈?稱網(wǎng)友自卑敏感

財經(jīng)要聞

外賣平臺"燒錢搶存量市場"迎來終局?

汽車要聞

2026款宋Pro DM-i長續(xù)航補貼后9.98萬起

態(tài)度原創(chuàng)

教育
數(shù)碼
家居
旅游
公開課

教育要聞

現(xiàn)在最雞娃的群體就是體制內(nèi)的成員!

數(shù)碼要聞

科技有AI,連接全球:海信家電參展CES 2026,定義智慧生活新圖景

家居要聞

木色留白 演繹現(xiàn)代自由

旅游要聞

被央視點贊!356 萬人打卡的冰雪童話,才是文旅界的 “天花板”

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版