国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

臉譜心智陸弘遠(yuǎn)團(tuán)隊(duì)ACL 2026新作:別再給模型疊加「高級詞」了!

0
分享至



Hongyuan Adam Lu,F(xiàn)aceMind CEO,CUHK AI PhD 研究課題:LLM 預(yù)訓(xùn)練、世界模型、端側(cè)模型訓(xùn)練;帝國理工 CS 本碩;愛丁堡大學(xué) AI 碩士;ACL 系頂會(huì) Outstanding Paper Award 一作;曾于 MSRA(北京)任預(yù)訓(xùn)練一職,研發(fā)了世界上第一個(gè)支持 200 種語言的 LLM;旗艦會(huì)議 ACL 2025、NAACL 2025 Area Chair,創(chuàng)辦了 AI 軟件:疊疊社,深受二次元喜愛,是一款被投資人稱之為 “米哈游的蔡浩宇都要學(xué)習(xí)的 AI 產(chǎn)品”。

有這樣一種 “模型玄學(xué)”:明明是同一個(gè) Prompt,僅僅換一種說法,模型的回答可能就天差地別。

深挖這個(gè)現(xiàn)象,是一個(gè)有趣、有用、但 “反直覺” 的問題:如果語義不變,只是把一句話改寫成更常見、更高頻的 “大白話”,模型的推理以及訓(xùn)練表現(xiàn)會(huì)不會(huì)更好?

最近,來自臉譜心智與香港中文大學(xué)的科研人員圍繞這個(gè)問題展開了系統(tǒng)研究,并提出了一項(xiàng)中稿 ACL 2026 Main 的新工作。他們提出了一個(gè)極具記憶點(diǎn)的新概念:Adam’s Law,akaTextual Frequency Law(文本頻率定律)。



  • 論文標(biāo)題:Adam’s Law: Textual Frequency Law on Large Language Models
  • 作者:Hongyuan Adam Lu, Z.L., Victor Wei, Zefan Zhang, Zhao Hong, Qiqi Xiang, Bowen Cao, Wai Lam
  • 機(jī)構(gòu):FaceMind Corporation、The Chinese University of Hong Kong
  • arXiv 鏈接:https://arxiv.org/abs/2604.02176
  • huggingface 鏈接:https://huggingface.co/papers/2604.02176
  • github 鏈接:https://github.com/HongyuanLuke/frequencylaw

論文用理論推導(dǎo)以及模型實(shí)驗(yàn)向我們展示了:當(dāng)不同表述表達(dá)同一個(gè)意思時(shí),語言模型往往更偏好 “高頻文本”。而這種偏好不僅出現(xiàn)在你敲下 Prompt 的那一刻,甚至在模型訓(xùn)練階段也同樣適用。

用大白話說,很多時(shí)候決定模型是否聰明的,不只是 “你問了啥”,還包括 “你是怎么說的”。

這啟發(fā)了什么?今天我們業(yè)內(nèi)談起模型優(yōu)化,關(guān)鍵詞永遠(yuǎn)是:更強(qiáng)更大的基座、更長的推理思維鏈、以及昂貴的高質(zhì)量訓(xùn)練數(shù)據(jù),或者是極其復(fù)雜的 alignment 算法。但 Adam's Law 揭示了文本頻率對于模型訓(xùn)練以及推理的重要性。

研究表明,高頻表達(dá)因?yàn)樵谟?xùn)練語料中出現(xiàn)的次數(shù)足夠多,大模型對它們有著天然的 “肌肉記憶”。因此,在面對這些模型自身熟悉的詞句時(shí),模型在理解、推理和生成時(shí)更容易零百 “進(jìn)入狀態(tài)”。

Who is Adam?

Adam’s Law 主張的鐵律是:我們應(yīng)該優(yōu)先使用句子級頻率更高的 expression,無論是做 inference 還是 training。

研究團(tuán)隊(duì)不甘讓結(jié)論停留在 “哎喲,好像確實(shí)是這樣” 的 empirical observation。

他們先是提供了縝密的 theoratical proof,也為其搭建了一個(gè)完整的 framework,由三板斧組成:

  • 第一把斧 TFL(Adam’s Law): 提出 Textual Frequency Law:“高頻文本應(yīng)被優(yōu)先選擇”;



極其硬核的部分推導(dǎo)數(shù)學(xué)輔佐

  • 第二把斧 TFD(Textual Frequency Distillation): 既然算不準(zhǔn),那就讓模型自己開口。用目標(biāo)模型生成的文本,去反向修正 frequency estimation;
  • 第三把斧 CTFT(Curriculum Textual Frequency Training): 把文本頻率引入課程學(xué)習(xí),給模型發(fā)一本循序漸進(jìn)的教材。

用大白話來說,他們的操作流程是這樣的: 先給一句話算算 “八字”(估算常見度),把同義句里最接地氣、最 frequent 的那句挑出來喂給模型;如果怕算得不準(zhǔn),就讓模型自己做幾道 “故事續(xù)寫” 題,看看它平時(shí)潛意識(shí)里愛用什么詞,借此來修正頻率估算;最后,在訓(xùn)練時(shí),不光是要挑數(shù)據(jù)頻率,而且訓(xùn)練順序都給你安排得明明白白。

怎樣才算 “常見”?巧妙的工程解法

這里有一個(gè)大坑:像是 GLM 這種主流大模型,預(yù)訓(xùn)練數(shù)據(jù)全是個(gè)黑箱,連它吃過幾碗干飯都不知道,你怎么算它對哪句話更眼熟?不用擔(dān)心沒關(guān)系。

作者給了個(gè)極其巧妙且工程化的解:咱不糾結(jié)模型見過啥,直接借助公開的龐大 corpora 和詞頻資源去估算就行。 在 Adam’s Law 中,句子的頻率被近似為詞頻的組合,直接攢出一個(gè) “句子級頻率指標(biāo)”。

這意味著,開發(fā)人員完全不需要破解閉源模型的訓(xùn)練集,就能直接用這套頻率估算大法。極其接地氣,繞開了黑箱限制,把玄學(xué)推進(jìn)到了可驗(yàn)證、可復(fù)現(xiàn)的工程層面。

當(dāng)然,僅靠公開詞頻估計(jì)大概率是有誤差的。Adam 打出了第二把斧TFD:讓目標(biāo)模型對給定文本做 “story completion 續(xù)寫補(bǔ)全”。這相當(dāng)于在審問模型:“別裝了,暴露你的真實(shí)用語習(xí)慣吧!” 用模型自己吐出來的語料蒸餾,再去輔助修正原始頻率,這樣就無限逼近了模型內(nèi)部真正熟悉的白話表達(dá)分布。

別光顧著改 Prompt 推理,訓(xùn)練的規(guī)矩也變了

Adam's Law 最絕的一點(diǎn),是沒有把 “文本頻率” 局限在一個(gè)討巧的 Prompt 推理技巧上,而是直接殺到了更硬核的模型訓(xùn)練范式里。

提示(Inference)階段,邏輯非常順滑:同一道數(shù)學(xué)題,如果把題目里的生僻詞換成大白話的高頻表達(dá),模型馬上就算得更準(zhǔn)。

但在訓(xùn)練(Training)階段,Adam 拋出了一個(gè)靈魂拷問:如果老板給的算力預(yù)算有限,訓(xùn)練數(shù)據(jù)該怎么挑怎么用?Adam 說:高頻文本可能比低頻文本更值得優(yōu)先保留!

而且CTFT甚至改變了喂數(shù)據(jù)的姿勢。作者發(fā)現(xiàn),低頻表達(dá)往往語境更稀疏、結(jié)構(gòu)更復(fù)雜。就像我們上語文課一樣,先讓他死磕難懂的古文(更低頻),再讓他看通俗的白話文(更高頻),最終的收斂效果,居然比隨機(jī)亂喂數(shù)據(jù)還要好。

實(shí)驗(yàn)結(jié)果:白嫖的性能提升

為了拿數(shù)據(jù)說話,作者死磕出了一個(gè)專門的數(shù)據(jù)集 TFPD(Textual Frequency Paired Dataset),涵蓋了數(shù)學(xué)推理、機(jī)器翻譯、常識(shí)推理和智能體工具調(diào)用等多個(gè)場景。

為了保證嚴(yán)謹(jǐn),他們先用模型生成一批 “文縐縐、極其少見” 的改寫,和一批 “大白話、極其常見” 的改寫,再花錢請人工標(biāo)注員挨個(gè)檢查,確保改寫后意思沒變,最后湊成了 “高頻 vs 低頻” 的成對樣本。

結(jié)果極其直觀。

數(shù)學(xué)推理、Agent 任務(wù)、以及常識(shí)解析上,僅僅只是把 Prompt 換成更高頻的表達(dá),不換模型、不加訓(xùn)練數(shù)據(jù)、不增加 inference 時(shí)長,inference 效果顯著增加;在機(jī)器翻譯上,Adam's Law 同樣穩(wěn)如泰山:研究人員一口氣測了 100 個(gè)語言翻譯方向:在訓(xùn)練實(shí)驗(yàn)里,三板斧 CTFT 的威力同樣顯現(xiàn)。在 Pangasinan(一種菲律賓語支)的機(jī)器翻譯任務(wù)中,使用了 CTFT 后, BLEU 分?jǐn)?shù)狂漲29.96%。



Adam's Law 在上百種語言上的結(jié)果可視化,最外圈為 Adam's Law 的結(jié)果。

更顛覆認(rèn)知的是:有時(shí)候用高頻改寫數(shù)據(jù)去訓(xùn)練,效果甚至比直接用原汁原味的基準(zhǔn) training set 還要好!這直接挑戰(zhàn)了業(yè)內(nèi) “原始數(shù)據(jù)天然最優(yōu)” 的傳統(tǒng)偏見。

Adam's Law,給行業(yè)帶來了什么?

Adam’s Law把一種飄渺的 “直覺”,打造成了一套可定義、可估算、可驗(yàn)證、可部署、繞過黑盒的方法學(xué)定律,通過數(shù)學(xué)推導(dǎo)以及實(shí)驗(yàn)的方法證明了其可靠性。

對搞應(yīng)用(做 Agent、寫 Prompt)的打工人: 別再給 Prompt 瘋狂加毫無必要的定語、約束和高端詞匯了。先把 Prompt 理順,改得更自然、更高頻,這可能是一種幾乎沒有成本、見效極快的 “魔法”。

對搞訓(xùn)練(Pre-training、SFT、蒸餾、做數(shù)據(jù)清洗)的煉丹師: 這是全新的 Data Engineering 治理思路。以后洗數(shù)據(jù)做數(shù)據(jù),除了看數(shù)據(jù)的質(zhì)量、長度、難度,咱還得給文本頻率拉個(gè)畫像。GPUTPU 吃緊時(shí),“留什么數(shù)據(jù)” 不只看標(biāo)注對不對,咱還得看看這句話是不是足夠 “大白話”。

對評測(Benchmark)的研究者:如果一道題,換個(gè)冷門說法模型就不行,那它是真的有了 “推理能力”,還是僅僅靠著 “刷題”,記住了特定表述的熟悉度?這給未來構(gòu)建更抗造的評測榜單提了個(gè)醒。

Conclusions

Adam’s Law 像一面鏡子,照出了 LLM 的本質(zhì):模型不僅在 “理解世界”,它更是在 “記住人類語言世界里,什么東西最常出現(xiàn)”,然而這是雙向的,LLM 在看世界的時(shí)候,世界也在看 LLM。

當(dāng)整個(gè) AI 圈都在為了更長的 RL 推理、更龐大的參數(shù)量、更玄乎的對齊算法無腦卷生卷死時(shí),這篇工作輕巧地給出了一條無比樸素的線索:

讓模型變聰明的捷徑,不是把話說得更高深,而是把話說得更大白話一點(diǎn)。這在推理時(shí)有用,也在訓(xùn)練時(shí)有用。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
鄭麗文和家人的一張合影,時(shí)間是1971年,地點(diǎn)是眷村。

鄭麗文和家人的一張合影,時(shí)間是1971年,地點(diǎn)是眷村。

葉老四
2026-04-15 09:44:36
廣東3消息!杜鋒帶隊(duì)再破紀(jì)錄,徐杰手感冰涼,焦泊喬回歸遭棄用

廣東3消息!杜鋒帶隊(duì)再破紀(jì)錄,徐杰手感冰涼,焦泊喬回歸遭棄用

多特體育說
2026-04-18 23:35:10
TA:哈登將拒絕下賽季4200萬美元球員選項(xiàng),進(jìn)入自由市場

TA:哈登將拒絕下賽季4200萬美元球員選項(xiàng),進(jìn)入自由市場

懂球帝
2026-04-18 08:58:04
人,真的不能一直穿太差的衣服

人,真的不能一直穿太差的衣服

魔都囡
2026-04-17 10:29:00
7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

7年敗光2億!鄒市明冉瑩穎共同發(fā)文:二人最終還是邁出了這一步!

拳擊時(shí)空
2026-04-16 06:04:48
血脂高不高,看頭就知道,血脂高的人會(huì)有這3個(gè)表現(xiàn),看看有沒有

血脂高不高,看頭就知道,血脂高的人會(huì)有這3個(gè)表現(xiàn),看看有沒有

芹姐說生活
2026-04-18 15:44:42
劉青山死后30年,三個(gè)兒子找到當(dāng)年舉報(bào)者李克才:請為我父親平反

劉青山死后30年,三個(gè)兒子找到當(dāng)年舉報(bào)者李克才:請為我父親平反

微野談寫作
2026-04-17 10:55:11
盧靖姍帶4個(gè)月兒子賞春,穿禮服踩高跟推嬰兒車像走秀,二胎好乖

盧靖姍帶4個(gè)月兒子賞春,穿禮服踩高跟推嬰兒車像走秀,二胎好乖

眼底星碎
2026-03-26 17:10:15
局地陣風(fēng)可達(dá)10級以上,北京2區(qū)發(fā)布大風(fēng)黃色預(yù)警

局地陣風(fēng)可達(dá)10級以上,北京2區(qū)發(fā)布大風(fēng)黃色預(yù)警

北青網(wǎng)-北京青年報(bào)
2026-04-18 17:20:20
底層消費(fèi)貸之死

底層消費(fèi)貸之死

讀懂?dāng)?shù)字財(cái)經(jīng)
2026-04-08 08:32:53
57歲王菲沒想到,辛苦養(yǎng)大的唇腭裂女兒李嫣,早為親爹李亞鵬爭光

57歲王菲沒想到,辛苦養(yǎng)大的唇腭裂女兒李嫣,早為親爹李亞鵬爭光

蒂蒂茱家
2026-04-01 16:01:17
警惕:上了年紀(jì)再過性生活,最怕這2點(diǎn)!保護(hù)男性精氣,做好4點(diǎn)

警惕:上了年紀(jì)再過性生活,最怕這2點(diǎn)!保護(hù)男性精氣,做好4點(diǎn)

周哥一影視
2026-04-08 12:20:15
潘粵明評價(jià)獲證實(shí)!董潔22年后與藍(lán)顏知己再牽手

潘粵明評價(jià)獲證實(shí)!董潔22年后與藍(lán)顏知己再牽手

獨(dú)舞獨(dú)舞
2026-01-18 06:37:17
10億都救不了一命!京東副總裁蔡磊,生命進(jìn)入倒計(jì)時(shí)

10億都救不了一命!京東副總裁蔡磊,生命進(jìn)入倒計(jì)時(shí)

聽風(fēng)喃
2026-04-06 11:16:04
清算終于來了!中方給日本的最后期限:180 天,歸還被掠百年國寶

清算終于來了!中方給日本的最后期限:180 天,歸還被掠百年國寶

z千年歷史老號(hào)
2026-01-31 13:50:06
張雪機(jī)車荷蘭站拿下第二!被強(qiáng)制增重7公斤+降轉(zhuǎn)速 奪冠后遭制裁?

張雪機(jī)車荷蘭站拿下第二!被強(qiáng)制增重7公斤+降轉(zhuǎn)速 奪冠后遭制裁?

生活新鮮市
2026-04-19 01:15:58
鄭麗文稱臺(tái)灣是國家,反對兩岸統(tǒng)一?喊話大陸:美國讓我過去

鄭麗文稱臺(tái)灣是國家,反對兩岸統(tǒng)一?喊話大陸:美國讓我過去

阿器談史
2026-01-26 20:48:30
打不得!日本戰(zhàn)艦闖入臺(tái)海峽,我軍為什么不直接擊沉它?

打不得!日本戰(zhàn)艦闖入臺(tái)海峽,我軍為什么不直接擊沉它?

趣文說娛
2026-04-18 19:34:03
張曼玉現(xiàn)身北京參加活動(dòng)!臉僵腫到不敢認(rèn),網(wǎng)友:怪不得不上浪姐

張曼玉現(xiàn)身北京參加活動(dòng)!臉僵腫到不敢認(rèn),網(wǎng)友:怪不得不上浪姐

阿廢冷眼觀察所
2026-04-18 20:53:47
5-4!趙心童兩連鞭斬獲晉級先機(jī),世錦賽16強(qiáng)席位爭奪存懸念!

5-4!趙心童兩連鞭斬獲晉級先機(jī),世錦賽16強(qiáng)席位爭奪存懸念!

世界體壇觀察家
2026-04-18 21:00:55
2026-04-19 04:40:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12792文章數(shù) 142632關(guān)注度
往期回顧 全部

科技要聞

傳Meta下月擬裁8000 大舉清退人力為AI騰位

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

頭條要聞

伊朗革命衛(wèi)隊(duì)向油輪開火 伊朗最高領(lǐng)袖發(fā)聲

體育要聞

時(shí)隔25年重返英超!沒有人再嘲笑他了

娛樂要聞

劉德華回應(yīng)潘宏彬去世,拒談喪禮細(xì)節(jié)

財(cái)經(jīng)要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

奇瑞威麟R08 PRO正式上市 售價(jià)14.48萬元起

態(tài)度原創(chuàng)

本地
時(shí)尚
健康
公開課
軍事航空

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

選對發(fā)型,真的能少走很多變美彎路

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

解放軍護(hù)衛(wèi)艦與外艦纏斗20小時(shí) 細(xì)節(jié)披露

無障礙瀏覽 進(jìn)入關(guān)懷版