看1100萬小時錄像學(xué)會操作電腦，四人團隊打造通用計算機行為模型

2026-02-24 19:00:23　來源: DeepTech深科技

北京舉報

分享至

2026 年 2 月 23 日，一家名為 Standard Intelligence 的舊金山初創(chuàng)公司發(fā)布了 FDM-1（Forward Dynamics Model，前向動力學(xué)模型），并稱其為“首個完全通用的計算機行為模型”。

這個模型在一個包含 1,100 萬小時屏幕錄制視頻的數(shù)據(jù)集上進行訓(xùn)練，能夠以每秒 30 幀的速率直接處理視頻流，在 CAD 建模、網(wǎng)站安全測試甚至真實世界的自動駕駛場景中展示出令人意外的泛化能力。

圖丨相關(guān)推文（來源：X）

當前主流的計算機使用代理（computer-use agent）走的是另一條路線。Anthropic 在 2024 年 10 月推出了 Claude 的 Computer Use 功能，讓 AI 通過截屏、識別界面元素、模擬點擊和鍵入來操作計算機，到 2026 年 2 月 Claude Sonnet 4.6 在 OSWorld 基準上已達到 72.5％的得分。

OpenAI 在 2025 年 1 月發(fā)布了名為 Operator 的 Computer Using Agent（CUA，計算機使用代理），基于 GPT-4o 的視覺能力加上強化學(xué)習(xí)實現(xiàn)網(wǎng)頁操控。Google DeepMind 也有 Project Mariner 和 Gemini 2.5 Computer Use 在布局同一賽道。

這三家巨頭的做法有一個共同特征：都是在已有的視覺語言模型（VLM，Vision-Language Model）基礎(chǔ)上疊加工具調(diào)用能力，依賴截屏分析和像素級定位來理解界面，本質(zhì)上仍然是“看圖說話”的思路。

Standard Intelligence 認為，這條路走不遠。

他們的核心論點是：要造出真正通用的計算機操作智能體，需要的不是在截屏上做分類和推理，而是直接從大規(guī)模視頻中學(xué)習(xí)人類操作計算機的行為模式。就像 GPT-3 需要互聯(lián)網(wǎng)規(guī)模的文本語料庫才能涌現(xiàn)出語言能力，通用的計算機行為模型需要互聯(lián)網(wǎng)規(guī)模的視頻語料庫。

目前最大的公開計算機操作數(shù)據(jù)集還不到 20 小時的 30 FPS 視頻，而互聯(lián)網(wǎng)上累積了數(shù)以百萬計小時的剪輯制作、編程直播、游戲?qū)崨r和各類軟件操作錄像，這些數(shù)據(jù)從未被系統(tǒng)性地利用過。FDM-1 正是瞄準這個缺口。

Standard Intelligence 的路線，更接近 2022 年 OpenAI 發(fā)布的 VPT（Video PreTraining，視頻預(yù)訓(xùn)練）方法。VPT 的核心思路是：互聯(lián)網(wǎng)上有海量人類玩 Minecraft 的游戲錄像，但這些視頻只記錄了畫面，沒有標注每一幀對應(yīng)的鍵盤鼠標操作。

OpenAI 當時的解決辦法是，先花錢請承包商標注少量帶操作標簽的數(shù)據(jù)，用這些數(shù)據(jù)訓(xùn)練一個 IDM（Inverse Dynamics Model，逆向動力學(xué)模型）。IDM 能從前后幀的變化中反推出中間發(fā)生了什么操作——比如屏幕上多出來一個字母“K”，那大概率就是按下了 K 鍵。然后用訓(xùn)練好的 IDM 去給約 7 萬小時的 YouTube 游戲視頻自動打上操作標簽，再用這些帶標簽的數(shù)據(jù)做行為克隆訓(xùn)練。

VPT 最終甚至學(xué)會了合成鉆石鎬這種需要連續(xù) 24,000 步操作、人類熟手也要花 20 分鐘以上的任務(wù)。這在當時是一項突破，但它有兩個顯著局限：一是只適用于 Minecraft 這個特定環(huán)境，二是上下文窗口極短，只有大約六秒。真正的計算機工作，比如 CAD 設(shè)計、金融交易、文檔編輯，動輒需要數(shù)分鐘到數(shù)小時的連貫操作上下文。六秒遠遠不夠。

Standard Intelligence 的 FDM-1 試圖在兩個維度上同時突破：數(shù)據(jù)規(guī)模和上下文長度。

在數(shù)據(jù)規(guī)模上，他們先是在 4 萬小時的標注員錄屏數(shù)據(jù)上訓(xùn)練了一個 IDM，然后用這個 IDM 對 1,100 萬小時的互聯(lián)網(wǎng)視頻語料庫進行自動標注。IDM 的工作原理比較直觀：屏幕上突然出現(xiàn)了一個字母“K”，那大概率是有人按了 K 鍵；光標從屏幕左側(cè)移動到了右側(cè)，那一定發(fā)生了相應(yīng)方向和距離的鼠標位移。通過觀察前后幀的變化來反推操作動作，這在技術(shù)上是可行的，雖然存在噪聲和歧義。

圖丨逆動力學(xué)模型（IDM）架構(gòu)（來源：Standard Intelligence）

他們在 IDM 的架構(gòu)選擇上做了一個有意思的決策：采用了掩碼擴散（masked diffusion）架構(gòu)。原因在于，給視頻標注動作這件事天然是非因果（non-causal）的。比如你看到有人按了 Cmd+C，單看這一幀是無法確認的，你得看到后面出現(xiàn)了粘貼的內(nèi)容才能確認之前確實發(fā)生了復(fù)制操作。掩碼擴散模型可以同時參照所有幀來推斷每個時間步的動作，先標注高置信度的簡單動作，再把計算資源集中在模糊的難例上。

按他們的說法，這種方法比純因果模型過擬合更慢，數(shù)據(jù)效率更高，且 IDM 標注數(shù)據(jù)訓(xùn)練出的模型在鼠標移動和界面操作等任務(wù)上甚至超過了人工標注數(shù)據(jù)的效果。

在上下文長度上，突破來自他們自研的視頻編碼器?，F(xiàn)有 VLM 處理屏幕錄制視頻的方式極度浪費 token：一分鐘的 30 FPS 視頻就要消耗大約 100 萬個 token。這意味著在 200k token 的上下文窗口里，GPT 大約只能裝下 240 幀，Gemini 約 775 幀，Claude 約 162 幀——連幾秒鐘的視頻都看不完。

（來源：Standard Intelligence）

Standard Intelligence 的視頻編碼器聲稱能把近兩小時（約 36,000 幀）的 30 FPS 視頻壓縮進同樣的 token 預(yù)算，比此前最優(yōu)方案高效 50 倍，比 OpenAI 的編碼器高效 100 倍（需要注意的是，博客中提到的 36,000 幀／200k token 是“屏幕錄制”場景下的數(shù)字，而用來對比的 GPT、Gemini、Claude 的幀／token 比是通用視覺接口的數(shù)字。

兩者的任務(wù)和優(yōu)化目標不同，直接放在同一張圖表里對比有些不完全對等。不過，即使打個折扣，這個壓縮能力也是相當可觀的）。

他們在 200k token 上下文中能裝入約 20 分鐘視頻，1M token 中則能裝入約一小時 40 分鐘。這個壓縮比是通過在屏幕錄制數(shù)據(jù)上訓(xùn)練掩碼壓縮目標來實現(xiàn)的。

他們觀察到，屏幕錄制與自然視頻有本質(zhì)不同：信息密度的波動劇烈。鼠標劃過空白桌面時幾乎沒有信息量，而滾動瀏覽密集文本時信息量極大。固定大小的嵌入空間必然在語義細節(jié)和壓縮比之間取舍。他們的編碼器在一個文本轉(zhuǎn)錄基準測試上，相比標準 ViT（Vision Transformer，視覺變換器）收斂速度快約 100 倍。

有了大規(guī)模的 IDM 標注數(shù)據(jù)和高效的視頻編碼器，他們就可以訓(xùn)練 FDM 本身了。FDM 是一個標準的自回歸模型，接收此前的視頻幀和動作序列，預(yù)測下一個動作 token。輸出空間由鍵盤按鍵和鼠標移動增量組成。

由于鼠標每幀可以移動任意數(shù)量的像素，直接離散化會導(dǎo)致狀態(tài)空間過于龐大。因此他們將鼠標位移分解為 X 和 Y 分量，用屏幕寬高進行歸一化，然后使用指數(shù)分箱（exponential binning）將其映射到 49 個指數(shù)尺寸遞增的箱中。小而頻繁的移動分入細粒度箱，大而稀少的移動分入粗粒度箱。同時，每個鼠標移動 token 還附帶預(yù)測下一個點擊位置，幫助生成更精確的軌跡。

圖丨FDM-1 訓(xùn)練方法的示意圖（來源：Standard Intelligence）

與 VLM 路線形成對比的是，F(xiàn)DM 完全不使用鏈式思維推理、字節(jié)對編碼或工具調(diào)用。它直接在視頻和動作 token 上運作，這使得推理延遲很低，也使模型能夠處理滾動、3D 建模、游戲操控等 VLM 框架難以建模的連續(xù)性任務(wù)。

評估基礎(chǔ)設(shè)施方面，團隊建了一套可運行 8 萬臺分叉虛擬機的系統(tǒng)，每小時能跑超過 100 萬次 rollout。每臺 VM 是一個最小化的 Ubuntu 桌面環(huán)境，配 1 個 vCPU 和 8 GB 內(nèi)存；一塊 H100 GPU 能同時控制 42 臺。分叉機制允許他們對操作系統(tǒng)狀態(tài)做完整內(nèi)存快照并復(fù)制到新的 VM 上，從而在同一個起始狀態(tài)上并行跑數(shù)千次評估。

這基本上是在把測試時計算（test-time compute）的思路用到了行為模型評估上。他們還把 GPU 和 VM 放在同一云區(qū)域、使用低延遲 VNC 配置和自定義 Rust 輸入綁定，把從屏幕截取到動作執(zhí)行的往返延遲壓縮到 11 毫秒。

他們公布的初步評測結(jié)果顯示，IDM 標注數(shù)據(jù)在鼠標操作、目標點擊、符號記憶和 UI 操控等方面的表現(xiàn)已經(jīng)超過了人工標注的承包商數(shù)據(jù)。不過在打字和語言理解任務(wù)上，IDM 數(shù)據(jù)上的進步速度慢于承包商數(shù)據(jù)，團隊認為這是 IDM 標注噪聲造成的，未來計劃混合使用兩種數(shù)據(jù)。

（來源：Standard Intelligence）

在自動駕駛的微調(diào)實驗中，F(xiàn)DM-1 在不到 1 小時的駕駛數(shù)據(jù)上微調(diào)后，就能用方向鍵控制汽車在舊金山繞街區(qū)轉(zhuǎn)彎，起始準確率為 50%（在“無操作/左轉(zhuǎn)/右轉(zhuǎn)”三選一中），明顯高于僅有視頻編碼器而沒有互聯(lián)網(wǎng)視頻預(yù)訓(xùn)練的基線模型。

關(guān)于這支團隊。Standard Intelligence 于 2024 年 3 月在舊金山注冊成立，自我定位為“對齊的 AGI 實驗室”。研究團隊的核心作者是 Neel Redkar、Yudhister Kumar、Devansh Pandey 和 Galen Mead。Neel Redkar 來自 UCLA，曾在高中時期就憑借用于碳捕獲的金屬有機框架神經(jīng)網(wǎng)絡(luò)獲得 ISEF 大獎，在 Notion 的 AI 團隊實習(xí)過，2023 年底還在 NeurIPS 上展示過文本與材料生成的跨模態(tài)研究。

Yudhister Kumar 的個人網(wǎng)站顯示他曾參與過 MATS（ML Alignment Theory Scholars，機器學(xué)習(xí)對齊理論學(xué)者）5.0 項目，研究過“預(yù)言機在合作 AI 中的應(yīng)用”以及 Ramsey 理論中的非標準方法。這是一個背景相當年輕但研究嗅覺敏銳的團隊。

在 FDM-1 之前，Standard Intelligence 已經(jīng)有過兩個引起關(guān)注的項目。一個是 2024 年中在舊金山市中心建造的 30 PB 存儲集群，專門用來存放 9,000 萬小時的視頻數(shù)據(jù)。他們在博客中算過一筆賬：如果用 AWS 存儲，每年要花 1,200 萬美元；通過租用舊金山的托管機房，包含折舊在內(nèi)的成本降到了每年約 35.4 萬美元，低了大約 40 倍。

另一個是 2024 年 11 月開源的 hertz-dev，一個 85 億參數(shù)的全雙工音頻基礎(chǔ)模型，在單張 RTX 4090 上實現(xiàn)了約 120 毫秒的實際對話延遲。這兩個項目分別對應(yīng)了 FDM-1 所需要的兩個關(guān)鍵能力：大規(guī)模數(shù)據(jù)基礎(chǔ)設(shè)施和跨模態(tài)學(xué)習(xí)。

回到此次推出的 FDM-1，其最大的價值或在于提出了一條與當前行業(yè)主流截然不同的技術(shù)路徑。Anthropic、OpenAI、Google 的計算機操控代理本質(zhì)上是“大腦外接手臂”，用已經(jīng)訓(xùn)練好的強大語言／視覺推理模型去截圖、識別 UI 元素、再生成點擊指令。

這種方法的優(yōu)點是可以利用現(xiàn)有模型的通用推理能力，缺點是操作頻率低（每步都要截圖－推理－動作），無法處理需要高幀率連續(xù)控制的任務(wù)，且受限于截屏分辨率下的 UI 理解。

FDM-1 則更接近端到端的行為克隆路線：直接從視頻到動作，不經(jīng)過語言中介。這讓它天然擅長連續(xù)控制任務(wù)（比如 3D 建模中的連續(xù)拖拽、滾輪操作），但也意味著它可能缺乏 VLM 方案所擁有的抽象推理和自然語言理解能力。

目前，F(xiàn)DM-1 現(xiàn)在還遠不是一個可用的產(chǎn)品。它沒有指令跟隨能力，所有演示都是模型自主探索或執(zhí)行預(yù)設(shè)行為，沒有任何自然語言驅(qū)動的展示。你沒法用中文或英文告訴它“請打開瀏覽器搜索某個關(guān)鍵詞”。

它也沒有在任何公開標準化基準（如 OSWorld 或 CUB）上報告結(jié)果，所有評測都基于內(nèi)部任務(wù)套件，缺乏與 Anthropic、OpenAI、Google 等主流方案的直接可比性。不使用任何語言模型能力遷移，意味著 FDM-1 可能在 CAD 建模、游戲操控、連續(xù)滾動瀏覽這些 VLM 完全做不了的任務(wù)上有獨特優(yōu)勢，但也意味著產(chǎn)品化落地時需要解決指令理解、任務(wù)規(guī)劃等一系列問題。

未來，F(xiàn)DM-1 代表的路線和 VLM 代理路線最終可能會趨于融合。一個能在 30 FPS 下連續(xù)操控 3D 建模軟件的模型，如果加上語言條件化（language conditioning）和高級規(guī)劃模塊，有機會兼得兩種路線的優(yōu)點。

這個判斷是不是成立暫且不論。但可以更加明確的是：在計算機行為建模這個賽道上，數(shù)據(jù)規(guī)模和上下文長度的重要性被嚴重低估了，而 Standard Intelligence 可能是第一個認真把這兩個要素推向極致的團隊。至于這條路最終能走多遠，還需要更多定量驗證、更多場景泛化、以及與 VLM 路線在真實生產(chǎn)任務(wù)上的正面比較。

參考資料：

1.https://si.inc/posts/fdm1/

運營/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.