国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Sora·創(chuàng)世紀(jì)·大統(tǒng)一模型

0
分享至

Sora的野心:世界模擬器

現(xiàn)實(shí)世界(物理世界)存在大統(tǒng)一理論嗎?

這是愛因斯坦一輩子都在追尋的目標(biāo)。

無數(shù)人類天才窮盡一生才合伙建立殘缺的大統(tǒng)一理論(GUT):它只統(tǒng)一了強(qiáng)相互作用、弱相互作用和電磁力,引力至今無法統(tǒng)一到模型之中。

同理,AI世界存在大統(tǒng)一模型嗎?

這也是很多AI工程師也在追求的目標(biāo)。

此次OpenAI發(fā)布Sora,官方對(duì)它的定義就是:世界模擬器。

并且認(rèn)為它是構(gòu)建物理世界通用模擬器的一個(gè)可能方法。

那么,AI世界也會(huì)存在“基本粒子”嗎?

為什么Sora發(fā)布會(huì)引發(fā)對(duì)AGI的思考和爭(zhēng)議。

人類的大統(tǒng)一理論與AI大統(tǒng)一模型如何比照參考?

物理引擎和數(shù)學(xué)原理又將扮演什么角色?

隨著Sora的DEMO推出,人類似乎觸手可及“AI創(chuàng)世紀(jì)”!

1

AI語言大模型(LLM)的“基本粒子”

人類的終極目標(biāo)之一,

就是尋找物理世界的“基本粒子”。

只有找到“基本粒子”,才有可能理解這個(gè)宇宙。

AI世界則不一樣,人類現(xiàn)在是創(chuàng)世者,我們?cè)O(shè)定“基本粒子”。只有制造出“基本粒子”,才能去生成一個(gè)新世界。

回到AI人工智能的“奇點(diǎn)大爆炸”時(shí)代,ChatGPT作為第一個(gè)真正意義的人工通用智能,它的工作原理是什么:

ChatGPT借助Embedding將人類語言“編碼”成AI能夠計(jì)算的“語言顆粒”,也就是Token化,將自然語言轉(zhuǎn)換為高維向量空間中的數(shù)值,通過自注意力機(jī)制權(quán)衡不同語言元素的相對(duì)重要,最終“解碼”回自然語言。

大語言模型處理和生成文本的過程步驟:

1.文本Tokenization ? 2. Embedding映射 ? 3. 加入位置編碼 ? 4. 通過自注意力機(jī)制處理 ? 5. 利用前饋網(wǎng)絡(luò)進(jìn)一步處理 ? 6. 生成預(yù)測(cè)并“解碼

具體步驟如下:

①文本Tokenization:

將原始文本分解為更小的單元(Tokens)。

"Hello, world!" ? ["Hello", ",", "world", "!"]

②Embedding映射:

將每個(gè)Token轉(zhuǎn)換為高維空間中的向量。

["Hello", ",", "world", "!"]

? [向量Hello, 向量,, 向量world, 向量!]

③加入位置編碼:

為每個(gè)向量加上位置信息,保留序列中詞的順序。

[向量Hello, 向量,, 向量world, 向量!] ? [向量Hello_pos, 向量,_pos, 向量world_pos, 向量!_pos]

④通過自注意力機(jī)制處理:

模型計(jì)算每個(gè)詞對(duì)序列中其他詞的“注意力”,從而調(diào)整每個(gè)詞的表示,使其包含更豐富的上下文信息。

[向量Hello_pos, 向量,_pos, 向量world_pos, 向量!_pos] ? [向量Hello_context, 向量,_context, 向量world_context, 向量!_context]

⑤利用前饋網(wǎng)絡(luò)進(jìn)一步處理:

對(duì)每個(gè)詞的向量進(jìn)行進(jìn)一步的非線性變換,以學(xué)習(xí)更復(fù)雜的表示。

[向量Hello_context, 向量,_context, 向量world_context, 向量!_context] ? [向量Hello_final, 向量,_final, 向量world_final, 向量!_final]

⑥生成預(yù)測(cè)并“解碼”:

基于最終的向量表示,模型生成下一個(gè)詞的預(yù)測(cè),并將其轉(zhuǎn)換回人類可讀的文本。

[向量Hello_final, 向量,_final, 向量world_final, 向量!_final] ? 預(yù)測(cè)下一個(gè)Token ? "Language"】

從以上步驟可以看出,ChatGPT技術(shù)原理的起點(diǎn)是將“自然語言”Token化,也就是給大語言模型提供了一個(gè)可計(jì)算可理解的“基本粒子”,然后用這些“基本粒子”去組合文本語言新世界。

不僅僅是ChatGPT,其它語言大模型基本上都將“Token”視為基本粒子,在文本大模型這個(gè)領(lǐng)域,創(chuàng)世粒子已經(jīng)“塵埃落定”。

2

Sora中的基本粒子“spacetime patches”

與ChatGPT的技術(shù)原理很相似,Sora模型技術(shù)棧也是先將視頻數(shù)據(jù)“基本粒子”化。

A、文字語言基本粒子“Token化

B、視頻數(shù)據(jù)基本粒子“ spacetime patches化”

與ChatGPT采用Token Embedding方法以實(shí)現(xiàn)文本數(shù)據(jù)相似,Sora模型將視頻數(shù)據(jù)壓縮至一個(gè)低維的潛空間(Latent Space),再將這些壓縮后的數(shù)據(jù)細(xì)分為時(shí)空碎片(Spacetime Latent Patches)。

視頻大模型的工程師一直都在創(chuàng)造基本粒子,但并不是每個(gè)基本粒子都能成為“創(chuàng)世粒子”。

能夠得到眾生認(rèn)可的“創(chuàng)世粒子”應(yīng)該具有以下特點(diǎn):

1、能夠高效繼承原生世界的信息;

2、可以自由組合創(chuàng)造(生成)新世界。

這次Sora模型的視頻數(shù)據(jù)“時(shí)空碎片”(spacetime patches)已經(jīng)被證實(shí)是一種高效且可擴(kuò)展的數(shù)據(jù)塊,它能夠捕捉和表征各類視頻數(shù)據(jù)的關(guān)鍵信息。成為AI時(shí)空數(shù)據(jù)建模的基石,和Token一樣時(shí)空碎片spacetime patches成為AI時(shí)空建模的關(guān)鍵,成為視頻大模型的“基本粒子”。

Sora模型處理和生成視頻的過程步驟:

1.視頻數(shù)據(jù)輸入 ? 2. 壓縮到低維潛變量空間(Latent Space) ? 3. 拆解為時(shí)空碎片(Spacetime Patches) ? 4. AI時(shí)空建模

通過這一系列步驟,視頻數(shù)據(jù)被轉(zhuǎn)換成時(shí)空碎片spacetime patches,這為深入理解視頻內(nèi)容提供一種統(tǒng)一方法。

AI創(chuàng)世紀(jì)的一些基本粒子好像慢慢被創(chuàng)造出來了:

語言大模型的基本粒子創(chuàng)造出來了:Token

視頻大模型的基本粒子也創(chuàng)造出來了:spacetime patches。

3

Sora 的技術(shù)原理猜想

Sora模型官方只出了一個(gè)技術(shù)報(bào)告,并沒有公布具體技術(shù)細(xì)節(jié)。

看來創(chuàng)世者也不是無私的,OpenAI從原生世界的開源技術(shù)和公開論文中獲取靈感,但卻不愿意公開自己的技術(shù)。

以上我們對(duì)Sora進(jìn)行了一個(gè)總體的總結(jié),現(xiàn)在來解構(gòu)一下它的產(chǎn)品脈絡(luò),以下內(nèi)容是對(duì)Sora模型的技術(shù)猜想:

步驟1:

壓縮原始視頻,提取特征信息

在Sora模型的訓(xùn)練初期,第一步是將原始視頻數(shù)據(jù)轉(zhuǎn)化為低維度潛空間(Latent Space)中的特征。這個(gè)過程可以視為一個(gè)高維數(shù)據(jù)壓縮和特征提煉的數(shù)學(xué)操作。

現(xiàn)存的4K或高清視頻擁有極高分辨率,需要一個(gè)“壓縮”步驟,旨在從原始視頻中提取特征信息,簡(jiǎn)化描述:

OpenAI參考了Latent Diffusion的研究成果——將原圖像數(shù)據(jù)轉(zhuǎn)換成潛空間特征,降低處理數(shù)據(jù)量,且能有保留核心信息。

經(jīng)過壓縮后的數(shù)據(jù)存在以下特征:

1.有損壓縮與重建

通過在潛在空間中進(jìn)行擴(kuò)散和逆擴(kuò)散過程,模型能夠在有損的基礎(chǔ)上重建出與原始數(shù)據(jù)相似但又新穎的樣本。

2.效率與靈活性

低維潛在空間中進(jìn)行操作使得模型更加高效,同時(shí)提供了更大的創(chuàng)造性靈活性。也就是說,雖然數(shù)據(jù)經(jīng)過壓縮,在Latent Diffusion技術(shù)加持下對(duì)大模型訓(xùn)練影響不大。

步驟2:

將壓縮視頻拆解成時(shí)空碎片(spacetime patches)

視頻數(shù)據(jù)被壓縮到潛空間,再拆解成基本單位,也就是時(shí)空碎片Spacetime Patches。

Patch的原始的意義是一個(gè)獨(dú)立的圖像塊,在圖像訓(xùn)練的Vision Transformer (ViT)的原始論文中,研究者提出以處理大型圖像的訓(xùn)練方法——方法的思想在于將大圖像分割為等面積的圖像塊,也就是Patch,將每個(gè)圖像塊視為序列化數(shù)據(jù)的一部分,在這一序列化過程中,每個(gè)圖像塊的位置信息也被編碼進(jìn)去,這就是圖片生成的基本原理。但如果要生成視頻的話,則要將對(duì)應(yīng)位置圖像塊的時(shí)間幀編碼進(jìn)去,形成時(shí)空?qǐng)D像塊,簡(jiǎn)稱時(shí)空碎片(Spacetime Patches),這些時(shí)空碎片不僅攜帶空間信息,還包含時(shí)間序列上的變化信息。

1、圖像生成

訓(xùn)練時(shí)由面到點(diǎn)(平面),生成時(shí)由點(diǎn)到面;

2、視頻生成

訓(xùn)練時(shí)由立體到點(diǎn)(立本),生成時(shí)再由點(diǎn)到立體。

數(shù)學(xué)上可以將視頻視為一個(gè)由時(shí)空碎片(Spacetime Patches)組成的復(fù)雜矩陣。

假設(shè)視頻V是一個(gè)連續(xù)的時(shí)空信號(hào),可以表示為一個(gè)四維張量V∈RT×H×W×C,其中T代表時(shí)間維度上的幀數(shù),H和W分別代表每幀圖像的高度和寬度,而C是位置信息。當(dāng)然這里還包括一些技術(shù)細(xì)節(jié):

例如不同視頻尺寸捕捉信息參考Navit的“Pack”的技術(shù),編碼器VAE的改進(jìn)支持各種視頻格式。

視頻數(shù)據(jù)被拆解為一系列可管理的基本單位時(shí)空碎片(Spacetime Patches),下一步就是要將這些時(shí)空碎片輸入到到模型中進(jìn)行訓(xùn)練。

步驟3

“字幕重排技術(shù)”對(duì)時(shí)空向量的準(zhǔn)確描述

在將時(shí)空碎片輸入到到模型訓(xùn)練之前,OpenAI公司還引入了“字幕重排技術(shù)”。

Betker, James, et al. "Improving image generation with better captions." Computer Science. https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8

這是一種全新的工程能力,OpenAI將DALL·E 3引入的字幕重排技術(shù)應(yīng)用于視頻的訓(xùn)練。

DALL·E 3也是OpenAI的產(chǎn)品,使用起來駕輕就熟。

字幕重排技術(shù)”工程上非常重要,它在訓(xùn)練視頻和生成視頻兩個(gè)環(huán)節(jié)上都有極大作用。

正向訓(xùn)練:

訓(xùn)練一個(gè)字幕模型,然后使用它訓(xùn)練視頻產(chǎn)生文本字幕。高度描述性的視頻字幕可以提高文本的準(zhǔn)確性以及視頻的整體訓(xùn)練質(zhì)量。

逆向生成:

利用GPT大語言模型將用戶簡(jiǎn)短提示擴(kuò)展為詳細(xì)字幕,提高視頻生成的細(xì)節(jié)度和質(zhì)量。使Sora能夠根據(jù)用戶提示生成高質(zhì)量、內(nèi)容豐富的視頻。

從工程上來講這里使用到了OpenAI的三大模型的技術(shù)能力:

語言大模型GPT4.0?圖片大模型DALL·E 3?視頻大模型Sora

這個(gè)環(huán)節(jié)技術(shù)突破不大,但工程影響甚巨,OpenAI手握三大模型(文+圖+視頻),其它公司想要突破這樣的工程棧并不容易。

步驟4:

擴(kuò)散模型Diffusion Transformer對(duì)潛空間數(shù)據(jù)進(jìn)行處理

潛變量的向量信息已經(jīng)準(zhǔn)備好了,現(xiàn)在進(jìn)入到處理數(shù)據(jù)和生成視頻環(huán)節(jié)。

OpenAI采用了Diffusion Transformer(DiT)架構(gòu),這是基于伯克利學(xué)者在論文"Scalable diffusion models with transformers"中提出的工作。

該架構(gòu)有效地結(jié)合了擴(kuò)散模型和Transformer技術(shù),構(gòu)建了一個(gè)強(qiáng)大的信息提取器,專門用于處理和生成視頻內(nèi)容。

整體架構(gòu)如下:

No.1

潛變量與Patch的處理

將輸入視頻表示為一系列潛在變量,這些潛在變量進(jìn)一步被分解成多個(gè)Patch。

每個(gè)Patch由多個(gè)DiT塊串聯(lián)處理,增強(qiáng)了模型對(duì)視頻內(nèi)容的理解和重構(gòu)能力。

No.2

DiT塊的優(yōu)化設(shè)計(jì)

對(duì)標(biāo)準(zhǔn)Transformer架構(gòu)進(jìn)行了修改,引入了自適應(yīng)層歸一化(Adaptive Layer Normalization)、交叉注意力(Cross Attention)和額外的輸入Token進(jìn)行調(diào)節(jié),以優(yōu)化性能。實(shí)驗(yàn)表明,自適應(yīng)層歸一化在提高模型效果方面表現(xiàn)最佳。

這里最內(nèi)核的兩大核心技術(shù)是擴(kuò)散模型Diffusion和Transformer框架!

擴(kuò)散模型的數(shù)學(xué)原理:

高斯噪聲的逐步添加與去噪過程:

● 通過連續(xù)添加高斯噪聲破壞訓(xùn)練數(shù)據(jù)的結(jié)構(gòu),使信息熵增加,逐漸掩蓋原始結(jié)構(gòu)信息。學(xué)習(xí)逆轉(zhuǎn)加噪過程,即去噪,從而恢復(fù)數(shù)據(jù)。

● 這一過程可以通過訓(xùn)練概率分布q(xt∣xt-1)來實(shí)現(xiàn),其中x0,...,xT是逐步加噪的潛變量序列。

Transformer模型的數(shù)學(xué)原理


深入探索Diffusion Transformer(DiT)架構(gòu)時(shí),理解Transformer的數(shù)學(xué)原理很重要。Transformer模型依賴于自注意力機(jī)制和多頭注意力機(jī)制,以實(shí)現(xiàn)對(duì)輸入數(shù)據(jù)的高效處理和深層次理解。

● 自注意力(Self-Attention)機(jī)制

自注意力機(jī)制允許模型在處理一個(gè)序列的每個(gè)元素時(shí),考慮到序列中的所有其他元素,其數(shù)學(xué)表示為:

其中Q,K,V分別代表查詢(Query)、鍵(Key)和值(Value),dk是鍵的維度。這個(gè)機(jī)制通過計(jì)算輸入元素之間的權(quán)重分布,使模型能夠捕捉序列內(nèi)部的復(fù)雜關(guān)系。

● 多頭注意力(Multi-Head Attention)機(jī)制

多頭注意力機(jī)制是對(duì)自注意力的擴(kuò)展,它并行地執(zhí)行多次自注意力操作,每次使用不同的權(quán)重集,然后將所有頭的輸出合并:

以上機(jī)制中W是可學(xué)習(xí)的權(quán)重矩陣,?是頭的數(shù)量允許模型同時(shí)從不同的表示子空間中學(xué)習(xí)信息,提高了其理解和表達(dá)能力。

關(guān)于TRANSFORMER的技術(shù)細(xì)節(jié),量子學(xué)派在有過詳細(xì)的介紹和學(xué)習(xí)!

擴(kuò)散模型與Transformer的結(jié)合:

DiT通過引入Transformer架構(gòu),實(shí)現(xiàn)了對(duì)視頻內(nèi)容的深層分析與理解。多層多頭注意力和歸一化帶來了降維和壓縮,擴(kuò)散方式下的信息提取過程更加高效。

● 此過程與大型語言模型(LLM)的重整化原理相似,通過參數(shù)化潛變量的概率分布,并使用KL散度來計(jì)算分布之間的差異,從而優(yōu)化模型性能。

通過這種方式,Sora不僅可以準(zhǔn)確地提取和理解視頻內(nèi)容的深層信息,還能根據(jù)用戶的簡(jiǎn)短提示生成高質(zhì)量、內(nèi)容豐富的視頻。

這一創(chuàng)新的方法為視頻生成領(lǐng)域帶來了新的可能性,展示了數(shù)學(xué)原理和AI技術(shù)結(jié)合的強(qiáng)大力量。

步驟5

與Sora產(chǎn)品交互,用戶逆向生成世界

Sora能夠精確理解用戶的意圖,并將這些意圖擴(kuò)展成完整故事,這為視頻生成提供了藍(lán)圖。

以下是擴(kuò)展過程詳解:

接收用戶提示

Sora首先收集用戶的簡(jiǎn)短提示,這可能是一個(gè)場(chǎng)景描述、情感表達(dá)或者任何想要在視頻元素。

提示擴(kuò)展

利用GPT模型,Sora將這些簡(jiǎn)短的提示轉(zhuǎn)換成詳細(xì)的字幕。這個(gè)過程涉及到復(fù)雜的自然語言理解和生成,確保擴(kuò)展后的字幕不僅忠實(shí)于原始提示,還補(bǔ)充大量的細(xì)節(jié),如背景信息、角色動(dòng)作、情感色彩等,使得提示變得生動(dòng)且具體。

Sora模擬時(shí)尚女士走在東京街頭,效果極其逼真

生成視頻內(nèi)容

有了這些字幕作為指導(dǎo),Sora接著將字幕轉(zhuǎn)化為視覺內(nèi)容。這個(gè)過程包括選擇場(chǎng)景、角色設(shè)計(jì)、動(dòng)作編排和情感表達(dá),確保生成視頻與字幕保持一致。

優(yōu)化與調(diào)整

在視頻生成的過程中,Sora還會(huì)優(yōu)化和調(diào)整確保視頻的質(zhì)量達(dá)到最高。這可能包括對(duì)視頻細(xì)節(jié)的微調(diào)、色彩的校正、以及確保視頻流暢性和視覺吸引力。

以上是對(duì)Sora技術(shù)原理的猜想,Sora模型可以生成高質(zhì)量和視頻,用OpenAI工程師的話來表述:構(gòu)建物理世界通用模擬器

4

工程師的“創(chuàng)世紀(jì)”:鏡像世界

工程師們眼中的Sora可不是為了給你生成一部電影,而是在虛擬環(huán)境中重現(xiàn)物理現(xiàn)實(shí),提供不違反“物理規(guī)律”的鏡像世界。

那到底該如何創(chuàng)世呢?這可是大神們的工作。

宇宙存在許多規(guī)則,例如能量守恒定律、熱力學(xué)定律、萬有引力牛頓定律等。

萬事萬物不能違背這些規(guī)則,蘋果不能飛向月球,人類在陽光下有影子。那這些規(guī)律是如何形成的呢?存在兩種可能:

1、混沌第一性原理:定律是在宇宙的發(fā)展過程中形成的;

2、定律第一性原理:宇宙從按照這些定律才發(fā)展到現(xiàn)在。

以上是兩種“創(chuàng)世”規(guī)則,也決定著“鏡像世界”的兩種方法。

技術(shù)上現(xiàn)在有兩種方式可以實(shí)現(xiàn)這樣的世界模型:

基于物理運(yùn)動(dòng)的模擬(Sora)

物理規(guī)律學(xué)習(xí):Sora通過分析大規(guī)模視頻數(shù)據(jù),使用機(jī)器學(xué)習(xí)算法提煉出物理互動(dòng)的模式,如蘋果落地而非懸浮,遵循牛頓的萬有引力定律。

基于數(shù)學(xué)規(guī)則的模擬(虛幻引擎)

數(shù)學(xué)建模:虛幻引擎通過手工編碼物理世界的數(shù)學(xué)模型(如光照模型、動(dòng)力學(xué)方程),來精確“渲染”物理現(xiàn)象和互動(dòng)。

很明顯,基于物理運(yùn)動(dòng)的模擬(Sora)認(rèn)可的是“混沌第一性原理”,在混亂中學(xué)習(xí)。基于數(shù)學(xué)規(guī)則的模擬(虛幻引擎)認(rèn)可的是“定律第一性原理”,存在更高設(shè)計(jì)者。

以上兩者都存在爭(zhēng)議,那么這兩者可以結(jié)合嗎?

5

創(chuàng)世背后,可能的“數(shù)學(xué)漏洞”

Sora是否是“世界模型器”,數(shù)學(xué)家有自己的看法。

在很多科學(xué)家眼中,宇宙的本質(zhì)是數(shù)學(xué)。

如果Sora能以模擬方式最終逼近數(shù)學(xué)本質(zhì),那它也可能被視為“創(chuàng)世紀(jì)”。

Sora模型中用到了很多數(shù)學(xué)原理,舉例如下:

1.流形分布

定理:

自然數(shù)據(jù)集表現(xiàn)為低維流形上的概率分布。

2.數(shù)據(jù)流形的

維數(shù)降低:

數(shù)據(jù)樣本點(diǎn)集在高維原始數(shù)據(jù)空間中實(shí)際上局限于低維流形。

3.物理系統(tǒng)

的適定性

物理的幾何連續(xù)可以通過偏微分方程的解的正則性和唯一性來體現(xiàn),自然界的物理過程在大多數(shù)情況下是連續(xù)和可預(yù)測(cè)的。

4.概率分布

的變換:

通過傳輸變換,例如最優(yōu)傳輸變換和熱擴(kuò)散過程,將數(shù)據(jù)概率分布轉(zhuǎn)換為計(jì)算機(jī)易于生成的高斯分布。

滑動(dòng)查看

但從Sora模型生成的視頻來看,仍然存在明顯“數(shù)學(xué)漏洞”。

1

因果性的區(qū)分

Transformer模型訓(xùn)練過程中的統(tǒng)計(jì)方法無法精確捕捉數(shù)學(xué)積分。

2

局部合理性與整體合理性

要求模型能夠整合更高層次數(shù)學(xué)理論,以實(shí)現(xiàn)整體的一致性(例如蠟燭被吹滅)。

3

臨界態(tài)的識(shí)別和模擬

無法通過幾何方法的最優(yōu)傳輸理論來精確探測(cè)數(shù)據(jù)流形的邊界(從量變到質(zhì)變)。

Sora模型展示了通過深度學(xué)習(xí)模擬復(fù)雜物理世界的潛力,但也存在明顯“數(shù)學(xué)漏洞”,如果能真正模擬物理世界,需要更高層次的數(shù)學(xué)理論并且探索新的模型結(jié)構(gòu)。

6

AI世界存在大統(tǒng)一模型嗎?

很明顯,OpenAI試圖建立AI大統(tǒng)一模型。

它通過GPT-4.0、DALL·E 3Sora等模型的開發(fā),試圖在語言、圖像和視頻等不同模態(tài)之間建立橋梁,完成大統(tǒng)一。

但很多人并不買賬,深度學(xué)習(xí)三巨頭的Yann LeCun提出的非生成式V-JEPA模型試圖通過結(jié)合視覺感知和物理推理來構(gòu)建更為精確的世界模型。

AI大統(tǒng)一模型并非沒有可能,一種新的方向已經(jīng)出現(xiàn):

將不同模態(tài)的數(shù)據(jù)轉(zhuǎn)化為一種或多種統(tǒng)一的基本粒子形式,以便使用同一套算法框架進(jìn)行處理和分析。

文字語言的Token基本粒子化,視頻數(shù)據(jù)的Spacetime Patches基本粒子化讓人看到了希望。

Sora模型其實(shí)已經(jīng)讓兩種基本粒子TokenSpacetime Patches在進(jìn)行交互,最后能統(tǒng)一成一種基本粒子嗎?也不是不可能。

除了數(shù)據(jù)“基本粒子”化,同時(shí)也看到了四大理論逐漸成形:

1、基于Transformer架構(gòu)的交互關(guān)系:

利用自注意力機(jī)制(Self-Attention Mechanism)使得模型能夠捕獲長距離依賴,為跨模態(tài)數(shù)據(jù)的序列對(duì)齊和時(shí)間依賴性建模提供數(shù)學(xué)框架。

2、Diffusion模型的逐步細(xì)化過程

Diffusion模型通過漸進(jìn)式去噪進(jìn)行連續(xù)隨機(jī)的離散化表達(dá),嵌入了隨機(jī)微分方程展現(xiàn)了模型在處理不同數(shù)據(jù)類型時(shí)的靈活性和多樣性。

3、生成對(duì)抗網(wǎng)絡(luò)(GAN)的創(chuàng)新應(yīng)用:

生成器生成逼真的數(shù)據(jù)樣本,而判別器則努力區(qū)分真實(shí)數(shù)據(jù)和生成數(shù)據(jù),推動(dòng)模型在生成質(zhì)量、多樣性以及對(duì)復(fù)雜數(shù)據(jù)分布的捕捉能力方面的進(jìn)步。

4、模態(tài)轉(zhuǎn)換的編解碼器:

通過映射和逆映射的數(shù)學(xué)操作,實(shí)現(xiàn)了從具體數(shù)據(jù)到統(tǒng)一表示空間的轉(zhuǎn)換。

物理世界的大統(tǒng)一理論是統(tǒng)一四種力,以上是AI世界的四種重要理論。

AI世界會(huì)存在大統(tǒng)一模型嗎?

如果是,那現(xiàn)實(shí)物理世界是不是同樣如此。

如果AI世界不存在大統(tǒng)一模型。

那么這么多年來科學(xué)家尋找的大統(tǒng)一理論是不是鏡花水月?

也許,人類只有去創(chuàng)造一個(gè)世界,才能理解創(chuàng)世者。

AI背后,藏著一個(gè)創(chuàng)世夢(mèng)想

一直以來,人類在探索宇宙起源,叩問創(chuàng)世者。

但今天,自己有力量可以成為創(chuàng)世者了。

千年回顧,這是不是人類文明史劃時(shí)代時(shí)刻?

這一年來,目睹了Token化的大統(tǒng)一設(shè)計(jì),見證了Transformer架構(gòu)開疆拓土、理解了Diffusion模型底層意義、即將體驗(yàn)Spacetime Patches的革命創(chuàng)新。

這一年來,各種大模型紛至沓來,天才創(chuàng)意層出不窮。產(chǎn)品迭代驚心動(dòng)魄,一年之間可謂覆地翻天。

可對(duì)于人類天才來說,這些還不夠,他們要建立一個(gè)“世界模型”,創(chuàng)造一個(gè)數(shù)字宇宙。同時(shí)還希望這個(gè)世界完全遵循F = ma、E=MC2這樣的物理規(guī)律。

如果真能做到,那它和現(xiàn)實(shí)世界有何區(qū)別。

再想一想,現(xiàn)實(shí)世界有沒有可能也是一種模擬?

如果是,你是興奮,還是擔(dān)憂?

Sora將,你準(zhǔn)備好了嗎?

入群暗號(hào):Sora

一起討論Sora下的機(jī)遇

一起尋找更多AIGC的機(jī)會(huì)

一起了解人工智能時(shí)代的新規(guī)劃

可掃碼添加量子妹3.0

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
羅嘉良北京喝羊湯,滿頭黑發(fā),顯年輕,直夸燒餅香,一頓飯花50塊

羅嘉良北京喝羊湯,滿頭黑發(fā),顯年輕,直夸燒餅香,一頓飯花50塊

甜檸聊史
2025-12-25 10:36:21
130億大橋沒護(hù)欄!廣東一家五口墜江全遇難,村民早說會(huì)出事!

130億大橋沒護(hù)欄!廣東一家五口墜江全遇難,村民早說會(huì)出事!

你食不食油餅
2025-12-25 19:48:25
玄學(xué)提醒:別人送你這2樣?xùn)|西,是不能收的

玄學(xué)提醒:別人送你這2樣?xùn)|西,是不能收的

神奇故事
2025-11-04 22:03:04
賈國龍道歉,西貝還在求援

賈國龍道歉,西貝還在求援

象先志
2025-12-25 23:27:56
湖人后悔了嗎?他們本可以在上賽季就拿下這位太陽內(nèi)線新援?

湖人后悔了嗎?他們本可以在上賽季就拿下這位太陽內(nèi)線新援?

稻谷與小麥
2025-12-26 00:31:09
小米17 Ultra全球版規(guī)格曝光 電池縮水至6000mAh

小米17 Ultra全球版規(guī)格曝光 電池縮水至6000mAh

手機(jī)中國
2025-12-25 22:50:02
三星被曝2026年發(fā)新款折疊屏手機(jī),屏幕超7英寸、護(hù)照式設(shè)計(jì),叫板蘋果

三星被曝2026年發(fā)新款折疊屏手機(jī),屏幕超7英寸、護(hù)照式設(shè)計(jì),叫板蘋果

智東西
2025-12-23 22:33:08
這下好了!連央視也下場(chǎng)證實(shí),15歲高中生網(wǎng)購南京大屠殺罪證捐了

這下好了!連央視也下場(chǎng)證實(shí),15歲高中生網(wǎng)購南京大屠殺罪證捐了

甜檸聊史
2025-12-08 09:12:15
楊丞琳退出娛樂圈!白皮女星懷金主的孩子!

楊丞琳退出娛樂圈!白皮女星懷金主的孩子!

八卦瘋叔
2025-12-23 12:46:15
想不通,為何有的孩子和爸爸不親近?這是我見過最簡(jiǎn)明易懂的答案

想不通,為何有的孩子和爸爸不親近?這是我見過最簡(jiǎn)明易懂的答案

另子維愛讀史
2025-12-09 20:44:52
河南美女“大晨”去世,年僅28歲,開的奧迪,喝酒畫面曝光引唏噓

河南美女“大晨”去世,年僅28歲,開的奧迪,喝酒畫面曝光引唏噓

詩意世界
2025-12-17 10:00:03
越扒越心驚!南博黑幕只是冰山一角,聽泉不敢鑒寶才是真的膽寒了

越扒越心驚!南博黑幕只是冰山一角,聽泉不敢鑒寶才是真的膽寒了

鋭娛之樂
2025-12-23 13:34:23
元旦前后有明顯降溫,北京有望迎2026年“新年第一場(chǎng)雪”

元旦前后有明顯降溫,北京有望迎2026年“新年第一場(chǎng)雪”

北青網(wǎng)-北京青年報(bào)
2025-12-25 13:35:07
媒體人:嶗山可樂基本確定成為青島海牛隊(duì)新賽季的贊助商

媒體人:嶗山可樂基本確定成為青島海牛隊(duì)新賽季的贊助商

懂球帝
2025-12-25 15:38:20
這場(chǎng)戲唱了幾十年,該到收尾的時(shí)候了

這場(chǎng)戲唱了幾十年,該到收尾的時(shí)候了

石辰搞笑日常
2025-12-26 00:18:16
特朗普正式宣布:香港世紀(jì)號(hào)及180萬桶原油,將由美國永久保留。

特朗普正式宣布:香港世紀(jì)號(hào)及180萬桶原油,將由美國永久保留。

云鵬敘事
2025-12-24 13:41:16
2026 新年檔觀影指南!張藝謀周星馳賈玲各放大招,最期待誰?

2026 新年檔觀影指南!張藝謀周星馳賈玲各放大招,最期待誰?

小椰的奶奶
2025-12-25 00:32:08
西延高鐵時(shí)刻表、票價(jià)公布!開通首日往返票144元起

西延高鐵時(shí)刻表、票價(jià)公布!開通首日往返票144元起

大風(fēng)新聞
2025-12-25 17:35:19
中國航母進(jìn)度驚人,3艘航母已經(jīng)動(dòng)工,2030解放軍將有6個(gè)航母群

中國航母進(jìn)度驚人,3艘航母已經(jīng)動(dòng)工,2030解放軍將有6個(gè)航母群

胖福的小木屋
2025-12-25 22:29:39
和沒教養(yǎng)的人一起吃飯有多惡心!紅燒肉瘦肉都吃,吐了一桌肥肉

和沒教養(yǎng)的人一起吃飯有多惡心!紅燒肉瘦肉都吃,吐了一桌肥肉

美好客棧大掌柜
2024-11-02 00:46:49
2025-12-26 02:24:49
量子學(xué)派
量子學(xué)派
少數(shù)派的訂制課程
351文章數(shù) 9940關(guān)注度
往期回顧 全部

科技要聞

小米17Ultra發(fā)布,徠卡2億像素 ,6999元起

頭條要聞

韓國"最毒"財(cái)閥千金被捕 韓國人稱"經(jīng)過她身邊就會(huì)死"

頭條要聞

韓國"最毒"財(cái)閥千金被捕 韓國人稱"經(jīng)過她身邊就會(huì)死"

體育要聞

約基奇有多喜歡馬?

娛樂要聞

朱孝天把阿信好意當(dāng)球踢!

財(cái)經(jīng)要聞

新規(guī)來了,年化超24%的小貸被即刻叫停

汽車要聞

速來!智界在上海西岸準(zhǔn)備了年末潮流盛典

態(tài)度原創(chuàng)

健康
教育
手機(jī)
時(shí)尚
藝術(shù)

這些新療法,讓化療不再那么痛苦

教育要聞

從“畏難”到“追著學(xué)”:西北中學(xué)的物理課為何讓學(xué)生著迷?

手機(jī)要聞

行業(yè)唯一徠卡2億像素連續(xù)光變長焦!小米17 Ultra星空綠圖賞

冬季穿衣別顯得太臃腫!大衣收腰、搭配圍巾,有質(zhì)感又高級(jí)

藝術(shù)要聞

你絕對(duì)沒見過的美麗風(fēng)景,快來看看!

無障礙瀏覽 進(jìn)入關(guān)懷版