国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

樸素貝葉斯和文本分類I

0
分享至

樸素貝葉斯和文本分類I(引言和理論)

Naive Bayes and Text Classification I

https://arxiv.org/pdf/1410.5329


1 引言

始于半個(gè)多世紀(jì)前,科學(xué)家們開始嚴(yán)肅探討這樣一個(gè)問題:“我們能否構(gòu)建一種模型,使其能從現(xiàn)有數(shù)據(jù)中學(xué)習(xí),并自動(dòng)做出正確的決策與預(yù)測?” 回顧過往,這一問題如今看來近乎修辭性質(zhì)——答案已體現(xiàn)在模式分類、機(jī)器學(xué)習(xí)與人工智能等領(lǐng)域?qū)映霾桓F的實(shí)際應(yīng)用之中。

各類傳感設(shè)備采集的數(shù)據(jù),結(jié)合強(qiáng)大的學(xué)習(xí)算法與領(lǐng)域知識,催生了諸多如今我們習(xí)以為常的偉大發(fā)明:例如通過谷歌等搜索引擎進(jìn)行網(wǎng)絡(luò)查詢、郵局中的文字識別、超市中的條形碼掃描儀、疾病診斷、以及手機(jī)上 Siri 或 Google Now 的語音識別等。

預(yù)測建模的一個(gè)子領(lǐng)域是有監(jiān)督模式分類(supervised pattern classification),其任務(wù)是基于帶標(biāo)簽的訓(xùn)練數(shù)據(jù)訓(xùn)練模型,繼而用于為新樣本分配預(yù)定義的類別標(biāo)簽。本文將貫穿探討的一個(gè)例子是:利用樸素貝葉斯分類器進(jìn)行垃圾郵件過濾,以預(yù)測一條新文本消息是否屬于垃圾郵件(spam)或非垃圾郵件(not-spam)。樸素貝葉斯分類器是一類基于著名的貝葉斯概率定理的分類器,以其模型簡潔且性能良好而著稱,尤其在文檔分類與疾病預(yù)測等領(lǐng)域表現(xiàn)突出。


2 樸素貝葉斯分類

2.1 概述

樸素貝葉斯分類器是一類線性分類器,以其簡潔而高效著稱。其概率模型基于貝葉斯定理,“樸素”(naive)一詞源于其假設(shè):數(shù)據(jù)集中的各特征彼此相互獨(dú)立。實(shí)踐中,這一獨(dú)立性假設(shè)通常并不成立,但即便在此不切實(shí)際的假設(shè)下,樸素貝葉斯分類器往往仍能取得良好性能[1]。尤其在小樣本情況下,其表現(xiàn)甚至可優(yōu)于更復(fù)雜的強(qiáng)大模型[2]。

由于相對穩(wěn)健、易于實(shí)現(xiàn)、速度快且準(zhǔn)確率高,樸素貝葉斯分類器被廣泛應(yīng)用于諸多領(lǐng)域,例如:疾病診斷與治療方案決策[3]、分類學(xué)研究中的RNA序列分類[4],以及電子郵件客戶端中的垃圾郵件過濾[5]。然而,若獨(dú)立性假設(shè)被嚴(yán)重違背,或面對非線性分類問題時(shí),樸素貝葉斯分類器的性能可能顯著下降。我們必須牢記:數(shù)據(jù)類型與待解問題的性質(zhì)共同決定了應(yīng)選用何種分類模型。實(shí)踐中,強(qiáng)烈建議在特定數(shù)據(jù)集上對比多種分類模型,綜合考量其預(yù)測性能與計(jì)算效率。

在后續(xù)章節(jié)中,我們將深入探討樸素貝葉斯分類器的概率模型,并將其應(yīng)用于一個(gè)簡單的示例問題;隨后,將利用一個(gè)公開的短信(SMS)數(shù)據(jù)集,在Python中訓(xùn)練一個(gè)樸素貝葉斯分類器,以實(shí)現(xiàn)對未見消息的“垃圾短信(spam)”或“正常短信(ham)”分類。

2.2 后驗(yàn)概率

為理解樸素貝葉斯分類器的工作原理,我們需簡要回顧貝葉斯法則(Bayes’ rule)的概念。由托馬斯·貝葉斯(Thomas Bayes, 1701–1761)提出的這一概率模型雖簡潔卻極為強(qiáng)大,其核心思想可用通俗語言表述如下:


貝葉斯定理構(gòu)成了樸素貝葉斯分類整個(gè)概念的核心。在分類問題中,后驗(yàn)概率可被解釋為:“在已觀測到某對象特征值的前提下,該對象屬于第 i i 類的概率是多少?”一個(gè)更具體的例子是:“在已知某人餐前與餐后血糖測量值的情況下,此人患有糖尿病的概率是多少?”



延續(xù)上述示例,我們可依據(jù)后驗(yàn)概率將決策規(guī)則表述如下:


2.3 類條件概率

貝葉斯分類器的一個(gè)假設(shè)是:樣本服從獨(dú)立同分布(i.i.d.)。其中,i.i.d. 是 “independent and identically distributed”(獨(dú)立同分布)的縮寫,用于描述彼此相互獨(dú)立、且來自同一概率分布的隨機(jī)變量。所謂獨(dú)立性,指某一觀測值的出現(xiàn)概率不影響另一觀測值的概率(例如,時(shí)間序列與網(wǎng)絡(luò)圖數(shù)據(jù)并不滿足獨(dú)立性)。經(jīng)典的獨(dú)立同分布變量例子是拋硬幣:第一次拋擲結(jié)果不影響第二次結(jié)果,依此類推;對于一枚公平硬幣而言,無論拋擲多少次,其正面向上的概率始終為 0.5。

樸素貝葉斯分類器的另一關(guān)鍵假設(shè)是特征的條件獨(dú)立性。在此“樸素”假設(shè)下,樣本的類條件概率(即似然)可直接從訓(xùn)練數(shù)據(jù)中估計(jì),而無需遍歷所有可能的特征向量 x x 組合。因此,對于一個(gè) d d 維特征向量 x x,其類條件概率可按如下方式計(jì)算:




為通過實(shí)例說明這一概念,假設(shè)我們擁有一個(gè)包含 500 份文檔的集合,其中 100 份為垃圾郵件。現(xiàn)在,我們希望計(jì)算一條新消息 “Hello World” 在其為垃圾郵件條件下的類條件概率。此處,該模式由兩個(gè)特征組成:“hello” 和 “world”,而類條件概率即為以下兩項(xiàng)的乘積:“在消息為垃圾郵件的條件下出現(xiàn) ‘hello’ 的概率” 與 “在消息為垃圾郵件的條件下出現(xiàn) ‘world’ 的概率”。


然而,就條件獨(dú)立性的樸素假設(shè)而言,我們在此注意到了一個(gè)問題:該樸素假設(shè)認(rèn)為,某個(gè)特定詞語的出現(xiàn)不會影響同一文檔中其他詞語出現(xiàn)的概率。例如,對于文本中同時(shí)出現(xiàn)的兩個(gè)詞 “peanut”(花生)和 “butter”(黃油),直覺告訴我們這一假設(shè)顯然不成立:若某文檔包含 “peanut”,則其同時(shí)包含 “butter”(或 “allergy”(過敏))的可能性將顯著提高。實(shí)踐中,條件獨(dú)立性假設(shè)的確經(jīng)常被違背;但眾所周知,即便如此,樸素貝葉斯分類器仍往往表現(xiàn)良好[6]。

2.4 先驗(yàn)概率

與頻率學(xué)派方法不同,此處引入了一個(gè)額外的先驗(yàn)概率(prior probability,或簡稱 prior),可被解釋為先驗(yàn)信念或先驗(yàn)知識。


若先驗(yàn)服從均勻分布,則后驗(yàn)概率將完全由類條件概率與證據(jù)項(xiàng)(evidence term)決定;而由于證據(jù)項(xiàng)為常數(shù),決策規(guī)則將完全取決于類條件概率(這與頻率學(xué)派方法及最大似然估計(jì)類似)。

最終,先驗(yàn)知識可通過咨詢領(lǐng)域?qū)<耀@取,或通過對訓(xùn)練數(shù)據(jù)進(jìn)行估計(jì)獲得(前提是訓(xùn)練數(shù)據(jù)是獨(dú)立同分布的,且為總體的代表性樣本)。最大似然估計(jì)方法可表述如下:


圖3展示了先驗(yàn)概率對決策規(guī)則的影響。給定一個(gè)一維模式 (連續(xù)屬性,以“x”符號表示),其服從正態(tài)分布,并屬于兩個(gè)類別之一(藍(lán)色和綠色)。第一類(? = 藍(lán)色)的樣本來自均值為 = 4、標(biāo)準(zhǔn)差為 = 1 的正態(tài)分布;第二類(? = 綠色)的概率分布則以 = 10 為中心,具有相同的標(biāo)準(zhǔn)差 = 1。鐘形曲線表示從這兩個(gè)不同正態(tài)分布中抽取的樣本的概率密度。僅考慮類條件概率時(shí),本例中的最大似然估計(jì)將是:




2.5 證據(jù)項(xiàng)

在定義了類條件概率與先驗(yàn)概率之后,為計(jì)算后驗(yàn)概率,僅剩一個(gè)項(xiàng)尚未明確,即證據(jù)項(xiàng)(evidence)。

證據(jù)項(xiàng) P ( x )
可理解為:不考慮類別標(biāo)簽,觀察到特定模式 x 的概率。結(jié)合后驗(yàn)概率更形式化的定義:


2.6 多項(xiàng)式樸素貝葉斯——一個(gè)玩具示例

在介紹完樸素貝葉斯分類器的基本概念、后驗(yàn)概率與決策規(guī)則后,讓我們通過一個(gè)基于圖4所示訓(xùn)練集的簡單玩具示例進(jìn)行演示。



2.6.1 最大似然估計(jì)

決策規(guī)則可定義為:


在樣本獨(dú)立同分布(i.i.d.)的假設(shè)下,先驗(yàn)概率可通過最大似然估計(jì)獲得(即各類別標(biāo)簽在訓(xùn)練數(shù)據(jù)集中出現(xiàn)的頻率):


在“顏色”(color)與“形狀”(shape)兩個(gè)特征相互獨(dú)立的樸素假設(shè)下,類條件概率可簡化為各單個(gè)條件概率的乘積。
通過最大似然估計(jì),例如 P ( blue ∣ ? ) 即為:在訓(xùn)練數(shù)據(jù)集中所有屬于類別 “?” 的樣本中,觀察到“藍(lán)色”樣本的頻率。


現(xiàn)在,后驗(yàn)概率可直接由類條件概率與先驗(yàn)概率的乘積計(jì)算得出:


2.6.2 分類

綜上所述,只需將計(jì)算所得的后驗(yàn)概率代入決策規(guī)則,即可對新樣本進(jìn)行分類:


由于 0.18 > 0.15,該樣本可被分類為 “+”。進(jìn)一步審視后驗(yàn)概率的計(jì)算過程可見,這一簡單示例揭示了先驗(yàn)概率對決策規(guī)則的影響:若兩類的先驗(yàn)概率相等,則該新樣本將被分類為 “?” 而非 “+”。這一觀察也凸顯了代表性訓(xùn)練數(shù)據(jù)集的重要性;實(shí)踐中,通常建議進(jìn)一步咨詢領(lǐng)域?qū)<遥院侠碓O(shè)定先驗(yàn)概率。

2.6.3 加法平滑(Additive Smoothing)

對于圖5所示樣本,分類過程是直接明了的;但若遇到一個(gè)“新”樣本,其顏色屬性取值(如“yellow”(黃色))在訓(xùn)練數(shù)據(jù)集中未曾出現(xiàn)(見圖5),則情況將更為棘手。


若“黃色”未出現(xiàn)在訓(xùn)練數(shù)據(jù)集中,則其類條件概率將為 0,進(jìn)而導(dǎo)致后驗(yàn)概率也為 0——因?yàn)楹篁?yàn)概率是先驗(yàn)概率與類條件概率的乘積。


為避免零概率問題,可在多項(xiàng)式貝葉斯模型中加入一個(gè)額外的平滑項(xiàng)。加法平滑最常見的兩種形式是: Lidstone 平滑 (α < 1)與 拉普拉斯平滑 (α = 1)。


3 樸素貝葉斯與文本分類

本節(jié)將介紹將樸素貝葉斯模型應(yīng)用于文本分類任務(wù)所需的一些核心概念和流程。盡管示例主要圍繞二分類問題——如將文本消息分類為“垃圾郵件(spam)”或“正常郵件(ham)”——但相同的方法同樣適用于多分類問題,例如將文檔劃分為不同主題領(lǐng)域(如“計(jì)算機(jī)科學(xué)”、“生物學(xué)”、“統(tǒng)計(jì)學(xué)”、“經(jīng)濟(jì)學(xué)”、“政治學(xué)”等)。

3.1 詞袋模型(Bag of Words Model)

在模式分類中,最重要的子任務(wù)之一是特征提取與選擇;良好特征的三個(gè)主要標(biāo)準(zhǔn)如下:

  • 顯著性(Salient)

    :特征對于問題域而言應(yīng)具有重要性和意義。

  • 不變性(Invariant)

    :該術(shù)語常用于圖像分類語境中,指特征對形變、縮放、旋轉(zhuǎn)等干擾因素不敏感。C. Yao 等人在《自然圖像中多方向文本檢測的旋轉(zhuǎn)不變特征》[7]中提供了一個(gè)很好的例子。

  • 判別性(Discriminatory)

    :所選特征在訓(xùn)練分類器時(shí),應(yīng)包含足夠信息以有效區(qū)分不同模式。

在擬合模型并使用機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練之前,我們需要思考如何最佳地將文本文檔表示為特征向量。自然語言處理中常用的一種模型是所謂的詞袋模型(bag of words model)。該模型背后的思想正如其名般簡單:首先構(gòu)建詞匯表——即訓(xùn)練集中所有不同單詞的集合,每個(gè)單詞關(guān)聯(lián)一個(gè)出現(xiàn)頻次計(jì)數(shù)。該詞匯表可被理解為一組無冗余項(xiàng)的集合,其中單詞順序無關(guān)緊要。設(shè)為訓(xùn)練數(shù)據(jù)集中的兩篇文檔:


基于這兩篇文檔,詞匯表可寫為:


隨后,可利用該詞匯表為各文檔構(gòu)造 d d 維特征向量,其維度等于詞匯表中不同單詞的數(shù)量(即 d = ∣ V ∣
)。此過程稱為 向量化 (vectorization)。


鑒于表1中的示例,一個(gè)問題是:特征向量中的1和0表示的是二值計(jì)數(shù)(若單詞在特定文檔中出現(xiàn)則為1,否則為0),還是絕對計(jì)數(shù)(單詞在每篇文檔中出現(xiàn)的次數(shù))?答案取決于所采用的樸素貝葉斯分類器的概率模型:是多項(xiàng)式模型(Multinomial)還是伯努利模型(Bernoulli)——關(guān)于這兩種概率模型的詳細(xì)內(nèi)容見第3.3節(jié)與第3.4節(jié)。

3.1.1 分詞(Tokenization)

分詞是指將文本語料庫分解為若干獨(dú)立單元(即“詞元”,tokens)的一般性過程,這些單元可作為各類自然語言處理算法的輸入。通常,分詞還會伴隨其他可選的預(yù)處理步驟,例如:停用詞與標(biāo)點(diǎn)符號的移除、詞干提?。╯temming)或詞形還原(lemmatizing),以及n-gram的構(gòu)建。以下是一個(gè)簡單而典型的分詞示例:將句子切分為單詞、去除標(biāo)點(diǎn)、并將所有字母轉(zhuǎn)換為小寫。


3.1.2 停用詞

停用詞是文本語料庫中極為常見、因此被認(rèn)為信息量較低的詞語(例如:so, and, or, the 等)。一種去除停用詞的方法是依據(jù)特定語言的停用詞詞典進(jìn)行匹配過濾;另一種方法則是通過統(tǒng)計(jì)整個(gè)語料庫中所有詞的出現(xiàn)頻率,并依頻次排序來構(gòu)建停用詞列表——將該列表轉(zhuǎn)化為無重復(fù)詞的集合后,即可用其從輸入文檔中移除排名前 n n 位的高頻詞。


3.1.3 詞干提取與詞形還原

詞干提取(Stemming)指將詞語還原為其詞根形式的過程。最早的詞干提取算法由 Martin F. Porter 于 1979 年提出,因此被稱為 Porter 詞干提取器(Porter stemmer)[8]。


詞干提取可能生成非真實(shí)存在的詞,例如上例中的 “thu”。與之不同,詞形還原(lemmatization)旨在獲取詞語的標(biāo)準(zhǔn)(語法正確)形式,即所謂的詞元(lemmas)。相較于詞干提取,詞形還原計(jì)算上更為復(fù)雜且開銷更大;實(shí)踐中,兩者對文本分類性能的影響均較為有限[9]。


上述詞干提取與詞形還原本例均借助 Python 的 NLTK 庫(http://www.nltk.org )實(shí)現(xiàn)。

3.1.4 N-grams

在 n-gram 模型中,一個(gè)詞元(token)可定義為長度為 n n 的連續(xù)單元序列。最簡單的情形是一元語法(unigram,即 1-gram),其中每個(gè)詞元恰好由一個(gè)單詞、字母或符號構(gòu)成——此前所有示例均為一元語法。最優(yōu)的 n n 值選擇取決于具體語言及應(yīng)用場景。例如,Andelka Zecevic 在其研究中發(fā)現(xiàn),對于判定塞爾維亞語文本的作者歸屬問題, 3 ≤ n ≤ 7
的 n-gram 效果最佳[10];而在另一項(xiàng)研究中,判定英文書籍作者時(shí), 4 ≤ n ≤ 8
的 n-gram 準(zhǔn)確率最高[11];Kanaris 等人則報(bào)告稱,在電子郵件反垃圾過濾任務(wù)中,3-gram 與 4-gram 表現(xiàn)良好[12]。


3.2 垃圾郵件分類的決策規(guī)則

在垃圾郵件分類背景下,基于后驗(yàn)概率的樸素貝葉斯分類器決策規(guī)則可表示為:


如第 2.2 節(jié)所述,后驗(yàn)概率是類條件概率與先驗(yàn)概率的乘積;分母中的證據(jù)項(xiàng)(evidence term)可被省略,因其對兩類而言均為常數(shù)。


先驗(yàn)概率可通過最大似然估計(jì)獲得,即基于訓(xùn)練數(shù)據(jù)集中垃圾郵件(spam)與正常郵件(ham)的出現(xiàn)頻率:


假設(shè)每篇文檔中的詞語彼此條件獨(dú)立(依據(jù)樸素假設(shè)),則可采用兩種不同模型計(jì)算類條件概率:多元伯努利模型(Multi-variate Bernoulli model,見第 3.3 節(jié))與多項(xiàng)式模型(Multinomial model,見第 3.4 節(jié))。

3.3 多元伯努利樸素貝葉斯

多元伯努利模型基于二值數(shù)據(jù):文檔特征向量中的每個(gè)詞元(token)取值為 1 或 0。特征向量維度為 m ,其中 m 為整個(gè)詞匯表中的單詞總數(shù)(見第 3.1 節(jié));取值 1 表示該詞在當(dāng)前文檔中出現(xiàn),0 表示未出現(xiàn)。伯努利試驗(yàn)可表示為:


3.4 多項(xiàng)式樸素貝葉斯

3.4.1 詞頻(Term Frequency)

除使用二值表示外,描述文本文檔的另一種常用方法是詞頻(term frequency, tf(t, d))。詞頻通常定義為:特定詞項(xiàng) t t(即單詞或詞元)在文檔 d d 中出現(xiàn)的次數(shù)(該方法有時(shí)也稱為原始頻次(raw frequency))。實(shí)踐中,常將原始詞頻除以文檔長度進(jìn)行歸一化處理。


3.4.2 詞頻–逆文檔頻率(Tf-idf)

詞頻–逆文檔頻率(Tf-idf)是描述文本文檔的另一種方法。它可被理解為一種加權(quán)的詞頻,尤其適用于文本語料庫中尚未移除停用詞的情形。Tf-idf 方法的基本假設(shè)是:一個(gè)詞的重要性與其在全部文檔中出現(xiàn)的頻率成反比。盡管 Tf-idf 最常用于文本挖掘任務(wù)中(如搜索引擎的網(wǎng)頁排序)對文檔按相關(guān)性進(jìn)行排序,它亦可應(yīng)用于樸素貝葉斯文本分類。


3.4.3 多元伯努利模型與多項(xiàng)式模型的性能比較

實(shí)證對比表明:當(dāng)詞匯表規(guī)模相對較大時(shí),多項(xiàng)式模型往往優(yōu)于多元伯努利模型[13]。然而,機(jī)器學(xué)習(xí)算法的性能高度依賴于特征選擇的恰當(dāng)性;就樸素貝葉斯分類器與文本分類而言,性能上的顯著差異往往源于停用詞移除、詞干提取及詞元長度等處理步驟的選擇[14]。實(shí)踐中,建議在比較研究中——涵蓋不同特征提取與選擇步驟的組合——先行評估多元伯努利模型與多項(xiàng)式模型的適用性,再據(jù)此作出選擇。

4 樸素貝葉斯模型的變體

迄今為止,我們已介紹了兩種適用于類別型數(shù)據(jù)的模型:多元伯努利模型(第 3.3 節(jié))與多項(xiàng)式模型(第 3.4 節(jié)),以及兩種不同的類條件概率估計(jì)方法。在第 4.1 節(jié)中,我們將簡要介紹第三種模型:高斯樸素貝葉斯(Gaussian Naive Bayes)。

4.1 連續(xù)變量

文本分類是類別型數(shù)據(jù)的典型應(yīng)用;但樸素貝葉斯亦可用于連續(xù)型數(shù)據(jù)。鳶尾花(Iris)數(shù)據(jù)集便是一個(gè)具有連續(xù)特征的有監(jiān)督分類任務(wù)的簡單示例:該數(shù)據(jù)集包含以厘米為單位測量的花瓣與萼片的長度和寬度。針對連續(xù)數(shù)據(jù)應(yīng)用樸素貝葉斯分類的一種策略是:對特征進(jìn)行離散化處理,劃分為若干互斥類別;或采用高斯核來計(jì)算類條件概率。假設(shè)各特征的概率分布服從正態(tài)(高斯)分布,則高斯樸素貝葉斯模型可表述如下:


其中, μ μ(樣本均值)與 σ σ(標(biāo)準(zhǔn)差)為需從訓(xùn)練數(shù)據(jù)中估計(jì)的參數(shù)。在樸素貝葉斯的條件獨(dú)立性假設(shè)下,類條件概率即可表示為各特征對應(yīng)概率的乘積:


4.2 急切學(xué)習(xí)與惰性學(xué)習(xí)算法

作為急切學(xué)習(xí)器(eager learner),樸素貝葉斯分類器在對新樣本進(jìn)行分類時(shí)通常速度較快。急切學(xué)習(xí)器指一類學(xué)習(xí)算法:一旦訓(xùn)練數(shù)據(jù)可用,即刻從中學(xué)習(xí)一個(gè)模型;模型學(xué)習(xí)完成后,無需再次遍歷訓(xùn)練數(shù)據(jù)即可進(jìn)行新樣本預(yù)測。對急切學(xué)習(xí)器而言,計(jì)算開銷最大的階段是模型構(gòu)建階段,而新樣本的分類則相對高效。

相比之下,惰性學(xué)習(xí)器(lazy learner)則會將訓(xùn)練數(shù)據(jù)記憶下來,并在預(yù)測新樣本類別標(biāo)簽時(shí)重新評估整個(gè)訓(xùn)練集。惰性學(xué)習(xí)的優(yōu)勢在于模型構(gòu)建(訓(xùn)練)階段相對快速;但其實(shí)際預(yù)測過程通常較慢,原因在于每次預(yù)測都需重新計(jì)算與訓(xùn)練數(shù)據(jù)的關(guān)系。此外,惰性學(xué)習(xí)還需完整保存訓(xùn)練數(shù)據(jù),可能帶來較高的存儲開銷。k近鄰算法(k-nearest neighbor algorithm)是惰性學(xué)習(xí)的典型代表:每當(dāng)遇到新樣本時(shí),算法需重新查找其 k 個(gè)最近鄰樣本,并據(jù)此決定其類別標(biāo)簽——例如采用多數(shù)投票規(guī)則(即賦予新樣本在 k 近鄰中最頻繁出現(xiàn)的類別標(biāo)簽)。

原文鏈接:https://arxiv.org/pdf/1410.5329

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
張雨綺多個(gè)商務(wù)代言被取消,被實(shí)名舉報(bào)代孕、插足婚姻

張雨綺多個(gè)商務(wù)代言被取消,被實(shí)名舉報(bào)代孕、插足婚姻

韓小娛
2026-01-28 05:29:49
加拿大對華態(tài)度轉(zhuǎn)變,卡尼因關(guān)稅威脅向特朗普低頭認(rèn)慫

加拿大對華態(tài)度轉(zhuǎn)變,卡尼因關(guān)稅威脅向特朗普低頭認(rèn)慫

看盡人間百態(tài)
2026-01-28 05:12:43
曝泰山鎖定冬窗首簽!賀一然已談妥,轉(zhuǎn)會費(fèi)不到2000萬

曝泰山鎖定冬窗首簽!賀一然已談妥,轉(zhuǎn)會費(fèi)不到2000萬

奧拜爾
2026-01-27 10:47:28
太高效了,山東18歲小將王證生涯第二戰(zhàn)登場3分鐘轟下11分

太高效了,山東18歲小將王證生涯第二戰(zhàn)登場3分鐘轟下11分

懂球帝
2026-01-27 22:13:54
外籍身份藏著掖著,海外資產(chǎn)早鋪好了退路,轉(zhuǎn)頭教普通人“吃苦”

外籍身份藏著掖著,海外資產(chǎn)早鋪好了退路,轉(zhuǎn)頭教普通人“吃苦”

百態(tài)人間
2026-01-10 05:20:05
涉嫌犯罪,“杰出女企業(yè)家”熊海濤被留置調(diào)查,3家上市公司緊急公告!其與丈夫同登富豪榜,財(cái)富達(dá)140億元

涉嫌犯罪,“杰出女企業(yè)家”熊海濤被留置調(diào)查,3家上市公司緊急公告!其與丈夫同登富豪榜,財(cái)富達(dá)140億元

每日經(jīng)濟(jì)新聞
2026-01-27 23:51:07
訂婚時(shí)新郎長相普通,新娘顏值爆表卻望著他移不開眼:生理性喜歡

訂婚時(shí)新郎長相普通,新娘顏值爆表卻望著他移不開眼:生理性喜歡

梅子的小情緒
2026-01-16 21:09:56
黑珍珠“落子”南通!首批兩家餐廳入選榜單!

黑珍珠“落子”南通!首批兩家餐廳入選榜單!

房產(chǎn)衫哥
2026-01-28 03:19:23
對話向嫣然醫(yī)院捐款500萬的廣東博主:希望更多孩子獲幫助

對話向嫣然醫(yī)院捐款500萬的廣東博主:希望更多孩子獲幫助

南方都市報(bào)
2026-01-27 22:02:49
慈禧嘴里那顆8億的夜明珠,下落已經(jīng)查明:被宋美齡賣給一位大亨

慈禧嘴里那顆8億的夜明珠,下落已經(jīng)查明:被宋美齡賣給一位大亨

談史論天地
2026-01-26 12:30:03
美航母還在路上,伊朗先下死手,導(dǎo)彈突襲盟友基地,五角大樓慌了

美航母還在路上,伊朗先下死手,導(dǎo)彈突襲盟友基地,五角大樓慌了

回京歷史夢
2026-01-27 21:05:40
古巴人餓了,就有人給糧食,我不理解,沒有戰(zhàn)爭,沒有內(nèi)亂

古巴人餓了,就有人給糧食,我不理解,沒有戰(zhàn)爭,沒有內(nèi)亂

忠于法紀(jì)
2026-01-26 18:44:10
超240套房源全部流拍!溫州這個(gè)最慘的樓盤,跌無可跌了……

超240套房源全部流拍!溫州這個(gè)最慘的樓盤,跌無可跌了……

溫州巡捕房
2026-01-27 16:45:44
美秘密裝備高功率電磁脈沖彈,一旦實(shí)戰(zhàn)中引爆,我們將會防不勝防

美秘密裝備高功率電磁脈沖彈,一旦實(shí)戰(zhàn)中引爆,我們將會防不勝防

愛吃醋的貓咪
2026-01-27 20:30:12
具俊曄放棄大S遺產(chǎn)轉(zhuǎn)給玥兒姐弟,S媽空歡喜一場

具俊曄放棄大S遺產(chǎn)轉(zhuǎn)給玥兒姐弟,S媽空歡喜一場

王觪曉
2026-01-28 00:22:32
臺軍女飛行員郭文靜:只要長官敢下令,我會毫不猶豫的擊落殲20!

臺軍女飛行員郭文靜:只要長官敢下令,我會毫不猶豫的擊落殲20!

顧史
2026-01-21 21:04:39
總有人納悶,王健林就算只剩100億,為啥王思聰花錢還是那么大方

總有人納悶,王健林就算只剩100億,為啥王思聰花錢還是那么大方

小光侃娛樂
2025-12-10 22:10:04
國乒20歲小將入圍引發(fā)爭議!溫瑞博落選參加亞洲杯:王勵(lì)勤堅(jiān)持原則

國乒20歲小將入圍引發(fā)爭議!溫瑞博落選參加亞洲杯:王勵(lì)勤堅(jiān)持原則

好乒乓
2026-01-27 22:30:02
沒拿過世界冠軍,卻培養(yǎng)出多位國乒名將,妻子如今是北體副教授

沒拿過世界冠軍,卻培養(yǎng)出多位國乒名將,妻子如今是北體副教授

趣文說娛
2026-01-27 16:51:12
大寒后,打死也不能買的5種食物,商販自己都不吃,別不當(dāng)回事

大寒后,打死也不能買的5種食物,商販自己都不吃,別不當(dāng)回事

小茉莉美食記
2026-01-24 00:15:03
2026-01-28 06:04:49
CreateAMind incentive-icons
CreateAMind
CreateAMind.agi.top
1182文章數(shù) 18關(guān)注度
往期回顧 全部

科技要聞

馬化騰3年年會講話透露了哪些關(guān)鍵信息

頭條要聞

美報(bào)告稱中國是其19世紀(jì)以來面對過的最強(qiáng)大國家

頭條要聞

美報(bào)告稱中國是其19世紀(jì)以來面對過的最強(qiáng)大國家

體育要聞

冒充職業(yè)球員,比賽規(guī)則還和對手現(xiàn)學(xué)?

娛樂要聞

張雨綺風(fēng)波持續(xù)發(fā)酵,曝多個(gè)商務(wù)被取消

財(cái)經(jīng)要聞

多地對壟斷行業(yè)"近親繁殖"出手了

汽車要聞

標(biāo)配華為乾崑ADS 4/鴻蒙座艙5 華境S體驗(yàn)車下線

態(tài)度原創(chuàng)

手機(jī)
本地
家居
公開課
軍事航空

手機(jī)要聞

蘋果連發(fā)4版系統(tǒng):從iPhone 5s到iOS 26,果粉福音來了!

本地新聞

云游中國|撥開云霧,巫山每幀都是航拍大片

家居要聞

現(xiàn)代古典 中性又顯韻味

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美海軍"林肯"號航母打擊群抵達(dá)中東地區(qū)

無障礙瀏覽 進(jìn)入關(guān)懷版