網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

佳文回溯｜透視算法黑箱：數(shù)字平臺(tái)的算法規(guī)制與信息推送異質(zhì)性

2026-04-16 18:17:19　來源: 社會(huì)學(xué)研究雜志

北京舉報(bào)

分享至

劉河慶

華中科技大學(xué)

社會(huì)學(xué)院

副研究員

梁玉成

中山大學(xué)

社會(huì)學(xué)與人類學(xué)學(xué)院

教授

透視算法黑箱：數(shù)字平臺(tái)的算法規(guī)制與信息推送異質(zhì)性

來源 | 《社會(huì)學(xué)研究》2023年第2期

作者 | 劉河慶、梁玉成

責(zé)任編輯 | 張志敏

本研究借鑒實(shí)驗(yàn)和逆向工程方法，通過設(shè)置若干虛擬賬號(hào)與數(shù)字平臺(tái)進(jìn)行長時(shí)間真實(shí)互動(dòng)，以嘗試真正進(jìn)入算法的政治化空間，分析算法規(guī)制對(duì)用戶信息獲取異質(zhì)性的影響。實(shí)證結(jié)果揭示了數(shù)字時(shí)代算法規(guī)制的高度復(fù)雜化、精細(xì)化和隱蔽化。從信息主題維度看，算法增加了個(gè)體獲得多樣化主題信息的機(jī)會(huì)。從信息語義維度看，算法強(qiáng)化了過濾氣泡效應(yīng)，出現(xiàn)信息推送的窄化和固化，不同個(gè)體被算法框定在語義向量空間中相對(duì)固定的位置，只被推送特定語義維度的信息。

一、引言

算法無處不在。數(shù)字時(shí)代，信息呈井噴式爆發(fā)，過去留給個(gè)體的操作、決策和選擇空間越來越被基于計(jì)算機(jī)代碼所編寫的算法所取代。算法及其推動(dòng)的工具、服務(wù)和平臺(tái)通過處理人工難以處理的海量復(fù)雜數(shù)據(jù)，在眾多領(lǐng)域扮演著愈加重要的角色，成為連接、重組和調(diào)解數(shù)字社會(huì)與真實(shí)社會(huì)的關(guān)鍵部分（Cheney-Lippold，2017）。向用戶推送新聞和短視頻（Bail，2021）、外賣騎手的派單與送餐路線（陳龍，2020）等，都是算法應(yīng)用的豐富場(chǎng)景。

鑒于算法已成為當(dāng)代社會(huì)生活的重要組成部分，學(xué)界迫切需要對(duì)算法及其影響給予批判性和經(jīng)驗(yàn)性的關(guān)注，進(jìn)而對(duì)算法如何重組、調(diào)解、動(dòng)員原有社會(huì)關(guān)系（Ruppert et al.，2013）及其潛在的影響形成更為清晰的認(rèn)識(shí)。以數(shù)字平臺(tái)廣泛應(yīng)用的信息推薦算法為例，信息推薦算法通過自動(dòng)為用戶篩選和推送信息流，同時(shí)影響和塑造個(gè)體信息獲取與社會(huì)整體的輿論和心態(tài)（Perra & Rocha，2019）。與信息推薦算法在數(shù)字時(shí)代扮演的關(guān)鍵角色不匹配的是，目前學(xué)界對(duì)算法如何具體影響信息的擴(kuò)散、分化仍有較大爭(zhēng)議。例如，算法究竟是為用戶解鎖高質(zhì)量的多樣化信息，還是不斷迎合個(gè)體喜好而過度推送特定類型的信息，從而將用戶鎖定在單一、狹窄的過濾氣泡之中？超大規(guī)模、超高頻次的算法與個(gè)體行為的動(dòng)態(tài)互動(dòng)會(huì)將不同個(gè)體帶到信息空間中的哪個(gè)位置？是否會(huì)因此加劇不同用戶間信息的隔離與分化？對(duì)上述問題的回答不僅有助于我們厘清算法對(duì)個(gè)體信息獲得、社會(huì)知識(shí)生產(chǎn)以及公眾觀念極化等重要議題的影響，而且也是理解作為當(dāng)代重要技術(shù)物的算法如何行使權(quán)力以及如何塑造數(shù)字時(shí)代的社會(huì)關(guān)系與社會(huì)現(xiàn)實(shí)的關(guān)鍵（Burrell & Fourcade，2021；王天夫，2021）。

對(duì)上述問題作出實(shí)證回答并不容易。一方面我們所關(guān)心的算法通常非常復(fù)雜，晦澀難懂，處于不透明、難追蹤的黑箱狀態(tài)（Mittelstadt et al.，2016），平臺(tái)公司較少詳細(xì)公布平臺(tái)算法架構(gòu)或工作細(xì)節(jié)，研究者直接獲得平臺(tái)公司的數(shù)據(jù)更是難上加難。另一方面，即使研究者擁有足夠的技術(shù)基礎(chǔ)且可以獲得部分算法架構(gòu)或運(yùn)作細(xì)節(jié)，仍難以有效分析算法對(duì)社會(huì)現(xiàn)實(shí)的影響，原因在于算法影響社會(huì)的突出特征是一種算法介入的社會(huì)（algorithmically infused societies）出現(xiàn)（Wagner et al.，2021；Perra & Rocha，2019），具體表現(xiàn)為算法、訓(xùn)練數(shù)據(jù)集、外部約束條件以及龐大個(gè)體用戶群之間超大規(guī)模、超高頻次的循環(huán)互動(dòng)。這種拉圖爾意義上的不同行動(dòng)者高度復(fù)雜的動(dòng)態(tài)網(wǎng)絡(luò)（Latour，2005），意味著我們的研究對(duì)象不是一個(gè)簡(jiǎn)單的、確定性的算法黑盒，而是龐大的、網(wǎng)絡(luò)化的、與社會(huì)現(xiàn)實(shí)高頻互動(dòng)的算法系統(tǒng)（Seaver，2017）。因此，我們不能僅在技術(shù)意義上討論算法，也難以僅通過公開的部分算法原理和代碼來準(zhǔn)確分析算法的社會(huì)影響（Brown et al.，2021），算法的上述特征給社會(huì)科學(xué)實(shí)證研究帶來巨大挑戰(zhàn)。

針對(duì)上述難題，本文借鑒實(shí)驗(yàn)和逆向工程方法，將虛擬賬戶作為研究工具，通過對(duì)參與主體的屬性進(jìn)行虛構(gòu)觀察，關(guān)注其與算法、數(shù)字平臺(tái)的長期交互結(jié)果，進(jìn)而嘗試真正進(jìn)入算法的政治化空間（Amoore，2020），以此透視算法黑箱，實(shí)證分析算法規(guī)制對(duì)用戶信息獲取異質(zhì)性的影響效應(yīng)。具體而言，本文嘗試以T平臺(tái)這一高度強(qiáng)調(diào)算法的信息推送數(shù)字平臺(tái)為例，設(shè)置155個(gè)不同信息點(diǎn)擊行為的虛擬個(gè)體賬號(hào)，使每個(gè)賬號(hào)按照設(shè)定的點(diǎn)擊偏好與平臺(tái)進(jìn)行25天的持續(xù)互動(dòng)，進(jìn)而收集不同賬號(hào)在該平臺(tái)包含233973個(gè)推送信息流（news feed）以及超過294萬條具體信息在內(nèi)的推送信息大數(shù)據(jù)?；谠摂?shù)據(jù)，本文從信息主題異質(zhì)性與語義異質(zhì)性兩個(gè)分析維度對(duì)比平臺(tái)為不同虛擬用戶推送信息的具體結(jié)構(gòu)和內(nèi)容的異同，進(jìn)而探討數(shù)字時(shí)代算法對(duì)個(gè)體信息獲取和個(gè)體間信息分化的潛在影響以及對(duì)治理的啟示。

二、文獻(xiàn)評(píng)述

（一）算法作為社會(huì)權(quán)力

算法在計(jì)算機(jī)科學(xué)中通常被理解為“完成給定任務(wù)的控制結(jié)構(gòu)”（Beer，2015），然而算法并非在真空中運(yùn)行，社會(huì)科學(xué)研究更為關(guān)注算法的社會(huì)屬性與社會(huì)后果（邱澤奇，2017）。例如，算法規(guī)制（algorithmic regulation）關(guān)注算法在建構(gòu)社會(huì)秩序方面所扮演的角色（Kitchin，2017），楊（Karen Young）和洛奇（Martin Lodch）將算法規(guī)制定義為規(guī)制某一領(lǐng)域行為的決策系統(tǒng)，其通過對(duì)大規(guī)模數(shù)據(jù)進(jìn)行學(xué)習(xí)，來管控風(fēng)險(xiǎn)、改變行為，以便實(shí)現(xiàn)預(yù)定目標(biāo)（楊、洛奇編，2020）。簡(jiǎn)單來說，算法規(guī)制即算法依據(jù)海量數(shù)據(jù)對(duì)目標(biāo)群體進(jìn)行分類（Amoore，2020），根據(jù)分類結(jié)果進(jìn)行自動(dòng)決策，從而替代傳統(tǒng)人工進(jìn)行的規(guī)制，而算法作為社會(huì)權(quán)力正是來源于上述自動(dòng)分類和決策過程（Burrell & Fourcade，2021；Thorson et al.，2021）。

與傳統(tǒng)人工對(duì)個(gè)體的識(shí)別和分類不同，算法識(shí)別“我們是誰”是由無數(shù)詮釋層組成的，分類的目標(biāo)也有成千上萬個(gè)（性別、喜好等），個(gè)體隨意點(diǎn)擊或?yàn)g覽行為都可能成為分類決策的一部分（Amoore，2020）?，F(xiàn)實(shí)中清晰的身份變成數(shù)字平臺(tái)中概率化、碎片化以及快速變動(dòng)的身份，因此算法規(guī)制的主要特征就是其動(dòng)態(tài)的模塊化控制（Koopman，2019；段偉文，2019）。在這一過程中算法如何實(shí)施權(quán)力、基于何種標(biāo)準(zhǔn)決定我們從屬于特定身份的概率則是一個(gè)黑箱，難以知曉（Burrell & Fourcade，2021）。另外，算法作為社會(huì)權(quán)力的表現(xiàn)是其通過概率化輸出的形式將無數(shù)不可計(jì)算的差異縮減為單個(gè)輸出。這可能會(huì)將不確定的、個(gè)人主觀的、情境性的東西被完全忽略或?qū)⑵鋸?qiáng)行作為一個(gè)確定的概率呈現(xiàn)，進(jìn)而導(dǎo)致分類的錯(cuò)誤和對(duì)個(gè)體的不公平對(duì)待（Amoore，2020）。

如果說算法的分類過程是在“了解”人們的行為，那么算法的決策過程則是在大規(guī)模地“塑造”人們的行為，已有對(duì)算法決策過程及后果的研究主要關(guān)注以下方面。一是商業(yè)導(dǎo)向促使算法擁有者通過上癮設(shè)計(jì)等方式不斷爭(zhēng)奪用戶注意力（Bakshy et al.，2015），這造成假新聞、標(biāo)題黨、陰謀論等的泛濫（Bucher，2012；孫萍、劉瑞生，2018）；二是算法規(guī)制系統(tǒng)精準(zhǔn)但卻片面的大規(guī)模信息推送，可能會(huì)降低信息的多樣化程度以及公共討論的質(zhì)量，進(jìn)而影響整個(gè)社會(huì)的知識(shí)生產(chǎn)與觀念結(jié)構(gòu)（陳云松，2022；邱澤奇，2022）；三是算法決策的黑箱化及其潛在風(fēng)險(xiǎn)，用戶沒有充分的解釋和追索權(quán)，研究者同樣難以準(zhǔn)確評(píng)估該算法決策標(biāo)準(zhǔn)的合理性及潛在風(fēng)險(xiǎn)（Perra & Rocha，2019）。

綜上，算法在自動(dòng)分類和決策中扮演的角色集中體現(xiàn)了數(shù)字時(shí)代算法權(quán)力是通過排除（個(gè)體是否從屬于某一類別）與不可見（是否推送特定類型的信息）而非剝削來運(yùn)作（拉什，2009），但已有研究多是外在地指出上述現(xiàn)象，而對(duì)于算法究竟如何具體行使排除和不可見權(quán)力以此塑造社會(huì)現(xiàn)實(shí)，特別是在算法介入的社會(huì)這一背景下，算法與不同個(gè)體的持續(xù)互動(dòng)所帶來更深層的影響和后果，有待我們真正進(jìn)入算法空間進(jìn)行檢驗(yàn)。另外，關(guān)于算法作為社會(huì)權(quán)力的已有文獻(xiàn)往往籠統(tǒng)地將多種算法合起來討論，針對(duì)特定算法深入、系統(tǒng)的實(shí)證研究將有助于我們更為準(zhǔn)確地理解算法在不同情境下對(duì)不同個(gè)體的真實(shí)影響。

（二）算法規(guī)制與個(gè)體間信息獲取異質(zhì)性

算法規(guī)制最直接的體現(xiàn)是對(duì)信息流的動(dòng)態(tài)控制（Bail，2021）。通過有針對(duì)性地為用戶推送信息，信息推薦算法主導(dǎo)著數(shù)字時(shí)代的信息擴(kuò)散和流動(dòng)（Bail，2021；Bakshy et al.，2015；Bucher，2012）。關(guān)于算法究竟如何通過排除和不可見權(quán)來運(yùn)作，會(huì)如何影響個(gè)體的信息獲取以及個(gè)體間的信息分化，仍存在較大爭(zhēng)議。已有文獻(xiàn)主要分為“過度個(gè)體化”與“分類權(quán)力”兩個(gè)研究脈絡(luò)。

“過度個(gè)體化”研究認(rèn)為，算法依據(jù)個(gè)體瀏覽記錄等特征為每個(gè)個(gè)體創(chuàng)造微信息環(huán)境，這個(gè)微信息環(huán)境隨著算法與個(gè)體互動(dòng)的深入會(huì)不斷同質(zhì)化，進(jìn)而降低個(gè)體對(duì)多元化信息的偶遇能力（Bakshy et al.，2015）。這通常被描述為信息繭房、回音室（桑斯坦，2008）或過濾氣泡（Pariser，2011）。如帕里瑟（Eli Pariser）認(rèn)為，臉書、谷歌等平臺(tái)使用的算法不斷推測(cè)并提供我們感興趣的內(nèi)容，算法正在創(chuàng)建過濾氣泡，迎合并放大個(gè)體偏好，用戶最終可能會(huì)被暴露在一幅帶有偏見的、碎片化的世界圖景中，從而加劇信息隔離以及觀念分化（Pariser，2011）。

“分類權(quán)力”研究則強(qiáng)調(diào)，算法規(guī)制將帶來個(gè)體主動(dòng)性的喪失。算法根據(jù)預(yù)測(cè)的個(gè)體類別進(jìn)行內(nèi)容推送，個(gè)體的偏好、主觀意愿并不重要，個(gè)體在數(shù)字時(shí)代無限多維的類別化或指數(shù)化對(duì)個(gè)體信息獲取有著重要的影響（Amoore，2020；Cheney-Lippold，2017）。在數(shù)字社會(huì)中，方法論的個(gè)體主義已被指數(shù)化所取代，個(gè)體僅僅是不同類別編碼中的一個(gè)數(shù)字，個(gè)體的主觀獨(dú)特性、想法不僅沒有被過度重視，反而變得不再重要（Cheney-Lippold，2017）。信息推薦算法的本質(zhì)是依據(jù)對(duì)個(gè)體的數(shù)據(jù)標(biāo)注與畫像將其轉(zhuǎn)化為無限多維的數(shù)據(jù)集，進(jìn)而對(duì)相關(guān)人群進(jìn)行更具針對(duì)性的內(nèi)容推薦、目標(biāo)管理乃至行為引導(dǎo)與控制，個(gè)體能獲取的只是算法推測(cè)的、你的同類人感興趣的信息（段偉文，2019；韓炳哲，2019）。

上述兩種研究視角討論了算法規(guī)制對(duì)個(gè)體信息獲取和個(gè)體間信息分化的可能影響。值得關(guān)注的是，在后續(xù)算法推薦實(shí)踐中，究竟是“過度個(gè)體化”還是“分類權(quán)力”在起作用，算法是否導(dǎo)致并強(qiáng)化了過濾氣泡效應(yīng)，個(gè)體間產(chǎn)生了何種信息獲取差異等重要議題均未得到普遍的實(shí)證支持（Thorson et al.，2021；Bail，2021；葛巖，2020；陳華珊、王呈偉，2019），相關(guān)研究陷入碎片化和爭(zhēng)議（施穎婕等，2022）。例如，有研究發(fā)現(xiàn)算法會(huì)放大個(gè)體偏好，導(dǎo)致個(gè)體接收信息的窄化以及個(gè)體間接收信息的差異程度變大（Bucher，2012）；而另有研究認(rèn)為過濾氣泡的威脅被夸大了，個(gè)性化的影響比通常認(rèn)為的要?。∟echushtai & Lewis，2019）。索爾森（Thorson Kjerstin）等就發(fā)現(xiàn)，相對(duì)于用戶自我報(bào)告的興趣，在算法上被歸類為對(duì)政治感興趣的人更有可能被推送該類信息（Thorson et al. ,2021）。聶靜虹、宋甲子（2020）關(guān)于平臺(tái)用戶健康信息獲取的研究發(fā)現(xiàn)，用戶需最大化主觀能動(dòng)性才能部分獲得其感興趣的信息，這與算法所標(biāo)榜的自動(dòng)化和精準(zhǔn)推送相矛盾。

本文認(rèn)為，之所以出現(xiàn)上述理論與經(jīng)驗(yàn)層面的矛盾和張力，重要原因是已有文獻(xiàn)或是不分維度籠統(tǒng)、模糊地開展討論，或是在不同的單一維度討論信息，而信息在研究中被過度壓縮和簡(jiǎn)化了(Amoore，2020；Cheney-Lippold，2017；拉什，2009）。信息本身高度復(fù)雜，包括信息來源、主題和語義等多個(gè)維度；此外，控制著信息分發(fā)的數(shù)字平臺(tái)在商業(yè)利益、政府監(jiān)管、信息熱度等多個(gè)因素的影響下（呂鵬等，2022；趙璐，2022），長期面臨信息推送精確性與多樣性的抉擇（Helberger et al.，2018）。深度學(xué)習(xí)方法的發(fā)展使平臺(tái)有能力在信息來源、主題等基礎(chǔ)上捕捉更為深層次的信息語義（劉波，2019），以求根據(jù)信息的不同維度實(shí)現(xiàn)更精細(xì)化的信息推送，進(jìn)而更好地滿足平臺(tái)、用戶和政府等各方需求。在此背景下，在研究中區(qū)分信息的不同維度，特別是比較不同用戶在粗粒度信息主題與細(xì)粒度信息語義兩個(gè)維度上信息獲取的差異，有助于我們更為準(zhǔn)確地理解數(shù)字時(shí)代的算法如何通過精細(xì)地控制信息流來行使社會(huì)權(quán)力以及可能帶來的潛在社會(huì)后果。

綜上，已有文獻(xiàn)仍有需要深化之處。第一，已有研究多基于單一的信息主題維度來分析推薦算法對(duì)信息異質(zhì)性的影響（Thorson et al.，2021），鮮有研究綜合多個(gè)維度分析算法對(duì)個(gè)體信息獲取的影響。第二，需重視算法的實(shí)時(shí)性和變動(dòng)性，長時(shí)間持續(xù)而非從單個(gè)時(shí)間點(diǎn)觀察算法與用戶的交互情況有助于檢驗(yàn)算法對(duì)不同個(gè)體信息獲取的真實(shí)影響。第三，已有研究多采用受訪者自我報(bào)告、瀏覽歷史等方式來分析算法的影響，這往往使推薦算法的行為與用戶對(duì)內(nèi)容的偏好相混淆。若要克服用戶點(diǎn)擊行為本身的內(nèi)生性，理想情況下需要錨定用戶的行為，進(jìn)而收集平臺(tái)推薦算法為不同用戶所推送的完整信息列表。

三、研究設(shè)計(jì)

（一）數(shù)據(jù)收集與處理

T平臺(tái)作為國內(nèi)最大的信息分發(fā)平臺(tái)之一，完全依靠信息推薦算法實(shí)現(xiàn)自動(dòng)內(nèi)容分發(fā)（推送信息包括科技、體育等百余個(gè)垂直領(lǐng)域）。從平臺(tái)公開的算法推薦原理來看，其算法主要依據(jù)用戶行為特征、內(nèi)容特征和環(huán)境特征三個(gè)維度，綜合使用協(xié)同過濾方法以及深度神經(jīng)網(wǎng)絡(luò)等多種方法進(jìn)行信息推薦。在其信息推薦實(shí)踐中，相關(guān)性特征、環(huán)境特征、熱度特征和協(xié)同特征是重要考量因素（劉波，2019）。除了模型輸入?yún)?shù)以及考慮特征的高度復(fù)雜外，T平臺(tái)推薦算法的另一特征是實(shí)時(shí)性和高度變動(dòng)性，算法根據(jù)用戶行為、內(nèi)容特征以及環(huán)境特征等方面的實(shí)時(shí)變化不斷在線訓(xùn)練更新模型參數(shù)，進(jìn)而實(shí)現(xiàn)信息實(shí)時(shí)動(dòng)態(tài)推送。

基于上述信息推薦算法的基本原理，考慮到在研究設(shè)計(jì)中兼顧用戶特征、內(nèi)容特征、環(huán)境特征和算法推薦的實(shí)時(shí)性與變動(dòng)性，本研究嘗試設(shè)置12個(gè)擁有不同信息主題點(diǎn)擊偏好的用戶組（共155個(gè)賬號(hào)），使其分別按照設(shè)定的點(diǎn)擊偏好與平臺(tái)進(jìn)行較長時(shí)間的實(shí)時(shí)互動(dòng)，收集不同賬號(hào)在該平臺(tái)的推送信息大數(shù)據(jù)。

本研究設(shè)計(jì)流程包括：（1）招募志愿者注冊(cè)平臺(tái)賬號(hào)，注冊(cè)完畢后研究者設(shè)定不同賬號(hào)的信息偏好和點(diǎn)擊行為。使用虛擬賬號(hào)的優(yōu)點(diǎn)在于該方法便于我們按照自己的研究設(shè)計(jì)設(shè)定具體參數(shù)。（2）筆者首先通過信息特征預(yù)收集器對(duì)數(shù)據(jù)進(jìn)行預(yù)爬取來獲取平臺(tái)信息的標(biāo)簽或分類情況。其次，本研究參考平臺(tái)發(fā)布的歷年用戶行為報(bào)告（報(bào)告會(huì)從性別、年齡、所在城市級(jí)別等角度對(duì)用戶進(jìn)行劃分，并分析不同用戶的信息點(diǎn)擊偏好），將155個(gè)個(gè)體虛擬賬號(hào)分為12組，每組在面對(duì)平臺(tái)實(shí)時(shí)推送的信息流時(shí)具有不同的信息點(diǎn)擊偏好。（3）表1報(bào)告了不同組別賬號(hào)的偏好，其中第一組為隨機(jī)測(cè)試組，包括20個(gè)賬號(hào)，具體工作機(jī)制是面對(duì)平臺(tái)提供的推送信息流（通常包括14~15條信息），該組賬號(hào)均以30%的概率隨機(jī)點(diǎn)擊信息流中的信息（沒有偏好的信息類別），繼而自動(dòng)刷新到下一屏，繼續(xù)上述點(diǎn)擊行為（具體流程詳見圖1）；第二組~第九組則參照平臺(tái)公布的用戶點(diǎn)擊偏好設(shè)置不同的理想用戶類型，如第二組對(duì)應(yīng)的用戶類型為一線、二線城市高年齡段男性用戶（該組賬號(hào)會(huì)以90%的概率去點(diǎn)擊信息推送流中政治、金融、科技、自然和汽車等五種標(biāo)簽的信息），第三組對(duì)應(yīng)的用戶類型則為三線、四線、五線及以下城市高年齡段男性用戶（該組賬號(hào)會(huì)以90%的概率去點(diǎn)擊信息推送流中社會(huì)、軍事、歷史、法制、健康、世界等六種標(biāo)簽的信息）；第十組~第十二組為極端測(cè)試組，分別只點(diǎn)擊特定某一類標(biāo)簽的信息。（4）需要說明的是，本研究設(shè)計(jì)并不尋求完全復(fù)制用戶與平臺(tái)的真實(shí)互動(dòng)情況。一方面，用戶自身及平臺(tái)的參數(shù)均過于復(fù)雜，完全復(fù)制并不現(xiàn)實(shí)；另一方面，本文主要研究的問題是探討算法對(duì)用戶信息獲取的異質(zhì)性影響，通過錨定用戶的信息偏好和點(diǎn)擊行為，持續(xù)觀測(cè)平臺(tái)為不同用戶推送信息的內(nèi)容變化情況，有助于克服用戶點(diǎn)擊行為本身的內(nèi)生性，進(jìn)而更準(zhǔn)確地分析平臺(tái)算法對(duì)信息獲取的影響。

圖1展示了數(shù)據(jù)的基本收集流程，賬號(hào)首先獲得平臺(tái)推送的信息流（生成信息流ID），信息流中包括每條信息的ID、標(biāo)題、摘要、推薦日期和標(biāo)簽等內(nèi)容；之后，賬號(hào)根據(jù)預(yù)先設(shè)置的標(biāo)簽點(diǎn)擊偏好，選擇是否點(diǎn)擊推送信息流的信息，生成點(diǎn)擊行為，繼而刷新屏幕，獲取新的信息流，并重復(fù)上述流程。在實(shí)際研究中，筆者設(shè)置了155個(gè)個(gè)體賬號(hào)，連續(xù)25天以一定的時(shí)間間隔按照設(shè)計(jì)的信息點(diǎn)擊偏好與平臺(tái)互動(dòng)，并保存推送信息流信息。最終，本研究生成包含233973個(gè)推送信息流及其基本特征（包括信息流ID等），以及超過294萬條具體信息及其基本特征（包括標(biāo)題、摘要、標(biāo)簽等）在內(nèi)的多層級(jí)數(shù)據(jù)庫。

（二）數(shù)據(jù)分析策略與方法

結(jié)合已有研究以及平臺(tái)算法的實(shí)際運(yùn)作過程，本文嘗試基于信息主題以及信息語義兩個(gè)維度對(duì)不同用戶獲取的平臺(tái)推送信息的差異進(jìn)行分析。

1.信息主題維度

本研究首先通過對(duì)比不同組別推送信息主題分布差異和推送信息流熵指數(shù)來測(cè)量信息主題異質(zhì)性。（1）在不同組別推送信息主題分布差異及歷時(shí)性變化方面，若支持算法強(qiáng)化過濾氣泡效應(yīng)，則可以預(yù)期，在總體推送結(jié)果中，各組別初始設(shè)定中偏好的信息主題占比會(huì)更高（隨實(shí)驗(yàn)的推進(jìn)不斷變高），且由于各組具有不同的點(diǎn)擊行為模式，各組被推送的信息主題會(huì)存在明顯的差異。（2）本研究借用熵指數(shù)對(duì)各組別推送信息流中信息類別的結(jié)構(gòu)以及多樣性程度進(jìn)行分析（Zhang et al.，2017）。如實(shí)證結(jié)果支持算法強(qiáng)化過濾氣泡效應(yīng)，則可以預(yù)期，偏好信息點(diǎn)擊主題類別多的組別（如第二組）相較于點(diǎn)擊主題類別少的組別（如第十組）被推送信息的熵指數(shù)（即信息主題多樣化程度）更高。

2.信息語義維度

相較于信息主題，深層次的信息語義維度的測(cè)量更為復(fù)雜。通過平臺(tái)公開的算法推薦原理可知，平臺(tái)通過深度學(xué)習(xí)等方法將超高維用戶特征和內(nèi)容特征轉(zhuǎn)化為低維實(shí)數(shù)向量，并通過比較用戶向量、內(nèi)容向量之間的距離來進(jìn)行信息推送。因此，欲有效分析不同個(gè)體推送信息在信息語義維度的異質(zhì)性，需要測(cè)量不同用戶和內(nèi)容在向量空間中的距離及其動(dòng)態(tài)變化?；诖?，本研究首先嘗試使用文檔向量模型（Doc2vec）對(duì)收集的超過294萬條具體信息進(jìn)行建模。Doc2vec是將詞向量模型（Word2vec）擴(kuò)展到句子、段落、文檔或特定類別的方法（Le & Mikolov，2014），該方法通過在詞匯上下文信息中引入文檔或文檔屬性變量（Rheault & Cochrane，2018），在文檔或文檔屬性內(nèi)預(yù)測(cè)具體的詞匯，從而可使用單個(gè)密集向量表示文檔或文檔屬性。本文以平臺(tái)推送的每條具體信息的標(biāo)題和摘要（將兩者合并）作為語料庫，使用Doc2vec模型對(duì)該數(shù)據(jù)進(jìn)行訓(xùn)練，設(shè)置訓(xùn)練窗口為5，訓(xùn)練中使用詞匯的最小出現(xiàn)頻率為10，迭代次數(shù)為20次，得到每條推送信息內(nèi)容的200維實(shí)數(shù)向量表示。在將上述200維實(shí)數(shù)向量與每條信息其他特征拼接后，筆者使用PCA降維以及多層次固定效應(yīng)模型等方法對(duì)不同個(gè)體獲取信息的語義維度的異質(zhì)性進(jìn)行分析。若在語義維度支持算法強(qiáng)化過濾氣泡效應(yīng)，則可以預(yù)期：（1）在組別內(nèi)部，各個(gè)虛擬賬號(hào)在語義向量空間中的分布不會(huì)混亂無序，而是會(huì)較為接近。（2）不同組別的推送信息在語義向量空間中會(huì)出現(xiàn)較為明顯的差異和分化。（3）隨著各組虛擬賬號(hào)與平臺(tái)互動(dòng)的深入，各組別在語義向量空間中的差異和分化會(huì)呈擴(kuò)大趨勢(shì)。

四、基于信息主題異質(zhì)性的實(shí)證分析結(jié)果

（一）不同組別推送信息主題分布

本節(jié)首先分析12個(gè)組別在與平臺(tái)較長時(shí)間的互動(dòng)后被推送信息主題的總體分布情況。表2計(jì)算了各組別推送主題信息中占比前六的主題及占比。

按照研究設(shè)計(jì)，第一組為隨機(jī)測(cè)試組，由表2可見，第一組被推送的政治新聞（news_politics）最多，占比為27.98%，占比排第二~第六的主題標(biāo)簽分別為“社會(huì)”“娛樂”“世界”“歷史”“金融”新聞,占比分別為7.50%、7.31%、5.16%、5.15%、4.62%。第一組被推送的“政治”的占比遠(yuǎn)高于其他組（除第二組外）。在與算法互動(dòng)過程中，第一組并沒有設(shè)置特定的信息類別點(diǎn)擊偏好，但由于研究實(shí)施初期推送信息流中“政治”的比例較高（詳見表1），若該組賬號(hào)以30%的概率隨機(jī)點(diǎn)擊推送信息流中的信息，點(diǎn)擊到“政治”類新聞的概率就會(huì)相對(duì)較高。

表2同時(shí)報(bào)告了第二組~第十二組推送信息主題分布，上述各組在研究中均有固定的信息點(diǎn)擊偏好，若各組偏好的信息主題出現(xiàn)在前六大類別中，則表2對(duì)該主題進(jìn)行了加粗顯示。從結(jié)果來看，一方面，一旦我們?cè)O(shè)置的賬號(hào)偏好點(diǎn)擊特定主題，則從長時(shí)間的互動(dòng)結(jié)果看平臺(tái)確實(shí)會(huì)增加這些主題的推送總量，如第三組被推送的“社會(huì)”（11.51%）、“世界”（6.98%）、“歷史”（6.21%）等該組偏好主題的比例高于各組均值。但另一方面，從各組推送信息主題分布對(duì)比來看，平臺(tái)信息推薦算法雖然考慮個(gè)體點(diǎn)擊偏好，但各組均未出現(xiàn)因考慮個(gè)體點(diǎn)擊偏好而過度推送特定主題信息的情況。以第十組為例，作為極端測(cè)試組，該組只點(diǎn)擊“歷史”新聞，在該組最終被推送的信息主題占比中“歷史”排第四（7.55%），僅略高于各組均值（6.16%），并未出現(xiàn)因過度推送而占比過高的情況。同時(shí)除第二組和第九組外，各組最終推送結(jié)果中占比第一的信息主題均非初設(shè)中偏好的信息主題，由此可見，算法并非完全按照個(gè)體點(diǎn)擊偏好進(jìn)行信息推送。最后，盡管各組擁有不同的信息點(diǎn)擊偏好，但各組被推送的信息主題存在較高程度的重疊（如在12個(gè)組別中有8組占比第一的信息主題為“政治”，4組占比第一的信息主題為“娛樂”），各組并未因點(diǎn)擊偏好的差異而出現(xiàn)推送主題上的明顯差異和分化。

上述基于信息主題維度的分析結(jié)果雖未直接否定算法導(dǎo)致的過濾氣泡效應(yīng)，但平臺(tái)的推薦算法并未出現(xiàn)已有部分文獻(xiàn)強(qiáng)調(diào)的過度迎合且放大個(gè)體偏好的情況，過濾氣泡的威脅被夸大了（Nechushtai & Lewis，2019），個(gè)性化的影響比通常認(rèn)為的要小。

（二）不同組別信息推送的歷時(shí)性變化

本節(jié)進(jìn)一步分析不同組別推送信息主題的歷時(shí)性變化，以探索平臺(tái)推薦算法與不同組別信息獲取的動(dòng)態(tài)互動(dòng)情況。圖2以“政治”主題新聞為例，展示了各組別“政治”信息推送占比的動(dòng)態(tài)變化情況，圖2上半部分和下半部分分別呈現(xiàn)第一組~第六組以及第七組~第十二組的情況，橫軸日期代表研究開始天數(shù)，縱軸代表各組別被推送的“政治”類主題信息占總體被推送信息的比例。

由圖2可見，在正式研究開始的第一天，各組被推送的“政治”類主題信息的占比相近，均在10%左右，之后各組開始出現(xiàn)差異。首先，針對(duì)“政治”類信息點(diǎn)擊量大的組別（第一組和第二組），平臺(tái)推薦算法在較短時(shí)間內(nèi)快速提高了兩個(gè)組別政治類信息的推送比例，但隨著時(shí)間的推進(jìn)，上述兩組該類別信息占比并沒有繼續(xù)上升或持續(xù)穩(wěn)定在高位，而是出現(xiàn)波動(dòng)和下降趨勢(shì)。其次，觀察從第三組~第十二組的變動(dòng)趨勢(shì)可發(fā)現(xiàn)，盡管上述各組無政治類別信息點(diǎn)擊偏好，但可以看到各組的推送信息流中始終會(huì)包括一定比例的政治類主題信息；此外，上述各組在研究實(shí)施的前半段變動(dòng)趨勢(shì)差異較大，而研究實(shí)施的后半段變動(dòng)趨勢(shì)差異變小。最后，外部信息內(nèi)容變化同樣對(duì)個(gè)體信息獲得有重要的影響。例如，從研究實(shí)施的第18天開始，各組推送政治類信息的比例均開始下降，并均在第20天下降到較低的位置。筆者查詢第三方平臺(tái)熱度指數(shù)發(fā)現(xiàn)，在研究實(shí)施的第18天某流量明星的負(fù)面輿情開始發(fā)酵并在第20天達(dá)到峰值。由此可見算法設(shè)計(jì)原理中的內(nèi)容熱度對(duì)各組別信息獲取存在直接的影響，算法在特定時(shí)間會(huì)按“流行度”“熱度”等指標(biāo)推送信息流，而相對(duì)忽略個(gè)體點(diǎn)擊偏好和預(yù)測(cè)的類別。

（三）基于熵指數(shù)的各組別推送信息類別分析

本節(jié)進(jìn)一步借用熵指數(shù)對(duì)各組別推送信息流中信息類別的多樣性程度進(jìn)行分析。筆者以日為單位計(jì)算了每個(gè)推送信息流的熵指數(shù)，值越高代表該推送信息流中的信息類別多樣化程度越高。得到每個(gè)推送信息流的熵指數(shù)后，使用兩層次固定效應(yīng)模型考察各組別不同日期推送信息主題多樣化程度的差異。

表3模型一報(bào)告了控制變量、組別變量以及日期變量對(duì)推送信息流熵指數(shù)的影響。從組別差異來看，第一組、第二組以及第三組被推送信息的類別多樣化程度相對(duì)較低，而第十一組、第七組、第八組以及第十二組被推送信息的類別多樣化程度則相對(duì)較高。結(jié)合上文各組別點(diǎn)擊偏好設(shè)置可以看出，偏好多個(gè)信息標(biāo)簽的組別（如第二組）被推送信息的多樣化程度不一定高，反而偏好特定某類標(biāo)簽的第十一組和第十二組。由于偏好的標(biāo)簽均屬于小概率信息類別（偏好信息類別在基準(zhǔn)時(shí)期占比分別為0.8%和0.6%），點(diǎn)擊偏好提升了這些信息類別的概率，因此熵指數(shù)更高。從日期變量來看，隨著研究的推進(jìn)，各組推送信息流主題的多樣化程度有增加的趨勢(shì)。

表3模型二主效應(yīng)和模型二交互效應(yīng)（組別與推送日期的交互項(xiàng)）則顯示，模型二組別變量（主效應(yīng)）與模型一組別變量的差異情況高度一致（但系數(shù)差異更大），如系數(shù)均是第二組最低、第十一組最高，表明模型一中不同組別被推送信息多樣化程度的差異主要出現(xiàn)在算法與各組別互動(dòng)的初期，隨著時(shí)間的推移，時(shí)間作為調(diào)節(jié)變量明顯減少了各組別間信息多樣化程度的差異。

綜上，基于信息主題維度的分析結(jié)果顯示，平臺(tái)算法會(huì)因個(gè)體點(diǎn)擊偏好而增加特定信息的推送量，但各組均未出現(xiàn)因迎合個(gè)體點(diǎn)擊偏好而過度推送特定類別信息的情況，平臺(tái)始終會(huì)給各組推送一定比例的非該組點(diǎn)擊偏好的主題信息，且隨著算法與個(gè)體點(diǎn)擊行為交互的深入，各組別間主題信息多樣化程度的差異也在降低。這表明從信息推送主題來看，算法可能導(dǎo)致的過濾氣泡的威脅被夸大了，算法增加了個(gè)體偶遇多樣化主題信息的可能性。

五、基于信息語義異質(zhì)性的實(shí)證分析結(jié)果

（一）個(gè)體賬號(hào)及所屬組別在語義向量空間中的差異

本節(jié)從更深層次的信息語義維度分析推送信息異質(zhì)性。筆者使用Doc2vec模型對(duì)平臺(tái)推送的信息（標(biāo)題和摘要）進(jìn)行訓(xùn)練，以個(gè)體賬號(hào)加日期為單位，得到各個(gè)體賬號(hào)每天的200維實(shí)數(shù)向量表示。在圖3中，筆者計(jì)算了各個(gè)體賬號(hào)200維實(shí)數(shù)向量均值，進(jìn)而使用PCA降維方法將各個(gè)體賬號(hào)的向量表示投影到有實(shí)質(zhì)意義的二維空間中（圖3使用個(gè)體賬號(hào)所屬的組別來標(biāo)記每個(gè)數(shù)據(jù)點(diǎn)）。簡(jiǎn)單來說，通過PCA降維后的主成分一能夠發(fā)現(xiàn)個(gè)體賬號(hào)向量表示間的最大化方差，即可以捕捉不同個(gè)體賬號(hào)間推送信息在語義上的主要差異（Rheault & Cochrane，2018）。本研究在此部分主要關(guān)注同一個(gè)組別內(nèi)部不同賬號(hào)以及不同組別賬號(hào)在主成分一上的差異情況。

從同一個(gè)組別內(nèi)部不同賬號(hào)在X軸的分布可見，各個(gè)賬號(hào)的分布并非是混亂無序的。同一個(gè)組別的個(gè)體賬號(hào)在X軸上的分布更為接近，也即同一個(gè)組別內(nèi)賬號(hào)的推送信息在語義上相對(duì)更為接近。從組別間的差異來看，不同組別的推送信息在語義上存在較為明顯的差異和分化，其中第一組和第二組位于X軸靠右的位置，第七組和第九組位于X軸靠左的位置。

為更直觀地呈現(xiàn)不同組別間推送信息內(nèi)容的差異，本文進(jìn)一步對(duì)各個(gè)體賬號(hào)的值按照組別加總求均值，結(jié)果如圖4所示。由圖4可見，在主成分一捕捉的推送信息語義差異上，第二組位于最右側(cè)，第十一組位于最左側(cè)，兩組之間語義差異最大。另外，以X軸的0值為分界，除去隨機(jī)測(cè)試組（第一組）以及極端測(cè)試組（第十組、第十一組和第十二組）外，其余各組在X軸上明顯分為兩大類，其中第二組、第四組、第六組以及第八組在X軸上為正，而第三組、第五組、第七組、第九組為負(fù)。綜合圖3和圖4的結(jié)果可以看出，各個(gè)虛擬賬號(hào)在語義向量空間中的分布并非是混亂無序或聚在一團(tuán)的，同一組別內(nèi)部各個(gè)賬號(hào)推送信息的內(nèi)容更為接近，各個(gè)組別間內(nèi)容則出現(xiàn)分化。

（二）不同組別在各子語義向量空間中的差異

需要說明的是，上一小節(jié)觀察到各組別間推送信息語義的差異和分化可能是由于各賬號(hào)間推送信息的主題差異導(dǎo)致的，為此，本部分將深入到各個(gè)信息主題子空間，進(jìn)一步觀察各個(gè)組別間的語義差異。具體而言，首先挑選“政治”“社會(huì)”“娛樂”“世界”“歷史”“金融”等六個(gè)主題的推送信息（標(biāo)題加摘要），使用Doc2vec模型分別對(duì)這六個(gè)子數(shù)據(jù)進(jìn)行訓(xùn)練，得到各個(gè)體賬號(hào)每天在上述六個(gè)子數(shù)據(jù)中的200維實(shí)數(shù)向量表示，進(jìn)而參照上節(jié)步驟分別對(duì)上述向量表示進(jìn)行PCA降維并按照組別進(jìn)行加總求平均，圖5展現(xiàn)了不同組別在上述六個(gè)子信息空間的分布情況。

由圖5可見，當(dāng)我們將研究范圍聚焦至具體的信息子空間時(shí)，各組別在不同子空間中同樣存在著明顯的語義差異。有趣的是，各組別在不同子空間中的語義差異存在驚人的一致。除隨機(jī)測(cè)試組以及極端測(cè)試組外，其余各組與上一節(jié)一致，在不同子空間的X軸上同樣出現(xiàn)明顯的分化。其中第二組在各個(gè)子空間中均位于X軸的最右側(cè)，第七組和第九組在各個(gè)子空間中則位于X軸的最左側(cè)，各組別間在不同子空間中出現(xiàn)了規(guī)律且一致的分化。以“社會(huì)”主題為例，第三組和第五組均有社會(huì)新聞的點(diǎn)擊偏好，可以看到上述兩個(gè)組別在社會(huì)子空間X軸上的分布非常接近；同時(shí)，其他各組并非是聚成一團(tuán)或與第三組和第五組距離過遠(yuǎn)，而是呈現(xiàn)與上一節(jié)總體向量空間以及其他子信息空間類似的分布規(guī)律。如第一組、第二組、第七組和第九組均無社會(huì)新聞點(diǎn)擊偏好，但他們被推送的社會(huì)新聞在語義上出現(xiàn)了明顯的分化。

各子語義向量空間分布情況再次表明，在信息語義維度，算法強(qiáng)化了過濾氣泡效應(yīng)，不同組別的推送信息在語義向量空間中會(huì)出現(xiàn)較為明顯的差異和分化。盡管從信息主題維度來看，平臺(tái)會(huì)持續(xù)推送部分用戶完全不會(huì)點(diǎn)擊的信息類別，這提升了個(gè)體偶遇多樣化信息的可能性，進(jìn)而降低了各組別間推送信息在主題維度的異質(zhì)性。但從信息語義維度來看，算法根據(jù)用戶點(diǎn)擊偏好來捕捉、估計(jì)深層次的語義并進(jìn)行推送，用戶被推送的信息在語義維度出現(xiàn)明顯的分化，且這種分化在各子空間高度一致。即在更深層的信息語義維度，信息推送出現(xiàn)窄化和固化，不同用戶組別像是被算法框定在語義光譜中一個(gè)個(gè)相對(duì)固定的位置，只能看到特定內(nèi)容的“政治”“社會(huì)”“娛樂”“世界”“歷史”“金融”信息。

（三）基于兩層次固定效應(yīng)模型的進(jìn)一步分析

在上文以個(gè)體賬號(hào)加日期為單位訓(xùn)練文檔向量的基礎(chǔ)上，本節(jié)以具體每條推送信息為單位訓(xùn)練文檔向量，在不同單位訓(xùn)練文檔向量以檢驗(yàn)上文結(jié)果的穩(wěn)健性的同時(shí)，進(jìn)一步考察各組別推送信息語義維度分化的動(dòng)態(tài)變化。筆者首先以每條推送信息為單位，使用Doc2vec模型對(duì)平臺(tái)推送的所有信息進(jìn)行訓(xùn)練，得到每條推送信息的200維實(shí)數(shù)向量表示，進(jìn)而通過PCA降維方法計(jì)算每條推送信息向量表示的主成分一的值，進(jìn)而使用兩層次固定效應(yīng)模型考察各組別不同日期推送信息內(nèi)容在主成分一上的差異與變化。

表4模型一報(bào)告了控制變量、組別變量與日期變量對(duì)推送信息語義的影響。從組別的差異看，以第八組為參照項(xiàng)，可以看到，第二組和第四組在主成分一上明顯高于第八組，第六組則低于第八組，但系數(shù)較小。與此對(duì)應(yīng)，第三組、第五組、第七組和第九組在上文中與上述各組內(nèi)容層面分化明顯且位于X軸左側(cè)的組別在模型結(jié)果中均明顯低于第八組在主成分一上的值。以具體每條推送信息為單位訓(xùn)練文檔向量的結(jié)果再次驗(yàn)證了上文結(jié)果，各組別間出現(xiàn)了明顯的語義維度的分化且模式相對(duì)穩(wěn)定。

模型二則進(jìn)一步加入了組別與推送日期的交互項(xiàng)，從模型二主效應(yīng)來看，在研究初期，各組別間在主成分一上有差異，但并未呈現(xiàn)上文中各組間穩(wěn)定的分化模式。而模型二交互效應(yīng)結(jié)果則顯示，隨著算法與個(gè)體點(diǎn)擊行為互動(dòng)的深入，各組間開始呈現(xiàn)上文中（包括模型一）所展示的分化模式。具體而言，相較于第八組，第二組、第四組和第六組在主成分一上的值在增加，第五組、第七組和第九組在主成分一上的值則在降低（第三組在研究初期就明顯低于第八組），逐漸形成了在語義空間中更為穩(wěn)定的分化（第二組、第四組、第六組和第八組在主成分一上取值較高，第三組、第五組、第七組和第九組在主成分一上取值較低）。該結(jié)果的重要性在于，它表明，從信息語義維度來看，算法并非從一開始就將不同用戶組框定在一個(gè)固定的位置，而是隨著算法與個(gè)體點(diǎn)擊行為互動(dòng)的不斷深入，不同組別在語義光譜中不斷移動(dòng)，逐步出現(xiàn)上文中明顯且穩(wěn)定的分化。

六、穩(wěn)健性檢驗(yàn)

為檢驗(yàn)信息語義異質(zhì)性部分的穩(wěn)健性，筆者提取前述文檔向量模型訓(xùn)練的高維向量的前50個(gè)主要維度，基于余弦相似度來測(cè)量各組間以及各組內(nèi)部的語義相似度。圖6結(jié)果顯示，各組間出現(xiàn)了與前文結(jié)果一致的明顯的語義分化。同時(shí)筆者計(jì)算了各組組內(nèi)平均語義相似度并賦值給節(jié)點(diǎn)權(quán)重。由圖6可見，各組組內(nèi)平均語義相似度均較高，組內(nèi)語義差異明顯小于組間差異。

本文圖3、圖4和圖5結(jié)果是以個(gè)體賬號(hào)加日期為單位訓(xùn)練文檔向量進(jìn)行計(jì)算得出的，為驗(yàn)證上述模型結(jié)果的穩(wěn)健性，本研究同時(shí)直接以每條推送信息為單位訓(xùn)練文檔向量，結(jié)果與上文無明顯差異。

七、結(jié)論與討論

我們已經(jīng)生活在一個(gè)充斥著算法的社會(huì)中，算法深度介入給社會(huì)科學(xué)研究帶來諸多挑戰(zhàn)。針對(duì)算法黑箱化、復(fù)雜性和難追蹤等難題，本研究嘗試在研究設(shè)計(jì)和數(shù)據(jù)生產(chǎn)環(huán)節(jié)有所創(chuàng)新（Wagner et al.，2021），通過設(shè)置若干不同點(diǎn)擊偏好的個(gè)體賬號(hào)與平臺(tái)進(jìn)行較長時(shí)間的互動(dòng)，收集不同賬號(hào)在該平臺(tái)的推送信息大數(shù)據(jù)，進(jìn)而對(duì)算法推送信息在主題以及語義兩個(gè)維度的異質(zhì)性進(jìn)行實(shí)證分析。

不同組別在信息主題與信息語義兩個(gè)維度的差異和分化表明，數(shù)字時(shí)代算法作為社會(huì)權(quán)力已變得更為隱晦（拉什，2009），算法規(guī)制呈現(xiàn)高度復(fù)雜化、精細(xì)化和隱蔽化等特征。社會(huì)層面平臺(tái)盈利、外部監(jiān)管、社會(huì)輿論等不同甚至是有沖突的需求，以及技術(shù)層面算法捕捉深層語義能力的進(jìn)步，使平臺(tái)推送的信息呈現(xiàn)主題多樣化而深層語義窄化的情況。一方面，平臺(tái)使用基于內(nèi)容熱度的推薦邏輯，在主題維度上增加了個(gè)體偶遇更多樣化信息主題的機(jī)會(huì)，這有利于減少有關(guān)算法強(qiáng)化過濾氣泡、導(dǎo)致個(gè)體信息獲取窄化以及個(gè)體間信息隔離的爭(zhēng)議，也符合外部監(jiān)管和社會(huì)輿論的要求方向。但另一方面，從實(shí)證結(jié)果可以看到，在更深層、更為隱蔽的信息語義維度，高熱度的信息被平臺(tái)進(jìn)行了隱蔽的精細(xì)化處理，平臺(tái)通過捕捉和估計(jì)用戶偏好的語義，試圖滿足和強(qiáng)化不同個(gè)體的語義偏好（盡管這一語義偏好是平臺(tái)預(yù)測(cè)的）。隨著個(gè)體與平臺(tái)的互動(dòng)，不同個(gè)體逐漸被固定在語義光譜中的特定位置，只被推送特定語義維度的信息，這導(dǎo)致了更為隱蔽的個(gè)體信息獲取窄化以及個(gè)體間的信息隔離。這一發(fā)現(xiàn)意味著：首先，在研究中需要重視信息的不同維度，已有文獻(xiàn)中看似矛盾的實(shí)證分析結(jié)果可以通過在研究中細(xì)化和統(tǒng)一分析維度來解決。其次，隨著平臺(tái)與深度學(xué)習(xí)等新技術(shù)的不斷融合，平臺(tái)的運(yùn)行邏輯由傳統(tǒng)意義上的分類邏輯（粗粒度、靜態(tài)的信息類別）向距離邏輯（細(xì)粒度、實(shí)時(shí)變動(dòng)性的信息距離）轉(zhuǎn)變，平臺(tái)對(duì)信息流的控制在這一過程中變得更加復(fù)雜化、精細(xì)化和隱蔽化。比較不同用戶在傳統(tǒng)的信息主題與更深層次的信息語義等兩個(gè)維度上信息獲取的差異，有助于揭示數(shù)字時(shí)代算法規(guī)制如何通過更精細(xì)、隱蔽的信息流控制來行使社會(huì)權(quán)力，進(jìn)而有助于理解算法帶來的潛在社會(huì)后果。

上述算法權(quán)力運(yùn)作方式的特征導(dǎo)致我們既難以通過公開的算法原理和代碼，也難以通過單個(gè)用戶的訪談或平臺(tái)推薦數(shù)據(jù)來識(shí)別和分析算法權(quán)力。面對(duì)上述難題，本研究嘗試借鑒社會(huì)科學(xué)算法審計(jì)（Brown et al.，2021）和計(jì)算機(jī)科學(xué)計(jì)算實(shí)驗(yàn)（Wang，2007）的研究思路，將虛擬賬號(hào)作為研究工具，通過設(shè)置不同點(diǎn)擊偏好的虛擬賬號(hào)與算法，與真實(shí)數(shù)據(jù)世界進(jìn)行長時(shí)間自動(dòng)互動(dòng)，進(jìn)而嘗試挖掘算法與社會(huì)更長時(shí)間跨度的互動(dòng)過程及其潛在影響。上述研究方法為社會(huì)科學(xué)提供了探索黑箱化技術(shù)世界的可能接口與路徑，有助于我們真正進(jìn)入算法的政治化空間去評(píng)估算法在決策中的具體角色以及可能的社會(huì)影響，從而為數(shù)字時(shí)代實(shí)證研究算法影響提供了數(shù)據(jù)收集以及研究方法上的新選擇。

作為一項(xiàng)社會(huì)科學(xué)實(shí)證分析算法的探索性研究，本文還存在需要繼續(xù)深入之處。第一，未來基于更多參數(shù)、更細(xì)致的信息主題類別乃至差異化的數(shù)字平臺(tái)來進(jìn)一步進(jìn)行研究有助于我們更為深入地了解算法與個(gè)體的互動(dòng)過程。特別是因?yàn)槠脚_(tái)可獲取的數(shù)據(jù)有限，在本研究設(shè)計(jì)用戶點(diǎn)擊偏好時(shí)僅依據(jù)信息主題這一大的類別而未能將更細(xì)致的點(diǎn)擊偏好考慮在內(nèi)，未來研究設(shè)計(jì)中若能考慮更細(xì)致的點(diǎn)擊偏好將有助于推進(jìn)對(duì)本文研究問題的理解。第二，本文研究設(shè)計(jì)中未包括“點(diǎn)贊”（like）、“不感興趣”（dislike）等改變平臺(tái)內(nèi)容的行為，將來在時(shí)機(jī)成熟時(shí)可在研究設(shè)計(jì)中加入上述內(nèi)容，以觀察平臺(tái)推送信息的變化情況。第三，在推送信息內(nèi)容分析部分，本文使用文檔向量模型分析各組別在總體信息內(nèi)容空間以及各子信息內(nèi)容空間的相對(duì)位置，尚未回答各空間中的主成分一的差異究竟是何種層次的語義差異，這種復(fù)雜的文檔向量模型的可解釋性有待進(jìn)一步研究。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.