国产av一二三区|日本不卡动作网站|黄色天天久久影片|99草成人免费在线视频|AV三级片成人电影在线|成年人aV不卡免费播放|日韩无码成人一级片视频|人人看人人玩开心色AV|人妻系列在线观看|亚洲av无码一区二区三区在线播放

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

佳文回溯|透視算法黑箱:數(shù)字平臺(tái)的算法規(guī)制與信息推送異質(zhì)性

0
分享至



劉河慶

華中科技大學(xué)

社會(huì)學(xué)院

副研究員


梁玉成

中山大學(xué)

社會(huì)學(xué)與人類學(xué)學(xué)院

教授

透視算法黑箱:數(shù)字平臺(tái)的算法規(guī)制與信息推送異質(zhì)性

來源 | 《社會(huì)學(xué)研究》2023年第2期

作者 | 劉河慶、梁玉成

責(zé)任編輯 | 張志敏

本研究借鑒實(shí)驗(yàn)和逆向工程方法,通過設(shè)置若干虛擬賬號(hào)與數(shù)字平臺(tái)進(jìn)行長時(shí)間真實(shí)互動(dòng),以嘗試真正進(jìn)入算法的政治化空間,分析算法規(guī)制對(duì)用戶信息獲取異質(zhì)性的影響。實(shí)證結(jié)果揭示了數(shù)字時(shí)代算法規(guī)制的高度復(fù)雜化、精細(xì)化和隱蔽化。從信息主題維度看,算法增加了個(gè)體獲得多樣化主題信息的機(jī)會(huì)。從信息語義維度看,算法強(qiáng)化了過濾氣泡效應(yīng),出現(xiàn)信息推送的窄化和固化,不同個(gè)體被算法框定在語義向量空間中相對(duì)固定的位置,只被推送特定語義維度的信息。

一、引言

算法無處不在。數(shù)字時(shí)代,信息呈井噴式爆發(fā),過去留給個(gè)體的操作、決策和選擇空間越來越被基于計(jì)算機(jī)代碼所編寫的算法所取代。算法及其推動(dòng)的工具、服務(wù)和平臺(tái)通過處理人工難以處理的海量復(fù)雜數(shù)據(jù),在眾多領(lǐng)域扮演著愈加重要的角色,成為連接、重組和調(diào)解數(shù)字社會(huì)與真實(shí)社會(huì)的關(guān)鍵部分(Cheney-Lippold,2017)。向用戶推送新聞和短視頻(Bail,2021)、外賣騎手的派單與送餐路線(陳龍,2020)等,都是算法應(yīng)用的豐富場(chǎng)景。

鑒于算法已成為當(dāng)代社會(huì)生活的重要組成部分,學(xué)界迫切需要對(duì)算法及其影響給予批判性和經(jīng)驗(yàn)性的關(guān)注,進(jìn)而對(duì)算法如何重組、調(diào)解、動(dòng)員原有社會(huì)關(guān)系(Ruppert et al.,2013)及其潛在的影響形成更為清晰的認(rèn)識(shí)。以數(shù)字平臺(tái)廣泛應(yīng)用的信息推薦算法為例,信息推薦算法通過自動(dòng)為用戶篩選和推送信息流,同時(shí)影響和塑造個(gè)體信息獲取與社會(huì)整體的輿論和心態(tài)(Perra & Rocha,2019)。與信息推薦算法在數(shù)字時(shí)代扮演的關(guān)鍵角色不匹配的是,目前學(xué)界對(duì)算法如何具體影響信息的擴(kuò)散、分化仍有較大爭(zhēng)議。例如,算法究竟是為用戶解鎖高質(zhì)量的多樣化信息,還是不斷迎合個(gè)體喜好而過度推送特定類型的信息,從而將用戶鎖定在單一、狹窄的過濾氣泡之中?超大規(guī)模、超高頻次的算法與個(gè)體行為的動(dòng)態(tài)互動(dòng)會(huì)將不同個(gè)體帶到信息空間中的哪個(gè)位置?是否會(huì)因此加劇不同用戶間信息的隔離與分化?對(duì)上述問題的回答不僅有助于我們厘清算法對(duì)個(gè)體信息獲得、社會(huì)知識(shí)生產(chǎn)以及公眾觀念極化等重要議題的影響,而且也是理解作為當(dāng)代重要技術(shù)物的算法如何行使權(quán)力以及如何塑造數(shù)字時(shí)代的社會(huì)關(guān)系與社會(huì)現(xiàn)實(shí)的關(guān)鍵(Burrell & Fourcade,2021;王天夫,2021)。

對(duì)上述問題作出實(shí)證回答并不容易。一方面我們所關(guān)心的算法通常非常復(fù)雜,晦澀難懂,處于不透明、難追蹤的黑箱狀態(tài)(Mittelstadt et al.,2016),平臺(tái)公司較少詳細(xì)公布平臺(tái)算法架構(gòu)或工作細(xì)節(jié),研究者直接獲得平臺(tái)公司的數(shù)據(jù)更是難上加難。另一方面,即使研究者擁有足夠的技術(shù)基礎(chǔ)且可以獲得部分算法架構(gòu)或運(yùn)作細(xì)節(jié),仍難以有效分析算法對(duì)社會(huì)現(xiàn)實(shí)的影響,原因在于算法影響社會(huì)的突出特征是一種算法介入的社會(huì)(algorithmically infused societies)出現(xiàn)(Wagner et al.,2021;Perra & Rocha,2019),具體表現(xiàn)為算法、訓(xùn)練數(shù)據(jù)集、外部約束條件以及龐大個(gè)體用戶群之間超大規(guī)模、超高頻次的循環(huán)互動(dòng)。這種拉圖爾意義上的不同行動(dòng)者高度復(fù)雜的動(dòng)態(tài)網(wǎng)絡(luò)(Latour,2005),意味著我們的研究對(duì)象不是一個(gè)簡(jiǎn)單的、確定性的算法黑盒,而是龐大的、網(wǎng)絡(luò)化的、與社會(huì)現(xiàn)實(shí)高頻互動(dòng)的算法系統(tǒng)(Seaver,2017)。因此,我們不能僅在技術(shù)意義上討論算法,也難以僅通過公開的部分算法原理和代碼來準(zhǔn)確分析算法的社會(huì)影響(Brown et al.,2021),算法的上述特征給社會(huì)科學(xué)實(shí)證研究帶來巨大挑戰(zhàn)。

針對(duì)上述難題,本文借鑒實(shí)驗(yàn)和逆向工程方法,將虛擬賬戶作為研究工具,通過對(duì)參與主體的屬性進(jìn)行虛構(gòu)觀察,關(guān)注其與算法、數(shù)字平臺(tái)的長期交互結(jié)果,進(jìn)而嘗試真正進(jìn)入算法的政治化空間(Amoore,2020),以此透視算法黑箱,實(shí)證分析算法規(guī)制對(duì)用戶信息獲取異質(zhì)性的影響效應(yīng)。具體而言,本文嘗試以T平臺(tái)這一高度強(qiáng)調(diào)算法的信息推送數(shù)字平臺(tái)為例,設(shè)置155個(gè)不同信息點(diǎn)擊行為的虛擬個(gè)體賬號(hào),使每個(gè)賬號(hào)按照設(shè)定的點(diǎn)擊偏好與平臺(tái)進(jìn)行25天的持續(xù)互動(dòng),進(jìn)而收集不同賬號(hào)在該平臺(tái)包含233973個(gè)推送信息流(news feed)以及超過294萬條具體信息在內(nèi)的推送信息大數(shù)據(jù)?;谠摂?shù)據(jù),本文從信息主題異質(zhì)性與語義異質(zhì)性兩個(gè)分析維度對(duì)比平臺(tái)為不同虛擬用戶推送信息的具體結(jié)構(gòu)和內(nèi)容的異同,進(jìn)而探討數(shù)字時(shí)代算法對(duì)個(gè)體信息獲取和個(gè)體間信息分化的潛在影響以及對(duì)治理的啟示。

二、文獻(xiàn)評(píng)述

(一)算法作為社會(huì)權(quán)力

算法在計(jì)算機(jī)科學(xué)中通常被理解為“完成給定任務(wù)的控制結(jié)構(gòu)”(Beer,2015),然而算法并非在真空中運(yùn)行,社會(huì)科學(xué)研究更為關(guān)注算法的社會(huì)屬性與社會(huì)后果(邱澤奇,2017)。例如,算法規(guī)制(algorithmic regulation)關(guān)注算法在建構(gòu)社會(huì)秩序方面所扮演的角色(Kitchin,2017),楊(Karen Young)和洛奇(Martin Lodch)將算法規(guī)制定義為規(guī)制某一領(lǐng)域行為的決策系統(tǒng),其通過對(duì)大規(guī)模數(shù)據(jù)進(jìn)行學(xué)習(xí),來管控風(fēng)險(xiǎn)、改變行為,以便實(shí)現(xiàn)預(yù)定目標(biāo)(楊、洛奇編,2020)。簡(jiǎn)單來說,算法規(guī)制即算法依據(jù)海量數(shù)據(jù)對(duì)目標(biāo)群體進(jìn)行分類(Amoore,2020),根據(jù)分類結(jié)果進(jìn)行自動(dòng)決策,從而替代傳統(tǒng)人工進(jìn)行的規(guī)制,而算法作為社會(huì)權(quán)力正是來源于上述自動(dòng)分類和決策過程(Burrell & Fourcade,2021;Thorson et al.,2021)。

與傳統(tǒng)人工對(duì)個(gè)體的識(shí)別和分類不同,算法識(shí)別“我們是誰”是由無數(shù)詮釋層組成的,分類的目標(biāo)也有成千上萬個(gè)(性別、喜好等),個(gè)體隨意點(diǎn)擊或?yàn)g覽行為都可能成為分類決策的一部分(Amoore,2020)?,F(xiàn)實(shí)中清晰的身份變成數(shù)字平臺(tái)中概率化、碎片化以及快速變動(dòng)的身份,因此算法規(guī)制的主要特征就是其動(dòng)態(tài)的模塊化控制(Koopman,2019;段偉文,2019)。在這一過程中算法如何實(shí)施權(quán)力、基于何種標(biāo)準(zhǔn)決定我們從屬于特定身份的概率則是一個(gè)黑箱,難以知曉(Burrell & Fourcade,2021)。另外,算法作為社會(huì)權(quán)力的表現(xiàn)是其通過概率化輸出的形式將無數(shù)不可計(jì)算的差異縮減為單個(gè)輸出。這可能會(huì)將不確定的、個(gè)人主觀的、情境性的東西被完全忽略或?qū)⑵鋸?qiáng)行作為一個(gè)確定的概率呈現(xiàn),進(jìn)而導(dǎo)致分類的錯(cuò)誤和對(duì)個(gè)體的不公平對(duì)待(Amoore,2020)。

如果說算法的分類過程是在“了解”人們的行為,那么算法的決策過程則是在大規(guī)模地“塑造”人們的行為,已有對(duì)算法決策過程及后果的研究主要關(guān)注以下方面。一是商業(yè)導(dǎo)向促使算法擁有者通過上癮設(shè)計(jì)等方式不斷爭(zhēng)奪用戶注意力(Bakshy et al.,2015),這造成假新聞、標(biāo)題黨、陰謀論等的泛濫(Bucher,2012;孫萍、劉瑞生,2018);二是算法規(guī)制系統(tǒng)精準(zhǔn)但卻片面的大規(guī)模信息推送,可能會(huì)降低信息的多樣化程度以及公共討論的質(zhì)量,進(jìn)而影響整個(gè)社會(huì)的知識(shí)生產(chǎn)與觀念結(jié)構(gòu)(陳云松,2022;邱澤奇,2022);三是算法決策的黑箱化及其潛在風(fēng)險(xiǎn),用戶沒有充分的解釋和追索權(quán),研究者同樣難以準(zhǔn)確評(píng)估該算法決策標(biāo)準(zhǔn)的合理性及潛在風(fēng)險(xiǎn)(Perra & Rocha,2019)。

綜上,算法在自動(dòng)分類和決策中扮演的角色集中體現(xiàn)了數(shù)字時(shí)代算法權(quán)力是通過排除(個(gè)體是否從屬于某一類別)與不可見(是否推送特定類型的信息)而非剝削來運(yùn)作(拉什,2009),但已有研究多是外在地指出上述現(xiàn)象,而對(duì)于算法究竟如何具體行使排除和不可見權(quán)力以此塑造社會(huì)現(xiàn)實(shí),特別是在算法介入的社會(huì)這一背景下,算法與不同個(gè)體的持續(xù)互動(dòng)所帶來更深層的影響和后果,有待我們真正進(jìn)入算法空間進(jìn)行檢驗(yàn)。另外,關(guān)于算法作為社會(huì)權(quán)力的已有文獻(xiàn)往往籠統(tǒng)地將多種算法合起來討論,針對(duì)特定算法深入、系統(tǒng)的實(shí)證研究將有助于我們更為準(zhǔn)確地理解算法在不同情境下對(duì)不同個(gè)體的真實(shí)影響。

(二)算法規(guī)制與個(gè)體間信息獲取異質(zhì)性

算法規(guī)制最直接的體現(xiàn)是對(duì)信息流的動(dòng)態(tài)控制(Bail,2021)。通過有針對(duì)性地為用戶推送信息,信息推薦算法主導(dǎo)著數(shù)字時(shí)代的信息擴(kuò)散和流動(dòng)(Bail,2021;Bakshy et al.,2015;Bucher,2012)。關(guān)于算法究竟如何通過排除和不可見權(quán)來運(yùn)作,會(huì)如何影響個(gè)體的信息獲取以及個(gè)體間的信息分化,仍存在較大爭(zhēng)議。已有文獻(xiàn)主要分為“過度個(gè)體化”與“分類權(quán)力”兩個(gè)研究脈絡(luò)。

“過度個(gè)體化”研究認(rèn)為,算法依據(jù)個(gè)體瀏覽記錄等特征為每個(gè)個(gè)體創(chuàng)造微信息環(huán)境,這個(gè)微信息環(huán)境隨著算法與個(gè)體互動(dòng)的深入會(huì)不斷同質(zhì)化,進(jìn)而降低個(gè)體對(duì)多元化信息的偶遇能力(Bakshy et al.,2015)。這通常被描述為信息繭房、回音室(桑斯坦,2008)或過濾氣泡(Pariser,2011)。如帕里瑟(Eli Pariser)認(rèn)為,臉書、谷歌等平臺(tái)使用的算法不斷推測(cè)并提供我們感興趣的內(nèi)容,算法正在創(chuàng)建過濾氣泡,迎合并放大個(gè)體偏好,用戶最終可能會(huì)被暴露在一幅帶有偏見的、碎片化的世界圖景中,從而加劇信息隔離以及觀念分化(Pariser,2011)。

“分類權(quán)力”研究則強(qiáng)調(diào),算法規(guī)制將帶來個(gè)體主動(dòng)性的喪失。算法根據(jù)預(yù)測(cè)的個(gè)體類別進(jìn)行內(nèi)容推送,個(gè)體的偏好、主觀意愿并不重要,個(gè)體在數(shù)字時(shí)代無限多維的類別化或指數(shù)化對(duì)個(gè)體信息獲取有著重要的影響(Amoore,2020;Cheney-Lippold,2017)。在數(shù)字社會(huì)中,方法論的個(gè)體主義已被指數(shù)化所取代,個(gè)體僅僅是不同類別編碼中的一個(gè)數(shù)字,個(gè)體的主觀獨(dú)特性、想法不僅沒有被過度重視,反而變得不再重要(Cheney-Lippold,2017)。信息推薦算法的本質(zhì)是依據(jù)對(duì)個(gè)體的數(shù)據(jù)標(biāo)注與畫像將其轉(zhuǎn)化為無限多維的數(shù)據(jù)集,進(jìn)而對(duì)相關(guān)人群進(jìn)行更具針對(duì)性的內(nèi)容推薦、目標(biāo)管理乃至行為引導(dǎo)與控制,個(gè)體能獲取的只是算法推測(cè)的、你的同類人感興趣的信息(段偉文,2019;韓炳哲,2019)。

上述兩種研究視角討論了算法規(guī)制對(duì)個(gè)體信息獲取和個(gè)體間信息分化的可能影響。值得關(guān)注的是,在后續(xù)算法推薦實(shí)踐中,究竟是“過度個(gè)體化”還是“分類權(quán)力”在起作用,算法是否導(dǎo)致并強(qiáng)化了過濾氣泡效應(yīng),個(gè)體間產(chǎn)生了何種信息獲取差異等重要議題均未得到普遍的實(shí)證支持(Thorson et al.,2021;Bail,2021;葛巖,2020;陳華珊、王呈偉,2019),相關(guān)研究陷入碎片化和爭(zhēng)議(施穎婕等,2022)。例如,有研究發(fā)現(xiàn)算法會(huì)放大個(gè)體偏好,導(dǎo)致個(gè)體接收信息的窄化以及個(gè)體間接收信息的差異程度變大(Bucher,2012);而另有研究認(rèn)為過濾氣泡的威脅被夸大了,個(gè)性化的影響比通常認(rèn)為的要?。∟echushtai & Lewis,2019)。索爾森(Thorson Kjerstin)等就發(fā)現(xiàn),相對(duì)于用戶自我報(bào)告的興趣,在算法上被歸類為對(duì)政治感興趣的人更有可能被推送該類信息(Thorson et al. ,2021)。聶靜虹、宋甲子(2020)關(guān)于平臺(tái)用戶健康信息獲取的研究發(fā)現(xiàn),用戶需最大化主觀能動(dòng)性才能部分獲得其感興趣的信息,這與算法所標(biāo)榜的自動(dòng)化和精準(zhǔn)推送相矛盾。

本文認(rèn)為,之所以出現(xiàn)上述理論與經(jīng)驗(yàn)層面的矛盾和張力,重要原因是已有文獻(xiàn)或是不分維度籠統(tǒng)、模糊地開展討論,或是在不同的單一維度討論信息,而信息在研究中被過度壓縮和簡(jiǎn)化了(Amoore,2020;Cheney-Lippold,2017;拉什,2009)。信息本身高度復(fù)雜,包括信息來源、主題和語義等多個(gè)維度;此外,控制著信息分發(fā)的數(shù)字平臺(tái)在商業(yè)利益、政府監(jiān)管、信息熱度等多個(gè)因素的影響下(呂鵬等,2022;趙璐,2022),長期面臨信息推送精確性與多樣性的抉擇(Helberger et al.,2018)。深度學(xué)習(xí)方法的發(fā)展使平臺(tái)有能力在信息來源、主題等基礎(chǔ)上捕捉更為深層次的信息語義(劉波,2019),以求根據(jù)信息的不同維度實(shí)現(xiàn)更精細(xì)化的信息推送,進(jìn)而更好地滿足平臺(tái)、用戶和政府等各方需求。在此背景下,在研究中區(qū)分信息的不同維度,特別是比較不同用戶在粗粒度信息主題與細(xì)粒度信息語義兩個(gè)維度上信息獲取的差異,有助于我們更為準(zhǔn)確地理解數(shù)字時(shí)代的算法如何通過精細(xì)地控制信息流來行使社會(huì)權(quán)力以及可能帶來的潛在社會(huì)后果。

綜上,已有文獻(xiàn)仍有需要深化之處。第一,已有研究多基于單一的信息主題維度來分析推薦算法對(duì)信息異質(zhì)性的影響(Thorson et al.,2021),鮮有研究綜合多個(gè)維度分析算法對(duì)個(gè)體信息獲取的影響。第二,需重視算法的實(shí)時(shí)性和變動(dòng)性,長時(shí)間持續(xù)而非從單個(gè)時(shí)間點(diǎn)觀察算法與用戶的交互情況有助于檢驗(yàn)算法對(duì)不同個(gè)體信息獲取的真實(shí)影響。第三,已有研究多采用受訪者自我報(bào)告、瀏覽歷史等方式來分析算法的影響,這往往使推薦算法的行為與用戶對(duì)內(nèi)容的偏好相混淆。若要克服用戶點(diǎn)擊行為本身的內(nèi)生性,理想情況下需要錨定用戶的行為,進(jìn)而收集平臺(tái)推薦算法為不同用戶所推送的完整信息列表。

三、研究設(shè)計(jì)

(一)數(shù)據(jù)收集與處理

T平臺(tái)作為國內(nèi)最大的信息分發(fā)平臺(tái)之一,完全依靠信息推薦算法實(shí)現(xiàn)自動(dòng)內(nèi)容分發(fā)(推送信息包括科技、體育等百余個(gè)垂直領(lǐng)域)。從平臺(tái)公開的算法推薦原理來看,其算法主要依據(jù)用戶行為特征、內(nèi)容特征和環(huán)境特征三個(gè)維度,綜合使用協(xié)同過濾方法以及深度神經(jīng)網(wǎng)絡(luò)等多種方法進(jìn)行信息推薦。在其信息推薦實(shí)踐中,相關(guān)性特征、環(huán)境特征、熱度特征和協(xié)同特征是重要考量因素(劉波,2019)。除了模型輸入?yún)?shù)以及考慮特征的高度復(fù)雜外,T平臺(tái)推薦算法的另一特征是實(shí)時(shí)性和高度變動(dòng)性,算法根據(jù)用戶行為、內(nèi)容特征以及環(huán)境特征等方面的實(shí)時(shí)變化不斷在線訓(xùn)練更新模型參數(shù),進(jìn)而實(shí)現(xiàn)信息實(shí)時(shí)動(dòng)態(tài)推送。


基于上述信息推薦算法的基本原理,考慮到在研究設(shè)計(jì)中兼顧用戶特征、內(nèi)容特征、環(huán)境特征和算法推薦的實(shí)時(shí)性與變動(dòng)性,本研究嘗試設(shè)置12個(gè)擁有不同信息主題點(diǎn)擊偏好的用戶組(共155個(gè)賬號(hào)),使其分別按照設(shè)定的點(diǎn)擊偏好與平臺(tái)進(jìn)行較長時(shí)間的實(shí)時(shí)互動(dòng),收集不同賬號(hào)在該平臺(tái)的推送信息大數(shù)據(jù)。

本研究設(shè)計(jì)流程包括:(1)招募志愿者注冊(cè)平臺(tái)賬號(hào),注冊(cè)完畢后研究者設(shè)定不同賬號(hào)的信息偏好和點(diǎn)擊行為。使用虛擬賬號(hào)的優(yōu)點(diǎn)在于該方法便于我們按照自己的研究設(shè)計(jì)設(shè)定具體參數(shù)。(2)筆者首先通過信息特征預(yù)收集器對(duì)數(shù)據(jù)進(jìn)行預(yù)爬取來獲取平臺(tái)信息的標(biāo)簽或分類情況。其次,本研究參考平臺(tái)發(fā)布的歷年用戶行為報(bào)告(報(bào)告會(huì)從性別、年齡、所在城市級(jí)別等角度對(duì)用戶進(jìn)行劃分,并分析不同用戶的信息點(diǎn)擊偏好),將155個(gè)個(gè)體虛擬賬號(hào)分為12組,每組在面對(duì)平臺(tái)實(shí)時(shí)推送的信息流時(shí)具有不同的信息點(diǎn)擊偏好。(3)表1報(bào)告了不同組別賬號(hào)的偏好,其中第一組為隨機(jī)測(cè)試組,包括20個(gè)賬號(hào),具體工作機(jī)制是面對(duì)平臺(tái)提供的推送信息流(通常包括14~15條信息),該組賬號(hào)均以30%的概率隨機(jī)點(diǎn)擊信息流中的信息(沒有偏好的信息類別),繼而自動(dòng)刷新到下一屏,繼續(xù)上述點(diǎn)擊行為(具體流程詳見圖1);第二組~第九組則參照平臺(tái)公布的用戶點(diǎn)擊偏好設(shè)置不同的理想用戶類型,如第二組對(duì)應(yīng)的用戶類型為一線、二線城市高年齡段男性用戶(該組賬號(hào)會(huì)以90%的概率去點(diǎn)擊信息推送流中政治、金融、科技、自然和汽車等五種標(biāo)簽的信息),第三組對(duì)應(yīng)的用戶類型則為三線、四線、五線及以下城市高年齡段男性用戶(該組賬號(hào)會(huì)以90%的概率去點(diǎn)擊信息推送流中社會(huì)、軍事、歷史、法制、健康、世界等六種標(biāo)簽的信息);第十組~第十二組為極端測(cè)試組,分別只點(diǎn)擊特定某一類標(biāo)簽的信息。(4)需要說明的是,本研究設(shè)計(jì)并不尋求完全復(fù)制用戶與平臺(tái)的真實(shí)互動(dòng)情況。一方面,用戶自身及平臺(tái)的參數(shù)均過于復(fù)雜,完全復(fù)制并不現(xiàn)實(shí);另一方面,本文主要研究的問題是探討算法對(duì)用戶信息獲取的異質(zhì)性影響,通過錨定用戶的信息偏好和點(diǎn)擊行為,持續(xù)觀測(cè)平臺(tái)為不同用戶推送信息的內(nèi)容變化情況,有助于克服用戶點(diǎn)擊行為本身的內(nèi)生性,進(jìn)而更準(zhǔn)確地分析平臺(tái)算法對(duì)信息獲取的影響。


圖1展示了數(shù)據(jù)的基本收集流程,賬號(hào)首先獲得平臺(tái)推送的信息流(生成信息流ID),信息流中包括每條信息的ID、標(biāo)題、摘要、推薦日期和標(biāo)簽等內(nèi)容;之后,賬號(hào)根據(jù)預(yù)先設(shè)置的標(biāo)簽點(diǎn)擊偏好,選擇是否點(diǎn)擊推送信息流的信息,生成點(diǎn)擊行為,繼而刷新屏幕,獲取新的信息流,并重復(fù)上述流程。在實(shí)際研究中,筆者設(shè)置了155個(gè)個(gè)體賬號(hào),連續(xù)25天以一定的時(shí)間間隔按照設(shè)計(jì)的信息點(diǎn)擊偏好與平臺(tái)互動(dòng),并保存推送信息流信息。最終,本研究生成包含233973個(gè)推送信息流及其基本特征(包括信息流ID等),以及超過294萬條具體信息及其基本特征(包括標(biāo)題、摘要、標(biāo)簽等)在內(nèi)的多層級(jí)數(shù)據(jù)庫。

(二)數(shù)據(jù)分析策略與方法

結(jié)合已有研究以及平臺(tái)算法的實(shí)際運(yùn)作過程,本文嘗試基于信息主題以及信息語義兩個(gè)維度對(duì)不同用戶獲取的平臺(tái)推送信息的差異進(jìn)行分析。

1.信息主題維度

本研究首先通過對(duì)比不同組別推送信息主題分布差異和推送信息流熵指數(shù)來測(cè)量信息主題異質(zhì)性。(1)在不同組別推送信息主題分布差異及歷時(shí)性變化方面,若支持算法強(qiáng)化過濾氣泡效應(yīng),則可以預(yù)期,在總體推送結(jié)果中,各組別初始設(shè)定中偏好的信息主題占比會(huì)更高(隨實(shí)驗(yàn)的推進(jìn)不斷變高),且由于各組具有不同的點(diǎn)擊行為模式,各組被推送的信息主題會(huì)存在明顯的差異。(2)本研究借用熵指數(shù)對(duì)各組別推送信息流中信息類別的結(jié)構(gòu)以及多樣性程度進(jìn)行分析(Zhang et al.,2017)。如實(shí)證結(jié)果支持算法強(qiáng)化過濾氣泡效應(yīng),則可以預(yù)期,偏好信息點(diǎn)擊主題類別多的組別(如第二組)相較于點(diǎn)擊主題類別少的組別(如第十組)被推送信息的熵指數(shù)(即信息主題多樣化程度)更高。

2.信息語義維度

相較于信息主題,深層次的信息語義維度的測(cè)量更為復(fù)雜。通過平臺(tái)公開的算法推薦原理可知,平臺(tái)通過深度學(xué)習(xí)等方法將超高維用戶特征和內(nèi)容特征轉(zhuǎn)化為低維實(shí)數(shù)向量,并通過比較用戶向量、內(nèi)容向量之間的距離來進(jìn)行信息推送。因此,欲有效分析不同個(gè)體推送信息在信息語義維度的異質(zhì)性,需要測(cè)量不同用戶和內(nèi)容在向量空間中的距離及其動(dòng)態(tài)變化?;诖?,本研究首先嘗試使用文檔向量模型(Doc2vec)對(duì)收集的超過294萬條具體信息進(jìn)行建模。Doc2vec是將詞向量模型(Word2vec)擴(kuò)展到句子、段落、文檔或特定類別的方法(Le & Mikolov,2014),該方法通過在詞匯上下文信息中引入文檔或文檔屬性變量(Rheault & Cochrane,2018),在文檔或文檔屬性內(nèi)預(yù)測(cè)具體的詞匯,從而可使用單個(gè)密集向量表示文檔或文檔屬性。本文以平臺(tái)推送的每條具體信息的標(biāo)題和摘要(將兩者合并)作為語料庫,使用Doc2vec模型對(duì)該數(shù)據(jù)進(jìn)行訓(xùn)練,設(shè)置訓(xùn)練窗口為5,訓(xùn)練中使用詞匯的最小出現(xiàn)頻率為10,迭代次數(shù)為20次,得到每條推送信息內(nèi)容的200維實(shí)數(shù)向量表示。在將上述200維實(shí)數(shù)向量與每條信息其他特征拼接后,筆者使用PCA降維以及多層次固定效應(yīng)模型等方法對(duì)不同個(gè)體獲取信息的語義維度的異質(zhì)性進(jìn)行分析。若在語義維度支持算法強(qiáng)化過濾氣泡效應(yīng),則可以預(yù)期:(1)在組別內(nèi)部,各個(gè)虛擬賬號(hào)在語義向量空間中的分布不會(huì)混亂無序,而是會(huì)較為接近。(2)不同組別的推送信息在語義向量空間中會(huì)出現(xiàn)較為明顯的差異和分化。(3)隨著各組虛擬賬號(hào)與平臺(tái)互動(dòng)的深入,各組別在語義向量空間中的差異和分化會(huì)呈擴(kuò)大趨勢(shì)。

四、基于信息主題異質(zhì)性的實(shí)證分析結(jié)果

(一)不同組別推送信息主題分布

本節(jié)首先分析12個(gè)組別在與平臺(tái)較長時(shí)間的互動(dòng)后被推送信息主題的總體分布情況。表2計(jì)算了各組別推送主題信息中占比前六的主題及占比。


按照研究設(shè)計(jì),第一組為隨機(jī)測(cè)試組,由表2可見,第一組被推送的政治新聞(news_politics)最多,占比為27.98%,占比排第二~第六的主題標(biāo)簽分別為“社會(huì)”“娛樂”“世界”“歷史”“金融”新聞,占比分別為7.50%、7.31%、5.16%、5.15%、4.62%。第一組被推送的“政治”的占比遠(yuǎn)高于其他組(除第二組外)。在與算法互動(dòng)過程中,第一組并沒有設(shè)置特定的信息類別點(diǎn)擊偏好,但由于研究實(shí)施初期推送信息流中“政治”的比例較高(詳見表1),若該組賬號(hào)以30%的概率隨機(jī)點(diǎn)擊推送信息流中的信息,點(diǎn)擊到“政治”類新聞的概率就會(huì)相對(duì)較高。

表2同時(shí)報(bào)告了第二組~第十二組推送信息主題分布,上述各組在研究中均有固定的信息點(diǎn)擊偏好,若各組偏好的信息主題出現(xiàn)在前六大類別中,則表2對(duì)該主題進(jìn)行了加粗顯示。從結(jié)果來看,一方面,一旦我們?cè)O(shè)置的賬號(hào)偏好點(diǎn)擊特定主題,則從長時(shí)間的互動(dòng)結(jié)果看平臺(tái)確實(shí)會(huì)增加這些主題的推送總量,如第三組被推送的“社會(huì)”(11.51%)、“世界”(6.98%)、“歷史”(6.21%)等該組偏好主題的比例高于各組均值。但另一方面,從各組推送信息主題分布對(duì)比來看,平臺(tái)信息推薦算法雖然考慮個(gè)體點(diǎn)擊偏好,但各組均未出現(xiàn)因考慮個(gè)體點(diǎn)擊偏好而過度推送特定主題信息的情況。以第十組為例,作為極端測(cè)試組,該組只點(diǎn)擊“歷史”新聞,在該組最終被推送的信息主題占比中“歷史”排第四(7.55%),僅略高于各組均值(6.16%),并未出現(xiàn)因過度推送而占比過高的情況。同時(shí)除第二組和第九組外,各組最終推送結(jié)果中占比第一的信息主題均非初設(shè)中偏好的信息主題,由此可見,算法并非完全按照個(gè)體點(diǎn)擊偏好進(jìn)行信息推送。最后,盡管各組擁有不同的信息點(diǎn)擊偏好,但各組被推送的信息主題存在較高程度的重疊(如在12個(gè)組別中有8組占比第一的信息主題為“政治”,4組占比第一的信息主題為“娛樂”),各組并未因點(diǎn)擊偏好的差異而出現(xiàn)推送主題上的明顯差異和分化。

上述基于信息主題維度的分析結(jié)果雖未直接否定算法導(dǎo)致的過濾氣泡效應(yīng),但平臺(tái)的推薦算法并未出現(xiàn)已有部分文獻(xiàn)強(qiáng)調(diào)的過度迎合且放大個(gè)體偏好的情況,過濾氣泡的威脅被夸大了(Nechushtai & Lewis,2019),個(gè)性化的影響比通常認(rèn)為的要小。

(二)不同組別信息推送的歷時(shí)性變化

本節(jié)進(jìn)一步分析不同組別推送信息主題的歷時(shí)性變化,以探索平臺(tái)推薦算法與不同組別信息獲取的動(dòng)態(tài)互動(dòng)情況。圖2以“政治”主題新聞為例,展示了各組別“政治”信息推送占比的動(dòng)態(tài)變化情況,圖2上半部分和下半部分分別呈現(xiàn)第一組~第六組以及第七組~第十二組的情況,橫軸日期代表研究開始天數(shù),縱軸代表各組別被推送的“政治”類主題信息占總體被推送信息的比例。


由圖2可見,在正式研究開始的第一天,各組被推送的“政治”類主題信息的占比相近,均在10%左右,之后各組開始出現(xiàn)差異。首先,針對(duì)“政治”類信息點(diǎn)擊量大的組別(第一組和第二組),平臺(tái)推薦算法在較短時(shí)間內(nèi)快速提高了兩個(gè)組別政治類信息的推送比例,但隨著時(shí)間的推進(jìn),上述兩組該類別信息占比并沒有繼續(xù)上升或持續(xù)穩(wěn)定在高位,而是出現(xiàn)波動(dòng)和下降趨勢(shì)。其次,觀察從第三組~第十二組的變動(dòng)趨勢(shì)可發(fā)現(xiàn),盡管上述各組無政治類別信息點(diǎn)擊偏好,但可以看到各組的推送信息流中始終會(huì)包括一定比例的政治類主題信息;此外,上述各組在研究實(shí)施的前半段變動(dòng)趨勢(shì)差異較大,而研究實(shí)施的后半段變動(dòng)趨勢(shì)差異變小。最后,外部信息內(nèi)容變化同樣對(duì)個(gè)體信息獲得有重要的影響。例如,從研究實(shí)施的第18天開始,各組推送政治類信息的比例均開始下降,并均在第20天下降到較低的位置。筆者查詢第三方平臺(tái)熱度指數(shù)發(fā)現(xiàn),在研究實(shí)施的第18天某流量明星的負(fù)面輿情開始發(fā)酵并在第20天達(dá)到峰值。由此可見算法設(shè)計(jì)原理中的內(nèi)容熱度對(duì)各組別信息獲取存在直接的影響,算法在特定時(shí)間會(huì)按“流行度”“熱度”等指標(biāo)推送信息流,而相對(duì)忽略個(gè)體點(diǎn)擊偏好和預(yù)測(cè)的類別。

(三)基于熵指數(shù)的各組別推送信息類別分析

本節(jié)進(jìn)一步借用熵指數(shù)對(duì)各組別推送信息流中信息類別的多樣性程度進(jìn)行分析。筆者以日為單位計(jì)算了每個(gè)推送信息流的熵指數(shù),值越高代表該推送信息流中的信息類別多樣化程度越高。得到每個(gè)推送信息流的熵指數(shù)后,使用兩層次固定效應(yīng)模型考察各組別不同日期推送信息主題多樣化程度的差異。


表3模型一報(bào)告了控制變量、組別變量以及日期變量對(duì)推送信息流熵指數(shù)的影響。從組別差異來看,第一組、第二組以及第三組被推送信息的類別多樣化程度相對(duì)較低,而第十一組、第七組、第八組以及第十二組被推送信息的類別多樣化程度則相對(duì)較高。結(jié)合上文各組別點(diǎn)擊偏好設(shè)置可以看出,偏好多個(gè)信息標(biāo)簽的組別(如第二組)被推送信息的多樣化程度不一定高,反而偏好特定某類標(biāo)簽的第十一組和第十二組。由于偏好的標(biāo)簽均屬于小概率信息類別(偏好信息類別在基準(zhǔn)時(shí)期占比分別為0.8%和0.6%),點(diǎn)擊偏好提升了這些信息類別的概率,因此熵指數(shù)更高。從日期變量來看,隨著研究的推進(jìn),各組推送信息流主題的多樣化程度有增加的趨勢(shì)。

表3模型二主效應(yīng)和模型二交互效應(yīng)(組別與推送日期的交互項(xiàng))則顯示,模型二組別變量(主效應(yīng))與模型一組別變量的差異情況高度一致(但系數(shù)差異更大),如系數(shù)均是第二組最低、第十一組最高,表明模型一中不同組別被推送信息多樣化程度的差異主要出現(xiàn)在算法與各組別互動(dòng)的初期,隨著時(shí)間的推移,時(shí)間作為調(diào)節(jié)變量明顯減少了各組別間信息多樣化程度的差異。

綜上,基于信息主題維度的分析結(jié)果顯示,平臺(tái)算法會(huì)因個(gè)體點(diǎn)擊偏好而增加特定信息的推送量,但各組均未出現(xiàn)因迎合個(gè)體點(diǎn)擊偏好而過度推送特定類別信息的情況,平臺(tái)始終會(huì)給各組推送一定比例的非該組點(diǎn)擊偏好的主題信息,且隨著算法與個(gè)體點(diǎn)擊行為交互的深入,各組別間主題信息多樣化程度的差異也在降低。這表明從信息推送主題來看,算法可能導(dǎo)致的過濾氣泡的威脅被夸大了,算法增加了個(gè)體偶遇多樣化主題信息的可能性。

五、基于信息語義異質(zhì)性的實(shí)證分析結(jié)果

(一)個(gè)體賬號(hào)及所屬組別在語義向量空間中的差異

本節(jié)從更深層次的信息語義維度分析推送信息異質(zhì)性。筆者使用Doc2vec模型對(duì)平臺(tái)推送的信息(標(biāo)題和摘要)進(jìn)行訓(xùn)練,以個(gè)體賬號(hào)加日期為單位,得到各個(gè)體賬號(hào)每天的200維實(shí)數(shù)向量表示。在圖3中,筆者計(jì)算了各個(gè)體賬號(hào)200維實(shí)數(shù)向量均值,進(jìn)而使用PCA降維方法將各個(gè)體賬號(hào)的向量表示投影到有實(shí)質(zhì)意義的二維空間中(圖3使用個(gè)體賬號(hào)所屬的組別來標(biāo)記每個(gè)數(shù)據(jù)點(diǎn))。簡(jiǎn)單來說,通過PCA降維后的主成分一能夠發(fā)現(xiàn)個(gè)體賬號(hào)向量表示間的最大化方差,即可以捕捉不同個(gè)體賬號(hào)間推送信息在語義上的主要差異(Rheault & Cochrane,2018)。本研究在此部分主要關(guān)注同一個(gè)組別內(nèi)部不同賬號(hào)以及不同組別賬號(hào)在主成分一上的差異情況。

從同一個(gè)組別內(nèi)部不同賬號(hào)在X軸的分布可見,各個(gè)賬號(hào)的分布并非是混亂無序的。同一個(gè)組別的個(gè)體賬號(hào)在X軸上的分布更為接近,也即同一個(gè)組別內(nèi)賬號(hào)的推送信息在語義上相對(duì)更為接近。從組別間的差異來看,不同組別的推送信息在語義上存在較為明顯的差異和分化,其中第一組和第二組位于X軸靠右的位置,第七組和第九組位于X軸靠左的位置。


為更直觀地呈現(xiàn)不同組別間推送信息內(nèi)容的差異,本文進(jìn)一步對(duì)各個(gè)體賬號(hào)的值按照組別加總求均值,結(jié)果如圖4所示。由圖4可見,在主成分一捕捉的推送信息語義差異上,第二組位于最右側(cè),第十一組位于最左側(cè),兩組之間語義差異最大。另外,以X軸的0值為分界,除去隨機(jī)測(cè)試組(第一組)以及極端測(cè)試組(第十組、第十一組和第十二組)外,其余各組在X軸上明顯分為兩大類,其中第二組、第四組、第六組以及第八組在X軸上為正,而第三組、第五組、第七組、第九組為負(fù)。綜合圖3和圖4的結(jié)果可以看出,各個(gè)虛擬賬號(hào)在語義向量空間中的分布并非是混亂無序或聚在一團(tuán)的,同一組別內(nèi)部各個(gè)賬號(hào)推送信息的內(nèi)容更為接近,各個(gè)組別間內(nèi)容則出現(xiàn)分化。

(二)不同組別在各子語義向量空間中的差異

需要說明的是,上一小節(jié)觀察到各組別間推送信息語義的差異和分化可能是由于各賬號(hào)間推送信息的主題差異導(dǎo)致的,為此,本部分將深入到各個(gè)信息主題子空間,進(jìn)一步觀察各個(gè)組別間的語義差異。具體而言,首先挑選“政治”“社會(huì)”“娛樂”“世界”“歷史”“金融”等六個(gè)主題的推送信息(標(biāo)題加摘要),使用Doc2vec模型分別對(duì)這六個(gè)子數(shù)據(jù)進(jìn)行訓(xùn)練,得到各個(gè)體賬號(hào)每天在上述六個(gè)子數(shù)據(jù)中的200維實(shí)數(shù)向量表示,進(jìn)而參照上節(jié)步驟分別對(duì)上述向量表示進(jìn)行PCA降維并按照組別進(jìn)行加總求平均,圖5展現(xiàn)了不同組別在上述六個(gè)子信息空間的分布情況。


由圖5可見,當(dāng)我們將研究范圍聚焦至具體的信息子空間時(shí),各組別在不同子空間中同樣存在著明顯的語義差異。有趣的是,各組別在不同子空間中的語義差異存在驚人的一致。除隨機(jī)測(cè)試組以及極端測(cè)試組外,其余各組與上一節(jié)一致,在不同子空間的X軸上同樣出現(xiàn)明顯的分化。其中第二組在各個(gè)子空間中均位于X軸的最右側(cè),第七組和第九組在各個(gè)子空間中則位于X軸的最左側(cè),各組別間在不同子空間中出現(xiàn)了規(guī)律且一致的分化。以“社會(huì)”主題為例,第三組和第五組均有社會(huì)新聞的點(diǎn)擊偏好,可以看到上述兩個(gè)組別在社會(huì)子空間X軸上的分布非常接近;同時(shí),其他各組并非是聚成一團(tuán)或與第三組和第五組距離過遠(yuǎn),而是呈現(xiàn)與上一節(jié)總體向量空間以及其他子信息空間類似的分布規(guī)律。如第一組、第二組、第七組和第九組均無社會(huì)新聞點(diǎn)擊偏好,但他們被推送的社會(huì)新聞在語義上出現(xiàn)了明顯的分化。

各子語義向量空間分布情況再次表明,在信息語義維度,算法強(qiáng)化了過濾氣泡效應(yīng),不同組別的推送信息在語義向量空間中會(huì)出現(xiàn)較為明顯的差異和分化。盡管從信息主題維度來看,平臺(tái)會(huì)持續(xù)推送部分用戶完全不會(huì)點(diǎn)擊的信息類別,這提升了個(gè)體偶遇多樣化信息的可能性,進(jìn)而降低了各組別間推送信息在主題維度的異質(zhì)性。但從信息語義維度來看,算法根據(jù)用戶點(diǎn)擊偏好來捕捉、估計(jì)深層次的語義并進(jìn)行推送,用戶被推送的信息在語義維度出現(xiàn)明顯的分化,且這種分化在各子空間高度一致。即在更深層的信息語義維度,信息推送出現(xiàn)窄化和固化,不同用戶組別像是被算法框定在語義光譜中一個(gè)個(gè)相對(duì)固定的位置,只能看到特定內(nèi)容的“政治”“社會(huì)”“娛樂”“世界”“歷史”“金融”信息。

(三)基于兩層次固定效應(yīng)模型的進(jìn)一步分析

在上文以個(gè)體賬號(hào)加日期為單位訓(xùn)練文檔向量的基礎(chǔ)上,本節(jié)以具體每條推送信息為單位訓(xùn)練文檔向量,在不同單位訓(xùn)練文檔向量以檢驗(yàn)上文結(jié)果的穩(wěn)健性的同時(shí),進(jìn)一步考察各組別推送信息語義維度分化的動(dòng)態(tài)變化。筆者首先以每條推送信息為單位,使用Doc2vec模型對(duì)平臺(tái)推送的所有信息進(jìn)行訓(xùn)練,得到每條推送信息的200維實(shí)數(shù)向量表示,進(jìn)而通過PCA降維方法計(jì)算每條推送信息向量表示的主成分一的值,進(jìn)而使用兩層次固定效應(yīng)模型考察各組別不同日期推送信息內(nèi)容在主成分一上的差異與變化。


表4模型一報(bào)告了控制變量、組別變量與日期變量對(duì)推送信息語義的影響。從組別的差異看,以第八組為參照項(xiàng),可以看到,第二組和第四組在主成分一上明顯高于第八組,第六組則低于第八組,但系數(shù)較小。與此對(duì)應(yīng),第三組、第五組、第七組和第九組在上文中與上述各組內(nèi)容層面分化明顯且位于X軸左側(cè)的組別在模型結(jié)果中均明顯低于第八組在主成分一上的值。以具體每條推送信息為單位訓(xùn)練文檔向量的結(jié)果再次驗(yàn)證了上文結(jié)果,各組別間出現(xiàn)了明顯的語義維度的分化且模式相對(duì)穩(wěn)定。

模型二則進(jìn)一步加入了組別與推送日期的交互項(xiàng),從模型二主效應(yīng)來看,在研究初期,各組別間在主成分一上有差異,但并未呈現(xiàn)上文中各組間穩(wěn)定的分化模式。而模型二交互效應(yīng)結(jié)果則顯示,隨著算法與個(gè)體點(diǎn)擊行為互動(dòng)的深入,各組間開始呈現(xiàn)上文中(包括模型一)所展示的分化模式。具體而言,相較于第八組,第二組、第四組和第六組在主成分一上的值在增加,第五組、第七組和第九組在主成分一上的值則在降低(第三組在研究初期就明顯低于第八組),逐漸形成了在語義空間中更為穩(wěn)定的分化(第二組、第四組、第六組和第八組在主成分一上取值較高,第三組、第五組、第七組和第九組在主成分一上取值較低)。該結(jié)果的重要性在于,它表明,從信息語義維度來看,算法并非從一開始就將不同用戶組框定在一個(gè)固定的位置,而是隨著算法與個(gè)體點(diǎn)擊行為互動(dòng)的不斷深入,不同組別在語義光譜中不斷移動(dòng),逐步出現(xiàn)上文中明顯且穩(wěn)定的分化。

六、穩(wěn)健性檢驗(yàn)

為檢驗(yàn)信息語義異質(zhì)性部分的穩(wěn)健性,筆者提取前述文檔向量模型訓(xùn)練的高維向量的前50個(gè)主要維度,基于余弦相似度來測(cè)量各組間以及各組內(nèi)部的語義相似度。圖6結(jié)果顯示,各組間出現(xiàn)了與前文結(jié)果一致的明顯的語義分化。同時(shí)筆者計(jì)算了各組組內(nèi)平均語義相似度并賦值給節(jié)點(diǎn)權(quán)重。由圖6可見,各組組內(nèi)平均語義相似度均較高,組內(nèi)語義差異明顯小于組間差異。


本文圖3、圖4和圖5結(jié)果是以個(gè)體賬號(hào)加日期為單位訓(xùn)練文檔向量進(jìn)行計(jì)算得出的,為驗(yàn)證上述模型結(jié)果的穩(wěn)健性,本研究同時(shí)直接以每條推送信息為單位訓(xùn)練文檔向量,結(jié)果與上文無明顯差異。

七、結(jié)論與討論

我們已經(jīng)生活在一個(gè)充斥著算法的社會(huì)中,算法深度介入給社會(huì)科學(xué)研究帶來諸多挑戰(zhàn)。針對(duì)算法黑箱化、復(fù)雜性和難追蹤等難題,本研究嘗試在研究設(shè)計(jì)和數(shù)據(jù)生產(chǎn)環(huán)節(jié)有所創(chuàng)新(Wagner et al.,2021),通過設(shè)置若干不同點(diǎn)擊偏好的個(gè)體賬號(hào)與平臺(tái)進(jìn)行較長時(shí)間的互動(dòng),收集不同賬號(hào)在該平臺(tái)的推送信息大數(shù)據(jù),進(jìn)而對(duì)算法推送信息在主題以及語義兩個(gè)維度的異質(zhì)性進(jìn)行實(shí)證分析。

不同組別在信息主題與信息語義兩個(gè)維度的差異和分化表明,數(shù)字時(shí)代算法作為社會(huì)權(quán)力已變得更為隱晦(拉什,2009),算法規(guī)制呈現(xiàn)高度復(fù)雜化、精細(xì)化和隱蔽化等特征。社會(huì)層面平臺(tái)盈利、外部監(jiān)管、社會(huì)輿論等不同甚至是有沖突的需求,以及技術(shù)層面算法捕捉深層語義能力的進(jìn)步,使平臺(tái)推送的信息呈現(xiàn)主題多樣化而深層語義窄化的情況。一方面,平臺(tái)使用基于內(nèi)容熱度的推薦邏輯,在主題維度上增加了個(gè)體偶遇更多樣化信息主題的機(jī)會(huì),這有利于減少有關(guān)算法強(qiáng)化過濾氣泡、導(dǎo)致個(gè)體信息獲取窄化以及個(gè)體間信息隔離的爭(zhēng)議,也符合外部監(jiān)管和社會(huì)輿論的要求方向。但另一方面,從實(shí)證結(jié)果可以看到,在更深層、更為隱蔽的信息語義維度,高熱度的信息被平臺(tái)進(jìn)行了隱蔽的精細(xì)化處理,平臺(tái)通過捕捉和估計(jì)用戶偏好的語義,試圖滿足和強(qiáng)化不同個(gè)體的語義偏好(盡管這一語義偏好是平臺(tái)預(yù)測(cè)的)。隨著個(gè)體與平臺(tái)的互動(dòng),不同個(gè)體逐漸被固定在語義光譜中的特定位置,只被推送特定語義維度的信息,這導(dǎo)致了更為隱蔽的個(gè)體信息獲取窄化以及個(gè)體間的信息隔離。這一發(fā)現(xiàn)意味著:首先,在研究中需要重視信息的不同維度,已有文獻(xiàn)中看似矛盾的實(shí)證分析結(jié)果可以通過在研究中細(xì)化和統(tǒng)一分析維度來解決。其次,隨著平臺(tái)與深度學(xué)習(xí)等新技術(shù)的不斷融合,平臺(tái)的運(yùn)行邏輯由傳統(tǒng)意義上的分類邏輯(粗粒度、靜態(tài)的信息類別)向距離邏輯(細(xì)粒度、實(shí)時(shí)變動(dòng)性的信息距離)轉(zhuǎn)變,平臺(tái)對(duì)信息流的控制在這一過程中變得更加復(fù)雜化、精細(xì)化和隱蔽化。比較不同用戶在傳統(tǒng)的信息主題與更深層次的信息語義等兩個(gè)維度上信息獲取的差異,有助于揭示數(shù)字時(shí)代算法規(guī)制如何通過更精細(xì)、隱蔽的信息流控制來行使社會(huì)權(quán)力,進(jìn)而有助于理解算法帶來的潛在社會(huì)后果。

上述算法權(quán)力運(yùn)作方式的特征導(dǎo)致我們既難以通過公開的算法原理和代碼,也難以通過單個(gè)用戶的訪談或平臺(tái)推薦數(shù)據(jù)來識(shí)別和分析算法權(quán)力。面對(duì)上述難題,本研究嘗試借鑒社會(huì)科學(xué)算法審計(jì)(Brown et al.,2021)和計(jì)算機(jī)科學(xué)計(jì)算實(shí)驗(yàn)(Wang,2007)的研究思路,將虛擬賬號(hào)作為研究工具,通過設(shè)置不同點(diǎn)擊偏好的虛擬賬號(hào)與算法,與真實(shí)數(shù)據(jù)世界進(jìn)行長時(shí)間自動(dòng)互動(dòng),進(jìn)而嘗試挖掘算法與社會(huì)更長時(shí)間跨度的互動(dòng)過程及其潛在影響。上述研究方法為社會(huì)科學(xué)提供了探索黑箱化技術(shù)世界的可能接口與路徑,有助于我們真正進(jìn)入算法的政治化空間去評(píng)估算法在決策中的具體角色以及可能的社會(huì)影響,從而為數(shù)字時(shí)代實(shí)證研究算法影響提供了數(shù)據(jù)收集以及研究方法上的新選擇。

作為一項(xiàng)社會(huì)科學(xué)實(shí)證分析算法的探索性研究,本文還存在需要繼續(xù)深入之處。第一,未來基于更多參數(shù)、更細(xì)致的信息主題類別乃至差異化的數(shù)字平臺(tái)來進(jìn)一步進(jìn)行研究有助于我們更為深入地了解算法與個(gè)體的互動(dòng)過程。特別是因?yàn)槠脚_(tái)可獲取的數(shù)據(jù)有限,在本研究設(shè)計(jì)用戶點(diǎn)擊偏好時(shí)僅依據(jù)信息主題這一大的類別而未能將更細(xì)致的點(diǎn)擊偏好考慮在內(nèi),未來研究設(shè)計(jì)中若能考慮更細(xì)致的點(diǎn)擊偏好將有助于推進(jìn)對(duì)本文研究問題的理解。第二,本文研究設(shè)計(jì)中未包括“點(diǎn)贊”(like)、“不感興趣”(dislike)等改變平臺(tái)內(nèi)容的行為,將來在時(shí)機(jī)成熟時(shí)可在研究設(shè)計(jì)中加入上述內(nèi)容,以觀察平臺(tái)推送信息的變化情況。第三,在推送信息內(nèi)容分析部分,本文使用文檔向量模型分析各組別在總體信息內(nèi)容空間以及各子信息內(nèi)容空間的相對(duì)位置,尚未回答各空間中的主成分一的差異究竟是何種層次的語義差異,這種復(fù)雜的文檔向量模型的可解釋性有待進(jìn)一步研究。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
汪小菲再懟親媽?馬筱梅哭訴房子爭(zhēng)議,張?zhí)m一張健身照回?fù)?>
    </a>
        <h3>
      <a href=小娛樂悠悠
2026-04-19 09:30:20
“二號(hào)人物”已交代!民進(jìn)黨栽贓甩鍋,鄭麗文發(fā)出怒吼:跟他拼了

“二號(hào)人物”已交代!民進(jìn)黨栽贓甩鍋,鄭麗文發(fā)出怒吼:跟他拼了

米果說識(shí)
2026-04-18 16:56:33
正式離開,告別德甲首季,扣除掉上繳乒協(xié),樊振東薪水還剩多少?

正式離開,告別德甲首季,扣除掉上繳乒協(xié),樊振東薪水還剩多少?

林子說事
2026-04-18 15:43:32
西班牙、巴西、墨西哥發(fā)表聯(lián)合聲明

西班牙、巴西、墨西哥發(fā)表聯(lián)合聲明

環(huán)球時(shí)報(bào)國際
2026-04-19 08:22:53
曝烏克蘭突襲攻入俄羅斯領(lǐng)土!控制庫爾斯克5塊陣地

曝烏克蘭突襲攻入俄羅斯領(lǐng)土!控制庫爾斯克5塊陣地

項(xiàng)鵬飛
2026-04-16 19:16:05
1億買下廣州恒大!許家印最擅長的卻是打籃球:45分比賽他砍30分

1億買下廣州恒大!許家印最擅長的卻是打籃球:45分比賽他砍30分

風(fēng)過鄉(xiāng)
2026-04-19 08:58:14
小米 YU9 要來了,外觀真的猛!

小米 YU9 要來了,外觀真的猛!

花果科技
2026-04-17 13:44:41
利物浦新援" bolt from the blue ":一次打滑毀掉世界杯

利物浦新援" bolt from the blue ":一次打滑毀掉世界杯

熱血體育社
2026-04-19 13:57:46
打了45天,伊朗終于發(fā)現(xiàn)最大敵人不是美國,不是以色列,而是他們

打了45天,伊朗終于發(fā)現(xiàn)最大敵人不是美國,不是以色列,而是他們

比利
2026-04-15 19:48:47
A股:兩個(gè)重要消息落地,明天,周一行情要變了?

A股:兩個(gè)重要消息落地,明天,周一行情要變了?

明心
2026-04-19 12:00:54
榮耀奪冠、機(jī)器人半馬跑贏人類,但最關(guān)鍵的比賽不在亦莊

榮耀奪冠、機(jī)器人半馬跑贏人類,但最關(guān)鍵的比賽不在亦莊

華爾街見聞官方
2026-04-19 10:47:36
周里京,那個(gè)橫跨八九十年代的影壇大帥哥,我已經(jīng)快認(rèn)不出你來了

周里京,那個(gè)橫跨八九十年代的影壇大帥哥,我已經(jīng)快認(rèn)不出你來了

冰咖
2026-04-18 17:23:41
約羅或失曼聯(lián)主力位置,傷勢(shì)不重仍恐失寵!100萬鐵衛(wèi)打動(dòng)卡里克

約羅或失曼聯(lián)主力位置,傷勢(shì)不重仍恐失寵!100萬鐵衛(wèi)打動(dòng)卡里克

羅米的曼聯(lián)博客
2026-04-19 09:57:57
越南高鐵訂單給了德國,蘇林來中國為何還要坐10多個(gè)小時(shí)高鐵?

越南高鐵訂單給了德國,蘇林來中國為何還要坐10多個(gè)小時(shí)高鐵?

小嵩
2026-04-18 09:37:40
當(dāng)初那個(gè)13歲“喜當(dāng)?shù)钡挠泻ⅲ?7年過去了,現(xiàn)狀令人唏噓

當(dāng)初那個(gè)13歲“喜當(dāng)?shù)钡挠泻ⅲ?7年過去了,現(xiàn)狀令人唏噓

談史論天地
2026-04-09 18:50:03
香港青衣區(qū)交通事故致12人受傷,76歲司機(jī)涉嫌危險(xiǎn)駕駛被調(diào)查

香港青衣區(qū)交通事故致12人受傷,76歲司機(jī)涉嫌危險(xiǎn)駕駛被調(diào)查

新京報(bào)
2026-04-19 11:54:13
40多歲的徐百慧,人高馬大,為人低調(diào)的她目前婚姻狀態(tài)從未公開!

40多歲的徐百慧,人高馬大,為人低調(diào)的她目前婚姻狀態(tài)從未公開!

手工制作阿殲
2026-04-19 14:20:56
湖北農(nóng)民被蛇群“追殺”5年,死后墳?zāi)棺兂缮邏?,他?dāng)年做了啥?

湖北農(nóng)民被蛇群“追殺”5年,死后墳?zāi)棺兂缮邏?,他?dāng)年做了啥?

神奇故事
2026-04-12 23:54:08
遇到“愛養(yǎng)花的奇葩鄰居”,真是要?dú)鈮牧?,曬給大家看看,您評(píng)理

遇到“愛養(yǎng)花的奇葩鄰居”,真是要?dú)鈮牧?,曬給大家看看,您評(píng)理

奇葩游戲醬
2026-04-19 11:52:41
烏克蘭拆解俄軍導(dǎo)彈:確認(rèn)朝鮮制造,焊接技術(shù)落后50年仍在實(shí)戰(zhàn)

烏克蘭拆解俄軍導(dǎo)彈:確認(rèn)朝鮮制造,焊接技術(shù)落后50年仍在實(shí)戰(zhàn)

桂系007
2026-04-17 16:34:16
2026-04-19 14:52:49
社會(huì)學(xué)研究雜志 incentive-icons
社會(huì)學(xué)研究雜志
《社會(huì)學(xué)研究》官方帳號(hào)
1099文章數(shù) 954關(guān)注度
往期回顧 全部

科技要聞

50分26秒破人類紀(jì)錄!300臺(tái)機(jī)器人狂飆半馬

頭條要聞

牛彈琴:伊朗遭到特朗普"羞辱"被激怒 結(jié)果印度遭了殃

頭條要聞

牛彈琴:伊朗遭到特朗普"羞辱"被激怒 結(jié)果印度遭了殃

體育要聞

湖人1比0火箭:老詹比烏度卡像教練

娛樂要聞

張?zhí)鞇墼u(píng)論區(qū)淪陷!被曝卷入小三風(fēng)波

財(cái)經(jīng)要聞

華誼兄弟,8年虧光85億

汽車要聞

29分鐘大定破萬 極氪8X為什么這么多人買?

態(tài)度原創(chuàng)

親子
游戲
藝術(shù)
健康
公開課

親子要聞

不能隱瞞爸爸媽媽的四件事兒

穿越還是刪帖?《GTA6》五年前預(yù)言帖被扒:網(wǎng)友吵翻天

藝術(shù)要聞

當(dāng)代著名畫家 | 全山石人物油畫23幅

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版