微博特定群體用戶關系網(wǎng)絡可視化月小水長關注共 839字,需瀏覽 2分鐘 ·2021-10-13 20:11 ? ? 點擊上方?月小水長?并?設為星標,第一時間接收干貨推送這是?月小水長?的第?87?篇原創(chuàng)干貨目前公眾號平臺改變了推送機制,點“贊”、點“在看”、添加過“星標”的同學,都會優(yōu)先接收到我的文章推送,所以大家讀完文章后,記得點一下“在看”和“贊”。本篇可以說是給微博爬蟲系列開了一個小方向,抓取微博特定用戶的關注信息,并做了一定的可視化工作。下面以抓取明星關注為例,闡述從抓取數(shù)據(jù),到關系網(wǎng)絡的構造,最后使用 gephi 可視化的全流程。第一步,以一個給定的明星 uid 為起點,爬取它的關注,接著爬關注的關注...從形式上看是一個遞歸的網(wǎng)絡,所以設計了一個遞歸的爬蟲,可以指定抓取指定的層數(shù),斷網(wǎng)或其他出錯可以從上次爬到的地方繼續(xù);一般來說 3 層就非常多,以一個明星關注 100 個明星為例,第一層只有起點明星,第二層有 100 個明星,第三層就有 10000 個明星了,我使用楊冪的 uid 為起點,抓取 3 層網(wǎng)絡,實測抓到了 2w+ 明星,20w+ 對明星關注關系,最后隨機抽了 5000 條關注關系,2000 余明星。第二步,根據(jù)上一步得到的數(shù)據(jù)構造關系矩陣,方便 gephi 可視化輸入。這個關系矩陣需要兩個 csv 文件表示,一個節(jié)點 nodes.csv 文件,另一個邊表 edges.csv 文件。如下圖所示。節(jié)點表邊表nodes.csv 四個字段,Id 即該明星的微博 UserId,Weight 是在關系網(wǎng)絡中被關注的次數(shù),class 是 louvain 聚類的結果。edges.csv 三個字段,邊的起點、終點、權重。第三步,把數(shù)據(jù)導入 gephi,一頓點點點的操作后,可視化圖形就出來了。全景圖局部放大圖 瀏覽 115點贊 評論 收藏 分享 手機掃一掃分享分享 舉報 評論圖片表情視頻評價全部評論推薦 零配置構建微博用戶關系網(wǎng)絡的網(wǎng)站也來了月小水長0實時構建 B 站用戶關系網(wǎng)絡月小水長0網(wǎng)絡、群體與市場過去十年來,現(xiàn)代社會中復雜的連通性向公眾展現(xiàn)出與日俱增的魅力。這種連通性在許多方面都有體現(xiàn)并發(fā)揮著強網(wǎng)絡、群體與市場網(wǎng)絡、群體與市場0科研分享|一個論文關系網(wǎng)絡可視化網(wǎng)站生信寶典0微博網(wǎng)絡(香港)有限公司登記狀態(tài)存續(xù)工商注冊號1481854參保人數(shù)02020微博用戶發(fā)展報告產(chǎn)品劉0【開放源代碼】微博搜索用戶爬蟲月小水長0微博評論在線分析可視化上線月小水長0零配置構建微博多層轉發(fā)網(wǎng)絡可視化的網(wǎng)站來了月小水長0點贊 評論 收藏 分享 手機掃一掃分享分享 舉報