<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          二次元屬性被稀釋,B站還剩什么?| 數(shù)據(jù)分析

          共 3717字,需瀏覽 8分鐘

           ·

          2020-03-03 23:25

          本文為HeoiJin原創(chuàng)投稿文章,歡迎更多讀者投稿!


          作者簡介
          HeoiJin:立志透過數(shù)據(jù)看清世界的產品策劃,專注爬蟲、數(shù)據(jù)分析、產品策劃領域。
          萬物皆營銷 | 資本永不眠 | 數(shù)據(jù)恒真理
          CSDN:https://me.csdn.net/weixin_40679090


          本篇目錄

          51ad7806f01006b511c0836c6fb3d584.webp


          一、前言

          本篇章為《二次元屬性被稀釋,B站還剩什么?》系列篇的下篇。在上篇當中我們已經完成了數(shù)據(jù)的采集,那么本篇將著重對采集到的數(shù)據(jù)進行對比分析及可視化。

          PS:由于篇幅關系,本文僅展示核心代碼,詳細源代碼可移步至文末Github地址或閱讀原文。


          二、項目特色

          1. 利用pandas庫對數(shù)據(jù)進行分類聚合
          2. 利用pyecharts和帆某的Bi軟件對數(shù)據(jù)進行可視化實戰(zhàn)
          3. 結合DT財經的數(shù)據(jù)分析B站2019至2020的變化

          三、項目準備

          • 語言:Python 3.7
          • IDE :Pycharm
          • 瀏覽器:Chrome
          • 插件:ChromeDriver
          • 庫:Pandas、pyecahrts、snapshot_selenium
          • 其他:Fine Bi

          四、問題定義

          4.1 關鍵詞定義

          在進行分析前,要先確認什么是二次元和三次元,具體通過什么標準進行劃分。
          二次元」一詞來自于日語「二次元(にじげん)」,本義為「二維」,引申為「在紙面、屏幕等平面上展示的動畫、游戲等作品中角色」?!?strong>三次元(さんじげん)」也被引申用來指現(xiàn)實中的人物?!饶锇倏?strong>二次元:動畫(Animations即ACG的A)、漫畫(Comics即ACG的C)、游戲(Games即ACG的G)。三次元:現(xiàn)實世界?!S基百科

          即在爬取的所有分區(qū)當中,可以明顯歸類為二/三次元的分區(qū)分別是:二次元:動畫、國創(chuàng)相關、游戲
          三次元:科技、數(shù)碼、生活、時尚、娛樂
          其余的鬼畜、舞蹈、音樂、影視則因為兼?zhèn)涠卧腿卧膶傩裕x為2.5次元[滑稽]。

          4.2 確立目標

          完成對分區(qū)進行屬性劃分之后,就可以開始確立研究目標:
          • 分析B站綜合評分前100中,什么分區(qū)是占比最多?用戶在不同分區(qū)的行為情況如何。
          • 分析B站各分區(qū)情況,找出各分區(qū)的播放量情況及用戶行為情況
          • 分析熱門標簽變化
          • 針對B站變化,洞悉背后的行為和心理本質

          五、數(shù)據(jù)分析實戰(zhàn)

          5.1 數(shù)據(jù)預清洗

          在進入正式的分析之前,先使用 df.info()了解下抓取到的數(shù)據(jù)情況。
          79cad14d4efa7aa10f99a9d9f1a9de36.webp通過上面打印數(shù)據(jù)可看出:共有14列、1300行,沒有缺失值。但要注意的是,這里我們先把全站榜排除在外,避免重復計算,后面的分析都基于下面得出的數(shù)據(jù)df_without_all。
          #波浪線~表示不選取該部分df_without_all=df[~df['rank_tab'].isin(['全站'])]

          5.2?全站綜合評分top100系列

          5.2.1各分區(qū)占比情況可視化

          數(shù)據(jù)處理思路及核心代碼:
          • 對df_without_all按綜合評分降序,切片取前100項
          • 獲取分區(qū)名列,統(tǒng)計每個分區(qū)出現(xiàn)次數(shù)

          cb37fea646424fdb56cd933fdf3233c2.webp得到一個分區(qū)名為index,頻次為values的Series。


          d29879cde215eaf4e2e12c9b93a0345f.webp

          接下來使用pyecahrts的玫瑰圖進行可視化處理。
          相比于Excel或者Fine Bi,pyecahrts的玫瑰圖制作非常友好,而且顏值方面也不錯。
          核心代碼:
          10359909bb3068195b9502fcc0b97f98.webp

          bd706036b3ccfe566b4c290881897cfe.webp
          在未找到2019年相關播放量的官方數(shù)據(jù)情況下,暫與2018年的財報數(shù)據(jù)進行比較。
          經比對,生活、動畫的排名分別提升至第1名和2名,可以說動畫依舊是B站比較重要的一部分。
          而娛樂、游戲、科技跌出榜單,時尚、鬼畜、音樂成為新秀,總體看完全屬于二次元的視頻占比較低,僅占27%。

          5.2.2各分區(qū)平均情況數(shù)據(jù)處理

          數(shù)據(jù)處理思路及核心代碼:
          • 對df_without_all按照綜合評分進行降序排序,并獲取前100項
          • 以分類名作為行索引對DataFrame進行分組,求出平均數(shù)

          b6b8edfd581e186975c5c73cd4bfb9ff.webp
          0b68dcf40fe8fa37c0115d2beed01444.webp對數(shù)據(jù)進行處理完成之后,分為三部分進行可視化
          1. 播放情況分析
          2. 平均三連情況可視化及分析
          3. 平均評論、彈幕、轉發(fā)量情況可視化及分析

          5.2.3 平均播放量情況可視化及分析

          只需要分類名作為維度,平均播放量作為指標即可。對單維度單指標進行可視化時,可以有柱狀圖、折線圖、面積圖等多種選擇,這里我選擇其中的柱狀圖進行可視化。思路和核心代碼:
          • 獲取數(shù)據(jù),構建分類名和平均播放量的列表
          • 創(chuàng)建柱狀圖,并加入Javascript語句制作漸變色

          06507645c92f53c273ade52d61c03b24.webp

          0effe82440003ea33c9bfeb2f3c0b7ab.webp

          動畫區(qū)以微弱的優(yōu)勢超過時尚區(qū)成為平均播放量的top1,是否意味著二次元依舊是B站的主場?
          并不然,回看動畫區(qū)的詳細數(shù)據(jù),按播放量進行降序,可以看到,排名第一的《【嗶哩嗶哩2020拜年祭】》播放量是排名第二的5.74倍。
          而時尚區(qū)的前兩名僅為1.6倍,即動畫區(qū)的播放量被平均。
          a7ac7f1bf169058807e245a7ce90b2ab.webp

          5.2.4 平均三連情況可視化及分析

          投幣、 點贊和收藏行為的計量單位為人數(shù),相對于播放量以人次作為計量單位,更能精準地反映用戶喜好情況。這里使用pyecharts的雷達圖進行可視化。
          核心代碼:
          8e04ec29354cce27707c28f10a81a293.webp988eb05b6bdc1789f8d1c37cd18f9227.webp
          盡管動畫區(qū)存在黑馬視頻,但生活區(qū)平均投幣和點贊量依然高于動畫區(qū)。

          5.2.5 平均評論、彈幕、轉發(fā)量情況可視化及分析

          pyecahrts的混合圖表在代碼實現(xiàn)上復雜,比較于Fine Bi,性價比極低。因此這部分使用Fine Bi進行數(shù)據(jù)的可視化,不多贅述,直接上圖。
          b0c3b428c2ba9ada4ea341b2082f5db4.webp
          動畫區(qū)的平均彈幕量表現(xiàn)很不錯,但是評論量和分享則表現(xiàn)平平。話題性和自傳播性的高門檻,導致二次元無法如三次元一樣具有爆發(fā)性增長的能力。在部分增長速度低于整體增長速度時,必然看到B站二次元屬性被稀釋的現(xiàn)象。

          5.3 各區(qū)top100系列

          以上,只針對了綜合評分前100的數(shù)據(jù)進行初步的分析,為避免出現(xiàn)幸存者誤差的邏輯謬誤,下面將對所有分區(qū)的top100進一步的分析,并聯(lián)系DT財經數(shù)據(jù)進行對比分析。

          5.3.1數(shù)據(jù)預處理

          處理思路
          • 對df_without_all按分區(qū)名進行分類
          • 統(tǒng)計出每個分區(qū)各情況數(shù)據(jù)的均值
          • 存入csv

          39a57444d19e3b22bf66c8e53371abab.webp

          5.3.2 播放量均值情況

          思路及核心代碼:
          • 讀取分區(qū)名和播放量數(shù)據(jù)
          • 對播放量數(shù)據(jù)進行縮放
          • 繪制折線圖表

          c627126c172050f3db35b78e28a5304d.webp

          992fab50342ecbf8943c143f09439f9c.webp


          對比DT財經在2019年的數(shù)據(jù),除去我們沒有采集到放映廳、番劇、廣告分區(qū),生活區(qū)依然是B站播放量的巨頭。
          動漫區(qū)因拜年祭的火熱,由第三升至第二。值得注意的是,各分區(qū)top100的平均播放量,相對于19年的數(shù)據(jù)都有大幅度的增長,生活區(qū)熱門視頻的平均播放量翻了兩番。

          5.3.3 用戶行為數(shù)據(jù)均值對比

          pyecharts折線圖的制作方式已在上文提及,那么這部分的可視化就交由Bi軟件幫我們完成,不多展開。
          a2664250aa3c0042e05b476f4e6ad267.webp
          繼續(xù)與DT財經的數(shù)據(jù)進行對比,除去番劇、放映廳和廣告區(qū),在DT財經的各項數(shù)據(jù)指標中,幾乎是動畫區(qū)一家獨大。而到了2020年,則能看到百花齊放的現(xiàn)狀,二次元在不同指標的龍頭地位都被各三次元分區(qū)瓜分,生活區(qū)更是拿到了多數(shù)指標的頭把交椅。

          5.4 熱門標簽

          同樣在處理數(shù)據(jù)之前,先了解下數(shù)據(jù)結構是怎么樣的。
          e4df3d2ce86ddea20e83936e5b5301d0.webp
          觀察可知每一項數(shù)據(jù)里面包含了N個標簽,因此,需要將標簽列先轉化為一個無嵌套的Series,后統(tǒng)計每一個唯一標簽出現(xiàn)的次數(shù)。核心代碼:
          74d1d75c869f84c89cd083a5c9e25ac7.webp
          94af47ea168f7b6e2311b2d6c7be23bd.webp
          對比于DT財經統(tǒng)計的2019年3至4月熱門視頻的標簽頻次統(tǒng)計,歷時一年后,搞笑依然是B站熱門視頻中出現(xiàn)頻率最多的標簽,鬼畜也依舊在顯眼位置。從今年的詞云中能找到不少與生活密切關聯(lián)的標簽,有我們正在經歷的抗擊肺炎大作戰(zhàn),也有每次都訂立目標,但總是敗給吃吃吃的瘦身塑形和減肥。

          六、項目總結

          創(chuàng)立十載的B站,發(fā)展成僅APP的DAU就高達3千3百萬的大平臺。從二次元社區(qū)到綜合視頻社區(qū),原有的二次元屬性必被稀釋?;貧w到最初的問題:1、二次元屬性的稀釋情況如何?
          二次元依然是B站核心的組成部分。但從B站的商業(yè)布局來看,直播線、綜藝線、Vlog線等更多貼合生活的內容將進一步稀釋二次元屬性。2、什么分區(qū)是B站的龍頭?
          擁有更廣受眾面的生活區(qū)逐步成為B站主流,而且這種趨勢會更加明顯。在大眾傳播學提出過這么一個理論——沉默的螺旋:即大眾的更大眾,小眾的更小眾,傳播學中的馬太效應。3、B站的主流用戶喜歡什么標簽的視頻?
          搞笑依舊是B站用戶最熱愛的標簽。畢竟在殘酷的社會環(huán)境中,幽默是稀缺的資源。4、本次分析帶來什么思考?
          B站從二次元成功轉型為綜合型網站,獲得騰訊、阿里等巨頭投資成功上市,而處于寒冬的我們,也要不斷地增值升級,才能迎來暖春。最后希望B站能越來越好,不忘初心!源碼地址(或閱讀原文):https://github.com/heoijin/Bilibili-Rnak
          鄭重聲明:本項目及所有相關文章,僅用于經驗技術交流,禁止將相關技術應用到不正當途徑,因為濫用技術產生的風險與本人無關。
          參考文獻:
          1、《數(shù)據(jù)解讀 | 我們研究了B站,發(fā)現(xiàn)它很不“二次元”》-DT財經:https://mp.weixin.qq.com/s/EObWtXz1yxsZhvZQVKnk3g
          2、2020中國移動互聯(lián)網“戰(zhàn)疫”專題報告- QuestMobile2020:https://www.questmobile.com.cn/research/report-new/81
          3、產品分析報告|B站,從二次元社區(qū)到綜合視頻社區(qū)- FMR:http://www.woshipm.com/evaluating/2102696.html

          瀏覽 103
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  青草超碰| 伊人婷婷 | 天天日天天操天天日 | 成人毛片av | 欧美国产日韩激情 |