我們分析了《演員請(qǐng)就位2》的45萬(wàn)條彈幕,看看大家都在吐槽些什么

Show me data,用數(shù)據(jù)說(shuō)話
今天我們聊一聊 《演員請(qǐng)就位2》
點(diǎn)擊下方視頻,先睹為快:
最近開(kāi)播的國(guó)綜里面,熱度最高的一定是《演員請(qǐng)就位》了。從第一季起這部綜藝就話題不斷,金句頻出,前有李誠(chéng)儒老師的“如坐針氈,如芒刺背,如鯁在喉”;這一季,李誠(chéng)儒老師再出金句,“味同嚼蠟,味如雞肋,如此乏味”一度刷爆網(wǎng)絡(luò)。

《演員請(qǐng)就位2》導(dǎo)師方面,除了上一季的陳凱歌、趙薇、郭敬明,還有這季加入的爾冬升導(dǎo)演,陣容上就十分有看點(diǎn)。參加的演員方面也有胡杏兒、黃奕、婁藝瀟等熟悉的身影。

《演員2》一開(kāi)播就熱搜話題不斷,無(wú)論是李誠(chéng)儒老師、爾冬升導(dǎo)演的犀利點(diǎn)評(píng),郭敬明給演技小白何昶希發(fā)S卡都能引起大量的討論。

我們今天就用Python分析了《演員2》的視頻彈幕,看看大家都在吐槽些什么。
01
豆瓣6.5分 《演員2》為啥令人失望?
《演員請(qǐng)就位》目前為止已經(jīng)播出了兩季,第一季在豆瓣為6.8分,共有4萬(wàn)余人評(píng)分。

而目前正在播出的第二季,已有1萬(wàn)9千多人評(píng)分,分?jǐn)?shù)為6.5分,比上一季還低了0.3分。

分?jǐn)?shù)占比
我們用Python分析了豆瓣的500條熱評(píng)數(shù)據(jù),從評(píng)分分布可以看到:

分?jǐn)?shù)占比方面,37%的人給出1星,20.8%的人給出2星。給出5星好評(píng)的僅有5%。
豆瓣短評(píng)
那么短評(píng)中都在說(shuō)些什么呢?

從評(píng)價(jià)詞云圖中可見(jiàn),話題主要集中在郭敬明、爾冬升、陳凱歌、李誠(chéng)儒幾位嘉賓上。這也是《演員2》被詬病的一點(diǎn),嘉賓導(dǎo)師比參賽的演員更出圈,更有話題。此外,"節(jié)目"、"演技"、"點(diǎn)評(píng)"等也是短評(píng)中常出現(xiàn)的。
導(dǎo)演提及
幾位嘉賓導(dǎo)師中,誰(shuí)被提到的次數(shù)最多呢?

進(jìn)一步分析可見(jiàn),郭敬明占據(jù)著最高的話題度,其次是爾冬升和陳凱歌。
導(dǎo)演評(píng)價(jià)

在對(duì)導(dǎo)演和主持嘉賓的評(píng)價(jià)也十分有意思,對(duì)郭敬明的差評(píng)達(dá)到60.66%,超過(guò)的半數(shù),好評(píng)僅為14.22%。這與爾冬升的評(píng)價(jià)差距很大,后者的差評(píng)僅為28.83%,好評(píng)度也是最高的,達(dá)到了29.73%。而有趣的是,作為主持人的大鵬差評(píng)度居然比郭敬明還高,達(dá)到了67.27%。
02
分析45萬(wàn)條彈幕數(shù)據(jù),看看大家都在吐槽什么
我們使用Python獲取并分析了《演員請(qǐng)就位2》的騰訊彈幕數(shù)據(jù),分析了目前播放的前五期。
-
彈幕數(shù)據(jù)獲取 -
數(shù)據(jù)讀入和數(shù)據(jù)預(yù)處理
-
數(shù)據(jù)可視化
1.1 數(shù)據(jù)讀入
首先導(dǎo)入所需庫(kù)。
# 導(dǎo)入庫(kù)
import os
import jieba
import numpy as np
import pandas as pd
from pyecharts.charts import Bar, Pie, Line, WordCloud, Page
from pyecharts import options as opts
from pyecharts.globals import SymbolType, WarningType
WarningType.ShowWarning = False
import stylecloud
from IPython.display import Image # 用于在jupyter lab中顯示本地圖
使用pandas循環(huán)讀取數(shù)據(jù)。
# 讀入數(shù)據(jù)
data_list = os.listdir('../data/')
df_all = pd.DataFrame()
for i in data_list:
# print(i)
df_one = pd.read_csv(f'../data/{i}', engine='python', encoding='utf-8', index_col=0)
df_all = df_all.append(df_one, ignore_index=False)
df_all.info()
<class 'pandas.core.frame.DataFrame'>
Int64Index: 449762 entries, 0 to 44317
Data columns (total 7 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 episodes 449762 non-null object
1 comment_id 449762 non-null int64
2 oper_name 183066 non-null object
3 vip_degree 449762 non-null int64
4 content 449762 non-null object
5 time_point 449762 non-null int64
6 up_count 449762 non-null int64
dtypes: int64(4), object(3)
memory usage: 27.5+ MB
共獲取了前五期449762條彈幕數(shù)據(jù)。字段主要包括:期數(shù)、評(píng)論id、用戶名、vip等級(jí)、評(píng)論內(nèi)容、評(píng)論時(shí)間點(diǎn)和點(diǎn)贊數(shù),數(shù)據(jù)預(yù)覽如下:
df_all.head()

1.2 數(shù)據(jù)預(yù)處理
# 刪除彈幕角色
df_all['content'] = df_all['content'].str.replace('(.*?:)', '')
df_all.head()

1.3 數(shù)據(jù)可視化
彈幕走勢(shì)圖

先看到視頻彈幕走勢(shì)圖,從數(shù)量上可以看到,彈幕數(shù)量前三的分別是:第一期上、第三期上、第五期上。而第一期下和第五期下的彈幕較少。
df_epinum = df_all['episodes'].value_counts().reset_index()
df_epinum['num'] = [1, 5, 3, 7, 6, 8, 4, 9, 2, 10]
df_epinum = df_epinum.sort_values('num')
df_epinum

x_data = df_epinum['index'].tolist()
y_data = df_epinum['episodes'].tolist()
# 條形圖
bar1 = Bar(init_opts=opts.InitOpts(width='1350px', height='750px'))
bar1.add_xaxis(xaxis_data=x_data)
bar1.add_yaxis('', y_axis=y_data)
bar1.set_global_opts(title_opts=opts.TitleOpts(title='前五期的彈幕數(shù)走勢(shì)圖'),
visualmap_opts=opts.VisualMapOpts(max_=60000, is_show=False)
)
bar1.render()
人物彈幕詞云
我們接著再分別看到幾位導(dǎo)演導(dǎo)師的彈幕詞云。

03
《演員2》嘉賓微博熱度動(dòng)態(tài)圖
最后我們看看《演員2》幾位導(dǎo)師和嘉賓的微博熱度動(dòng)態(tài)圖。

推薦閱讀
(點(diǎn)擊標(biāo)題可跳轉(zhuǎn)閱讀)
點(diǎn)擊閱讀原文,積分可以免費(fèi)換書(shū)
