Python分析《演員請(qǐng)就位2》的45萬(wàn)條彈幕,看看大家都在吐槽些什么

出品:CDA數(shù)據(jù)分析師
作者:Mika
數(shù)據(jù):真達(dá)
后期:Mika
大家好,歡迎來(lái)到Crossin的編程教室!
最近開播的國(guó)綜里面,熱度最高的一定是《演員請(qǐng)就位》了。從第一季起這部綜藝就話題不斷,金句頻出,前有李誠(chéng)儒老師的“如坐針氈,如芒刺背,如鯁在喉”;這一季,李誠(chéng)儒老師再出金句,“味同嚼蠟,味如雞肋,如此乏味”一度刷爆網(wǎng)絡(luò)。
?

《演員請(qǐng)就位2》導(dǎo)師方面,除了上一季的陳凱歌、趙薇、郭敬明,還有這季加入的爾冬升導(dǎo)演,陣容上就十分有看點(diǎn)。參加的演員方面也有胡杏兒、黃奕、婁藝瀟等熟悉的身影。
?

《演員2》一開播就熱搜話題不斷,無(wú)論是李誠(chéng)儒老師、爾冬升導(dǎo)演的犀利點(diǎn)評(píng),郭敬明給演技小白何昶希發(fā)S卡都能引起大量的討論。

我們今天就用Python分析了《演員2》的視頻彈幕,看看大家都在吐槽些什么。
01
豆瓣6.5分 《演員2》為啥令人失望?
?
《演員請(qǐng)就位》目前為止已經(jīng)播出了兩季,第一季在豆瓣為6.8分,共有4萬(wàn)余人評(píng)分。

而目前正在播出的第二季,已有1萬(wàn)9千多人評(píng)分,分?jǐn)?shù)為6.5分,比上一季還低了0.3分。
?

分?jǐn)?shù)占比
?
我們用Python分析了豆瓣的500條熱評(píng)數(shù)據(jù),從評(píng)分分布可以看到:

分?jǐn)?shù)占比方面,37%的人給出1星,20.8%的人給出2星。給出5星好評(píng)的僅有5%。
?
豆瓣短評(píng)
?
那么短評(píng)中都在說些什么呢?

從評(píng)價(jià)詞云圖中可見,話題主要集中在郭敬明、爾冬升、陳凱歌、李誠(chéng)儒幾位嘉賓上。這也是《演員2》被詬病的一點(diǎn),嘉賓導(dǎo)師比參賽的演員更出圈,更有話題。此外,"節(jié)目"、"演技"、"點(diǎn)評(píng)"等也是短評(píng)中常出現(xiàn)的。
?
導(dǎo)演提及
幾位嘉賓導(dǎo)師中,誰(shuí)被提到的次數(shù)最多呢?

進(jìn)一步分析可見,郭敬明占據(jù)著最高的話題度,其次是爾冬升和陳凱歌。
?
導(dǎo)演評(píng)價(jià)

02
分析45萬(wàn)條彈幕數(shù)據(jù),看看大家都在吐槽什么
?
我們使用Python獲取并分析了《演員請(qǐng)就位2》的騰訊彈幕數(shù)據(jù),分析了目前播放的前五期。
?
彈幕數(shù)據(jù)獲取 數(shù)據(jù)讀入和數(shù)據(jù)預(yù)處理 數(shù)據(jù)可視化
1.1? 數(shù)據(jù)讀入
首先導(dǎo)入所需庫(kù)。
#?導(dǎo)入庫(kù)
import?os??
import?jieba
import?numpy?as?np
import?pandas?as?pd?
from?pyecharts.charts?import?Bar,?Pie,?Line,?WordCloud,?Page
from?pyecharts?import?options?as?opts?
from?pyecharts.globals?import?SymbolType,?WarningType
WarningType.ShowWarning?=?False
import?stylecloud
from?IPython.display?import?Image?#?用于在jupyter?lab中顯示本地圖
使用pandas循環(huán)讀取數(shù)據(jù)。
#?讀入數(shù)據(jù)
data_list?=?os.listdir('../data/')
df_all?=?pd.DataFrame()
for?i?in?data_list:
#?????print(i)?
????df_one?=?pd.read_csv(f'../data/{i}',?engine='python',?encoding='utf-8',?index_col=0)?
????df_all?=?df_all.append(df_one,?ignore_index=False)
df_all.info()?
<class?'pandas.core.frame.DataFrame'>
Int64Index:?449762?entries,?0?to?44317
Data?columns?(total?7?columns):
?#???Column??????Non-Null?Count???Dtype?
---??------??????--------------???-----?
?0???episodes????449762?non-null??object
?1???comment_id??449762?non-null??int64?
?2???oper_name???183066?non-null??object
?3???vip_degree??449762?non-null??int64?
?4???content?????449762?non-null??object
?5???time_point??449762?non-null??int64?
?6???up_count????449762?non-null??int64?
dtypes:?int64(4),?object(3)
memory?usage:?27.5+?MB
共獲取了前五期449762條彈幕數(shù)據(jù)。字段主要包括:期數(shù)、評(píng)論id、用戶名、vip等級(jí)、評(píng)論內(nèi)容、評(píng)論時(shí)間點(diǎn)和點(diǎn)贊數(shù),數(shù)據(jù)預(yù)覽如下:
df_all.head()?

1.2 數(shù)據(jù)預(yù)處理
#?刪除彈幕角色
df_all['content']?=?df_all['content'].str.replace('(.*?:)',?'')
df_all.head()?

1.3 數(shù)據(jù)可視化
彈幕走勢(shì)圖

先看到視頻彈幕走勢(shì)圖,從數(shù)量上可以看到,彈幕數(shù)量前三的分別是:第一期上、第三期上、第五期上。而第一期下和第五期下的彈幕較少。
?
df_epinum?=?df_all['episodes'].value_counts().reset_index()
df_epinum['num']?=?[1,?5,?3,?7,?6,?8,?4,?9,?2,?10]
df_epinum?=?df_epinum.sort_values('num')?
df_epinum

x_data?=?df_epinum['index'].tolist()
y_data?=?df_epinum['episodes'].tolist()
#?條形圖
bar1?=?Bar(init_opts=opts.InitOpts(width='1350px',?height='750px'))
bar1.add_xaxis(xaxis_data=x_data)
bar1.add_yaxis('',?y_axis=y_data)
bar1.set_global_opts(title_opts=opts.TitleOpts(title='前五期的彈幕數(shù)走勢(shì)圖'),?
?????????????????????visualmap_opts=opts.VisualMapOpts(max_=60000,?is_show=False)?
????????????????????)
bar1.render()?
人物彈幕詞云
?
我們接著再分別看到幾位導(dǎo)演導(dǎo)師的彈幕詞云。

?
03
《演員2》嘉賓微博熱度動(dòng)態(tài)圖
最后我們看看《演員2》幾位導(dǎo)師和嘉賓的微博熱度動(dòng)態(tài)圖。
_往期文章推薦_




