如何通過文本挖掘進行品牌分析
大家好,我是寶器!
毛主席說過“沒有調(diào)查就沒有發(fā)言權(quán)”。但傳統(tǒng)的調(diào)研需要花費大量的時間進行問卷調(diào)研與用戶訪談。在“客戶為王”的市場競爭環(huán)境下,企業(yè)只有更快、更好的響應(yīng)客戶需求,才能提升客戶感知,保證客戶滿意度,從而促進企業(yè)價值及收益。
我們?yōu)槠髽I(yè)進行的客戶聲音管理項目,就是通過多個渠道傾聽客戶關(guān)于產(chǎn)品或服務(wù)的需求、投訴、建議等,通過自動化的手段分析問題、解決問題,從而為客戶提供更好的服務(wù)體驗。
通過這篇文章,想和大家分享的是,隨著各種內(nèi)容平臺的興起,結(jié)合文本挖掘技術(shù),挖掘、分析產(chǎn)品的評分與評論,將是我們聆聽市場聲音非常有效的途徑。
在之前的文章《商業(yè)分析中,如何進行文本挖掘(上)》中介紹了,大數(shù)據(jù)文本挖掘作為市場調(diào)研、客戶體驗管理的一種補充手段,可以幫助企業(yè)完成諸如“消費者情緒識別”、“售前支持”、“購買信號”、“發(fā)掘意見領(lǐng)袖”等信息的挖掘。
前文當時引起了一些品牌方、新媒體、咨詢公司、產(chǎn)品經(jīng)理的濃厚興趣,強烈希望筆者繼續(xù)對分析方法和應(yīng)用場景做進一步的闡述。
為了響應(yīng)大家的需求,本文以特斯拉Model3口碑分析為例,介紹文本挖掘的實際應(yīng)用場景以及流程。文章內(nèi)容較長,建議大家先收藏,即使閱讀被中斷也能快速找到,需要時也可以作為工具書。

圖片來源于網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除
1.數(shù)據(jù)準備
1.1明確分析目標
在做分析之前我們首先要明確分析目標,本次Model3口碑研究我們希望了解Model3的產(chǎn)品體驗表現(xiàn),主要探索如下三個方面:
了解Model3車主的購車目的,分析車主的主要使用場景
了解Model3車主的購買決策因素,例如科技感、牌照難搖、泡妞有排面、信仰
Model3車主客戶體驗評價:從空間、動力、操控等八個維度分析客戶評價,挖掘產(chǎn)品槽點,結(jié)合競品的優(yōu)劣勢,探索后續(xù)機會點
1.2數(shù)據(jù)采集與處理
明確目標之后就開始數(shù)據(jù)采集,行業(yè)垂直類社區(qū)是數(shù)據(jù)采集的主要渠道。本文通過對汽車領(lǐng)域垂直類社區(qū)“汽車X家”進行Python爬蟲,獲取了用戶口碑評價的大量文本數(shù)據(jù)。爬蟲數(shù)據(jù)僅用于學術(shù)研究,不用于其他任何商業(yè)用途。
數(shù)據(jù)是通過網(wǎng)絡(luò)爬蟲的手段獲取到的,這里順帶分享下爬蟲技巧。汽車X家為了保護汽車口碑評價內(nèi)容,針對爬蟲進行了相應(yīng)的反爬處理。主要和大家分享三點爬蟲經(jīng)驗。
第一點,網(wǎng)頁內(nèi)存在“字體反爬”,需要從每個頁面中獲取對應(yīng)的字體文件來解密反爬文字。
第二點,APP和PC端會被重點反爬,手機WEB端反爬能力較弱可相對輕松的獲取數(shù)據(jù)。
第三點,無需直接在HTML中爬取數(shù)據(jù),可直接通過分析接口來爬取數(shù)據(jù)。

這里不對爬蟲進行深入展開,有興趣的同學可以私下交流討論。
1.3數(shù)據(jù)分析工具
俗話說,工欲善其事必先利其器,比如針對全網(wǎng)輿情可以使用百度指數(shù)和微輿情。而文本分析則需要按分析目的進行工具選擇。比如:
SnowNLP可進行中文分詞、詞性標注、情感分析、文本相似。
Jieba可進行中文分詞、關(guān)鍵詞提取、文本分類。
HarvestTEXT可進行文本清洗、情感分析、關(guān)系網(wǎng)絡(luò)分析。
2. Model 3 產(chǎn)品體驗研究
2.1 Model3車主的購車目的分析
消費者購車的主要目的是什么,汽車廠商都非常關(guān)注。本文共挑選了5款Model 3的競品車型,其中新能源車型包括“比亞迪-漢”、“小鵬汽車P7”,燃油車車型包括“奧迪A4L”、“寶馬3系”、“奔馳C級”。
通過對這六款車型的消費者口碑評價中的“購車目的”進行統(tǒng)計分析,確定各個車型的購買目的,同時驗證各自產(chǎn)品定位與消費者認知是否一致,以及確認是否需要調(diào)整宣傳推廣策略。
本文采用了汽車X家提供的13種購車使用場景,分別是改裝玩車、購物 、接送小孩、拉貨、跑長途 、賽車 、商務(wù)差旅、上下班、網(wǎng)約車、約會、越野、自駕游、組車隊。

通過對6款車型的使用場景進行分析,發(fā)現(xiàn)新能源車相比BBA燃油車更多用于“上下班”、“接送小孩”、“購物”,這點主要由于新能源車在城市區(qū)域內(nèi)較低的用車成本。三款BBA燃油車型相比電動車更廣泛用于長距離的場景,例如“跑長途”、“商務(wù)差旅”、“拉貨”。對于“約會”這種場景,傳統(tǒng)BBA車型好像比新能源車更有排面。

再看Model 3的數(shù)據(jù)表現(xiàn),Model 3的車主買車似乎除了用于“上下班”,沒有明顯的使用場景傾向,Model 3只是作為燃油車之外的補充。相比同樣是電動車的“比亞迪-漢”,購車目的與傳統(tǒng)BBA燃油車基本一致,全面的場景覆蓋,屬于燃油車的替代選擇。
2.2 Model3車主的購買決策因素分析
清楚用戶購車的主要使用場景后,汽車廠商可以在后續(xù)的營銷推廣中主動設(shè)計場景,激發(fā)用戶購車的需求。此外,研究哪些關(guān)鍵因素可促使用戶下單購買,這也是售前工作順利開展的關(guān)鍵。本文通過對評論中“為什么選擇這款車”進行文本關(guān)鍵詞提取、文本多標簽分類,再通過定性與定量方法分析用戶購買決策因素。

【為什么選擇這款車】這類文本的處理十分棘手,主要難度有兩點:
首先,文本沒有明確的標簽,無法直接進行統(tǒng)計與分析。
其次,評論中可能同時存在多個意見類別,用戶的購買決策因素可能來自多個方面,具體可見下圖。

由此可見,將文本分類到若干個適當?shù)念悇e對于后續(xù)的定量分析十分關(guān)鍵。
處理此類“半結(jié)構(gòu)化”文本可以分三步實現(xiàn):
第一步,進行文本分詞與關(guān)鍵詞提取,制作一個“詞云”來大致看一下關(guān)鍵詞分布。
第二步,基于評論語料進行word2vec建模,將生成的詞向量進行DBSCAN聚類分析,提煉具有業(yè)務(wù)意義的核心因素(例如:政策牌照、用車成本、動力操控、車型外觀、內(nèi)飾、舒適性等)。
第三步,人工對部分文本進行分類打標,基于標簽訓(xùn)練分類模型,模型訓(xùn)練完成后進行多標簽分類(Multi-Label Classification)。
接下來我們以Model3為案例,講述這三個步驟。
第一步,通過對Model3車主的評論文本進行分詞,并且進行關(guān)鍵詞提取,將TOP100關(guān)鍵詞進行分類(此處的分類需要具備相關(guān)行業(yè)與業(yè)務(wù)經(jīng)驗)。

第二步,經(jīng)過對TOP100關(guān)鍵詞進行分類后,提煉出8個一級關(guān)鍵詞“外觀”、“內(nèi)飾”、“動力操控”、“空間”、“性價比”、“用車成本”、“品牌口碑”、“相關(guān)政策”,以及所有一級關(guān)鍵詞所對應(yīng)相關(guān)詞。

為了盡可能全面的找到購車決策8大因素所對應(yīng)的相關(guān)詞,可以在word2vec建模所訓(xùn)練的語料庫中進行相關(guān)詞檢索。根據(jù)詞相關(guān)性系數(shù)結(jié)合業(yè)務(wù)經(jīng)驗,挑選出相關(guān)詞關(guān)聯(lián)至對應(yīng)的一級關(guān)鍵詞。

第三步,對Model 3及5款競品車型“為什么選擇這款車”的5414條文本進行FastText多標簽分類,模型的整體準確率達到92%,召回率達到75%,F(xiàn)1-socre達到0.83。模型的分類效果表現(xiàn)較好,人工復(fù)查后準確性也不錯。

通過以上三個步驟,把數(shù)據(jù)實現(xiàn)了結(jié)構(gòu)化,接著展開定量統(tǒng)計分析。對各個車型“為什么選擇這款車”的原因進行“交叉列聯(lián)分析”,得到如下結(jié)果。

6款車型的購車主要因素前三分別為“外觀”、“性價比”、“動力控制”,可見顏值從來都是買車的重中之重。對8個因素進行對比分析,發(fā)現(xiàn)Model 3車主購買決策的因素相對均衡,沒有一項因素是消費者一致認同的購車原因。
Model 3相比傳統(tǒng)BBA燃油車,動力控制是購買Model 3的關(guān)鍵因素,直觀的推背感與便捷的輔助駕駛給用戶帶來獨特的用車體驗,這點是同價位BBA燃油車所不能給的。同時,地區(qū)性的牌照限制、購置稅補貼方案、用車成本這三個因素也是大多數(shù)消費者購買新能源汽車而非燃油車根本因素。
以下是關(guān)于地區(qū)性的牌照限制因素的用戶原話:
省錢、節(jié)能、環(huán)保、不限行、需要一臺性能較好的車子。
主要是深圳拍藍牌太貴,第二個是用車成本低,沒有購置稅,加上政府補貼,覺得不錯就買了。
因為只有電車指標,只看了漢、小鵬、i3,結(jié)果試駕了Model3就中毒了,外觀,新鮮的內(nèi)飾和良好的操控。
Model 3相比同為新能源的小鵬P7與比亞迪漢,消費者更關(guān)注的是品牌口碑,特斯拉是打開消費者對新能源車認知的品牌,他給年輕消費者營造了一個電動車夢。購買國產(chǎn)新能源品牌的用戶,普遍認同“外觀、性價比、動力控制”是他們購買的主要因素,一致性程度甚至超過傳統(tǒng)BBA燃油車??梢妵a(chǎn)新能源車在同價位車型競爭中要想脫穎而出,需要更好地修煉內(nèi)功,以汽車的外觀與動力控制為首要發(fā)展方向。
以下是選擇Model 3用戶的原話:
沒考慮過其他品牌,畢竟新能源選擇面窄,而特斯拉是新能源車中的算是先來者吧,品牌效益也是選擇這款車的很大一部分原因。
在眾多新能源車選中一輛應(yīng)該源自于對高科技的崇拜,以及試駕中一腳電門帶來的加速感。
2.3 Model3車主用戶體驗評價
幾乎沒有消費者是因為空間體驗而購買Model 3,或許這也是Model Y推出的主要原因。下面本文將從空間、動力、操控、能耗、舒適性、外觀、內(nèi)飾、性價比八個維度的分析,探索用戶主要槽點,為后續(xù)迭代提供建議。
傳統(tǒng)調(diào)研通常會針對產(chǎn)品或服務(wù)設(shè)計量表進行滿意度測評。然而用戶有時候也很難去量化自己的滿意程度,此時借助文本挖掘技術(shù),基于用戶評論的關(guān)鍵情感詞匯與語氣副詞的情感得分,可以作為滿意度評價的一種補充。
例如:Model 3車主對于空間的一段評價:“座椅數(shù)據(jù)不短,但乘坐感受太差,可能和硬有關(guān),也可能和腰部支撐有關(guān),反正膝蓋下面懸空,不舒服;后排空間嘛,對不起那個軸距,座椅還有點矮,所以后排不太舒服,適合孩子”。“不舒服、感受差、硬、矮”等形容詞決定了情感方向是正向還是負向,“太、有點、超級”等副詞決定了情感的程度。
針對產(chǎn)品某一類維度的文本評價,自然語言處理神器HarvestText庫,通過挑選出若干積極種子詞(positive_seeds)與消極種子詞(negitive_seeds),能夠較為準確的計算出用戶評論的情感得分。
以Model 3吐槽最多的“空間”為例,將所有車主關(guān)于“空間”的評價導(dǎo)入微詞云進行分詞,可以挑選出符合要求的高頻種子詞匯,如下圖。其中有關(guān)“空間”的積極種子詞包括“滿意、寬敞、很大、舒服、舒適、充足、夠用、足夠等”,消極種子詞包括“擁擠、壓抑、不大、不足、憋屈、尷尬、壓力、局促、難受”。然后根據(jù)積極種子詞與消極種子詞,計算有關(guān)“空間”評論文本的情感得分值。本文通過處理空間、動力、操控、能耗、舒適性、外觀、內(nèi)飾、性價比8個緯度的評論文本,以此方式分別計算各個維度的情感得分。

從Model 3競品車型各維度體驗情感得分可以發(fā)現(xiàn),消費者對于Model3的“動力與操控”評價遠高于其余5款車型,但“空間”、“舒適性”、“內(nèi)飾”卻處于墊底水平,頻繁被消費者所吐槽。

空間上后排空間過于擁擠,儲物空間設(shè)計不合理。
舒適性上隔音效果差,避震效果不佳。
內(nèi)飾上新車味道大,百度地圖的導(dǎo)航體驗不佳。


3.結(jié)論

推薦閱讀
歡迎長按掃碼關(guān)注「數(shù)據(jù)管道」
