做數(shù)據(jù)分析如何從囚徒困境到合作的進化

▼
在進入正題之前,我先講一下咱今天分享的核心思想,我在一個大數(shù)據(jù)公司創(chuàng)業(yè),做了好幾個產(chǎn)品,從統(tǒng)計分析平臺,到廣告監(jiān)測平臺,再到用收集到的數(shù)據(jù)為移動設備打標簽,最后到用這些數(shù)據(jù)進行商業(yè)分析,幫助客戶增收降本。在這十年的工作中,我發(fā)現(xiàn)一個非常重要,但是很困難的職業(yè)----數(shù)據(jù)(商業(yè))分析師。
作為一個技術(shù)人員,我曾經(jīng)以為數(shù)據(jù)分析師只要會寫SQL,就可以做數(shù)據(jù)分析,但是隨著工作年限的提高,我發(fā)現(xiàn),做好數(shù)據(jù)分析的難度遠高于我的想象。我從互聯(lián)網(wǎng)上查找了一些關(guān)于“數(shù)據(jù)(商業(yè))分析師技能要求”的文章,發(fā)現(xiàn)要想當好數(shù)據(jù)(商業(yè))分析師,需要具備的能力可能遠遠超出技術(shù)人員的想象(如下圖所示)

從這個圖中,我覺得優(yōu)秀的數(shù)據(jù)分析人員,簡直就是個神的存在。從我常年在數(shù)據(jù)方面的工作而言,一個優(yōu)秀的技術(shù)人員,可以很好的掌握這里面幾項技術(shù)已經(jīng)相當不錯了。
那么,數(shù)據(jù)分析師如何成長成為這種神一樣的存在呢?我認為,除了技術(shù)性因素外,還有一個組織問題:數(shù)據(jù)分析師在企業(yè)內(nèi)承上啟下,和多個部門、組織和個人打交道,在組織里起到組織核心的作用。從“社會學”角度觀察,不同組織之間,容易出現(xiàn)“本位主義”,越大的組織,越容易陷入“囚徒困境”中。

所以,我今天想剖析一下“囚徒困境”和“純粹理想情況下的解決方案”,并給數(shù)據(jù)分析師提供一點個人建議:數(shù)據(jù)(商業(yè))分析師,應該以“幫企業(yè)更好、更快決策”為目標,尋求和下游(數(shù)據(jù)工程師團隊)、左右(其他合作部門,例如銷售、供應鏈團隊等)、上游(老板)通力合作、保持有效溝通,減輕學習的負擔,加快自身進化,最終成就了自己,也促進了企業(yè)發(fā)展。
—▼—

▼
接下來,以某全球零售餐飲連鎖企業(yè)選址的方法論為例,來講講在這個通過數(shù)據(jù)分析選址的項目中,出現(xiàn)的“囚徒困境”是如何解決的?
某全球零售餐飲連鎖企業(yè),在中國市場開一家火一家,除了特有的餐飲文化和嚴格的復制標準,還有一項在連鎖餐飲界引以為豪的競爭力——選址成功率,幾乎百分之一百的選址成功率!肯德基經(jīng)營成功的首要三大因素必然是選址、選址、選址。
“選址”對于連鎖經(jīng)營實體的重要性不言而喻,但同時也是長久以來所有實體連鎖的痛點,而且對于目標客群和商業(yè)模式并不清晰的便利店/超市連鎖而言,選址的難度更高。
傳統(tǒng)的選址作業(yè)流程主要靠人工調(diào)研和實地考察,大量及長時間周期的人工作業(yè),使得選址開發(fā)的流程過長,同時人工作業(yè)模式也存在太多的不可控性。
▼

漫長的門店開發(fā)流程,單純依靠人工管控,對于進度的管理和追蹤的難度極大。而與人口相關(guān)的各類數(shù)據(jù),如目標門店區(qū)域的到訪量、到訪年齡比例等情況需靠長時間的人工現(xiàn)場采集,成本高,而且極易出現(xiàn)核心數(shù)據(jù)缺失的狀況。
同時,手動作業(yè)處理數(shù)據(jù)不及時等因素導致信息滯后,結(jié)果缺乏相應的參考價值。下圖是PIE指標體系和應用。

▼

▼

我們知道選址,在商圈數(shù)據(jù)調(diào)研的時候,會走訪很多線下網(wǎng)點,還要采集很多線下環(huán)境數(shù)據(jù),例如人口數(shù)據(jù)。我們可能可以從高德、百度獲得這樣的熱力圖,雖然看著非常煥麗。但是在精細的選址中卻沒有鳥用。
原因:在精細的選址中,業(yè)務方需要知道某個大樓、小區(qū),甚至是小區(qū)的東門還是小區(qū)的西門人多。但是我們無法從這種圖里獲得具體的人口數(shù)字(或者指數(shù))。
所以,數(shù)據(jù)不標準,現(xiàn)場調(diào)研的數(shù)據(jù)和地圖數(shù)據(jù)無法綁定在一起。
場景:數(shù)據(jù)分析師發(fā)現(xiàn)地圖上某個區(qū)域的流量特別大。他會找數(shù)據(jù)工程師進行排查:請幫忙查一下“某酒店”,流量為什么這么高?
數(shù)據(jù)工程師會反問:具體是哪個區(qū)域?能不能給我一個經(jīng)緯度列表。
分析師可能沒有工具獲取經(jīng)緯度列表,因此這個問題就耽誤了,后續(xù)的分析會遇到意想不到的坑。
▼


不要小看這個Hash ID,它讓該企業(yè)第一次有了把所有數(shù)據(jù)放置到一個標準度量體系中的方法。徹底解決了前臺團隊、后臺數(shù)據(jù)團隊、分析師團隊、數(shù)據(jù)智能團隊之間溝通的溝壑。
▼

在選址過程中,可能很多分析師都用過POI數(shù)據(jù),如上圖,客戶提出了新的挑戰(zhàn)。客戶想估算出這個區(qū)域里人口的購買力指標,所以想用當前區(qū)域里房價來進行折算。但是,這個區(qū)域里,只有幾個小區(qū)有房價數(shù)據(jù),剩下的5、6個沒有辦法填充,造成這個指標一直參差不齊。
客戶提出了新的挑戰(zhàn)。客戶想估算出這個區(qū)域里人口的購買力指標,所以想用當前區(qū)域里房價來進行折算。但是,這個區(qū)域里,只有幾個小區(qū)有房價數(shù)據(jù),剩下的5、6個沒有辦法填充,造成這個指標一直參差不齊。
所以,數(shù)據(jù)缺失多、數(shù)據(jù)精度比較差,無法對商圈進行標準的畫像。
▼


大家需要客觀接受一個現(xiàn)實,就是這個世界離廣泛、真實、準確的數(shù)據(jù)化,還差的遠。在這種條件下,要多個團隊(有巨大差異化的同事),進行合作、探索、挖掘數(shù)據(jù)的價值,就要給出一個有效、標準的框架和解決方案。
這套數(shù)字化的方法,讓每一個網(wǎng)格都可以有一套標準、通用的標簽,可以想象,原來不同團隊需要在顯示器前,大家一起看地圖解決的問題,可以進一步轉(zhuǎn)換成計算機自動進行計算的問題。
▼

數(shù)據(jù)準備的差不多以后,想標準化評估一個區(qū)域,也是很難的,我們看上圖,這種打分表,在選址團隊中很常用,的確起到了一定作用。但是請注意,這個打分表是很主觀的,而且無法精確量化。
所以,評估難,這種打分表,在選址團隊中很常用,的確起到了一定作用。但是請注意,這個打分表是很主觀的,而且無法精確量化。
選址工作,是該企業(yè)成功的一個金鑰匙。但是,隨著企業(yè)的發(fā)展想三四線城市發(fā)展,如何快速評估一塊區(qū)域,越來越不能靠調(diào)研員各地探訪了。客戶急需一種標準化的方法,來進行評估度量。前線調(diào)研員需要和總部分析師一起,構(gòu)建起一種溝通和評估的標準,這樣,選址調(diào)研才能標準化、規(guī)模化。
▼

在選址評估上,客戶也在轉(zhuǎn)變,從原來的“線下調(diào)研員給一個門店,評估一個門店”,轉(zhuǎn)換成“在城市所有網(wǎng)格里”智能搜索出潛在門店的模式。
我們進行門店選址模型探索。產(chǎn)出的模型,在上海市進行搜索,經(jīng)過現(xiàn)實開店數(shù)據(jù)驗證,在推薦的網(wǎng)點400米內(nèi),有80%的可能性有一家在運營的門店。解決進入同類型、同等級新城市冷啟動問題。
公式:F(某網(wǎng)格開店成功概率) = 0.14*某網(wǎng)格購物中心個數(shù)1.24+0.101*某網(wǎng)格購物中心營業(yè)額0.88+0.08*某網(wǎng)格火車站流量1.2+……
▼
雖然選址是一個數(shù)據(jù)分析和智能的冷門方向,但是要做的工作也有很多。在數(shù)字化企業(yè)的構(gòu)建過程中,數(shù)據(jù)分析師一個非常重要的角色。他需要把很多工作串接在一起,得到對企業(yè)有價值的結(jié)論。但是現(xiàn)實的條件是殘酷的。我給大家的建議,是邊溝通、邊解決問題,而且要時刻注意能不能做到數(shù)據(jù)標準化、算法智能化、應用簡單化。讓企業(yè)的上下游同事都可以認可數(shù)據(jù)采集、加工、分析的方法,最終讓大家在數(shù)字化的世界中解決業(yè)務決策問題。
個人認為如何高效推進工作的方法總結(jié):
標準化的數(shù)據(jù)架構(gòu)(網(wǎng)格)
標準化的內(nèi)容架構(gòu)(標簽)
標準化的評價架構(gòu)(算法)
—▼—

綜上,我們了解的選址的案例,那到底什么是“囚徒困境”呢?

囚徒困境是博弈論的非零和博弈中具代表性的例子,反映個人最佳選擇并非團體最佳選擇。或者說在一個群體中,個人做出理性選擇卻往往導致集體的非理性。雖然困境本身只屬模型性質(zhì),但現(xiàn)實中的價格競爭、環(huán)境保護等方面,也會頻繁出現(xiàn)類似情況。?
▼


美國著名的科學家羅伯特·阿克塞爾羅德在1970年代向棘手的“重復囚徒困境”難題發(fā)起了沖擊,并最終取得了重大突破。在他的研究之前,我們發(fā)現(xiàn)古往今來的眾多學者對于人類能否跳出“囚徒困境”的詛咒都充滿了悲觀的看法,可是一戰(zhàn)西線塹壕戰(zhàn)里“圣誕停火”這種奇跡的出現(xiàn),又證明人類在沒有權(quán)威的情況下,其實是具有自發(fā)形成合作關(guān)系的可能性的。
阿克塞爾羅德利用當時剛剛興起的計算機技術(shù),沿著“計算模擬”這條不同于歸納和演繹的新研究路徑,舉辦了三場對后世影響深遠的“重復囚徒困境博弈策略的計算機錦標賽”,幾十個出自世界各地不同學科專家之手的博弈策略作為比賽選手,在既定規(guī)則下彼此展開了激烈的對決。這三場比賽的結(jié)果直接指向了合作產(chǎn)生的本質(zhì),“圣誕停火”的秘密就藏在這三場比賽的背后。
試驗的過程挺讓人吃驚的:不同對手,經(jīng)過激烈對抗,每個選擇不同策略的參與者一再重復了很長時間之后,從利己的角度來判斷,最終“貪婪”策略趨向于減少,而比較“利他”策略更多地被采用。他用這個博弈來說明,通過自然選擇,一種利他行為的機制可能從最初純粹的自私機制進化而來。最佳確定性策略被認為是“以牙還牙”。
這里要解釋一下:以牙還牙不是字面意義上的,呈現(xiàn)死循環(huán)的報復,而是,有一定概率以德報德,以德報怨,但是,如果對手持續(xù)作惡,那么可以被激發(fā)的憤怒,也有一定概率相應的報復。這個試驗說明了一個深刻的道理:以善意對待對手,推進整體合作的進化,是可以讓大家走出囚徒困境的。
I.友善
最重要的條件是策略必須“友善”,這就是說,不要在對手背叛之前先背叛。在現(xiàn)實中,可以解釋為:要盡可能善意的對待別人,不要抱怨、更不要給別人造成麻煩。
II.報復
但是,成功的策略必須不是一個盲目樂觀者。要保持報復的可能,始終合作肯定不會獲得最后的好結(jié)果(因為“下流”策略將殘酷地剝削這樣的傻瓜)。在現(xiàn)實中,一味的對邪惡妥協(xié),只會造成徹底的囚徒困境和崩潰。
III.寬恕
成功策略的另一個品質(zhì)是必須要寬恕。雖然它們不報復,但是如果對手不繼續(xù)背叛,它們會一再退卻到合作。這停止了報復和反報復的長期進行,最大化了得分點數(shù)。在現(xiàn)實中,我們要容忍別人的偶然的錯誤,給與一定的寬恕是挽救合作的必然條件。
IV.不嫉妒
最后一個品質(zhì)是不嫉妒,就是說不去爭取得到高于對手的分數(shù)(“友善”的策略必然不嫉妒,也就是說“友善”的策略永遠無法得到高于對手的分數(shù))。
—▼—
正如背景部分描述的,數(shù)據(jù)工作領(lǐng)域里,數(shù)據(jù)分析師處于核心地位,在不同組織的協(xié)作中,容易出現(xiàn)“囚徒困境”。


數(shù)據(jù)質(zhì)量是數(shù)據(jù)分析、數(shù)據(jù)科學、甚至是AI的基礎(chǔ),為什么提高不了數(shù)據(jù)質(zhì)量?假設先排除搜集端的問題,后續(xù)數(shù)據(jù)清洗是一個非常重要的工作。普遍情況是,工程師不懂業(yè)務、分析師普遍不懂技術(shù),兩個團隊又容易陷入到第二個陷阱中。

幾天后,分析師和工程師團隊,總算把例行任務上線了,發(fā)現(xiàn)數(shù)據(jù)庫性能上不去,工程師提出方案改成Spark執(zhí)行,但是分析師不會Spark,又要排期。
—▼—

上面只是羅列了一些“囚徒困境”的實際場景,兩個團隊之間,在需求溝通、數(shù)據(jù)質(zhì)量控制、最終數(shù)據(jù)加工方案上,很容易遇到各種各樣的問題。本質(zhì)上這些問題就是:技術(shù)不懂業(yè)務、業(yè)務不懂技術(shù),雞同鴨講,能講通嗎?那么我們?nèi)绾巫叱鰜砟兀?/span>
回到現(xiàn)實條件下,客觀的看待阿克塞爾羅德的試驗,雖然他指出了走出囚徒困境的解法,但是,這個試驗的條件相對簡單,而且試驗的次數(shù)可以是幾千幾萬次,而對于現(xiàn)實工作,我們?nèi)绾卧谟邢迼l件下走出囚徒困境,是需要各找各的辦法的;另外,也要依托一些先進的產(chǎn)品,想辦法降低摩擦,找到雙方友善、寬容的合作方案,不陷入囚徒困境。
▼

文檔,在傳播需求,達成共識的過程中,起到非常重要的因素。在數(shù)據(jù)產(chǎn)品中,文檔是一個不太起眼,但是非常重要的環(huán)節(jié)。它應該有這樣的功能:
1.在文檔中可以直接嵌入數(shù)據(jù),包括數(shù)據(jù)的鏈接、字段,可以讓讀者快速讀取數(shù)據(jù)、字段定義等,當然,最好還能包含數(shù)據(jù)的作者、業(yè)務含義等描述。可以盡量降低溝通的磨蹭。
2.文檔需要有版本管理,可以進行對比。數(shù)據(jù)工作是一項繁瑣、嚴肅的工作,文檔隨意更改、變更、丟失,對于構(gòu)建一個完整的數(shù)據(jù)系統(tǒng)是致命的。
▼

之前在一些群里,看到數(shù)據(jù)分析師討論學習哪些技術(shù),比如Spark、SPSS、SAS,我個人覺得這些技術(shù)工具值得學,但是更重要的是要從業(yè)務的角度入手。
1.數(shù)據(jù)(商業(yè))分析師的職責,不是和數(shù)據(jù)工程師搶飯碗,而是幫助老板、企業(yè)研究數(shù)據(jù),基于數(shù)據(jù)做決策,因此,更要以業(yè)務的視角去理解、使用數(shù)據(jù)。
2.工程師們,如果只想從事技術(shù)工作,需要更好的做好技術(shù)性的支撐,例如確保數(shù)據(jù)系統(tǒng)可靠性、易用性,做好不同系統(tǒng)之間的整合工作。要及時、有效的從搬數(shù)據(jù)、抽取數(shù)據(jù)中解放出來。
▼

隨著技術(shù)的發(fā)展,基礎(chǔ)的數(shù)據(jù)平臺會越來越多,數(shù)據(jù)分析師不太可能全部學會,更不要說精通。那么,一個業(yè)務邏輯,數(shù)據(jù)(業(yè)務)分析師如何讓技術(shù)團隊看懂、翻譯自己的工作,就非常有講究了。但是非要讓別人看懂、翻譯嗎?我們數(shù)據(jù)分析師團隊,能不能直接操作大數(shù)據(jù)平臺呢?
1. 數(shù)據(jù)加工本身可以被抽象成語義,經(jīng)過不同的編譯過程,理論上就可以翻譯成SQL語句、Spark程序等等。數(shù)據(jù)分析師對數(shù)據(jù)的整理、建模,盡可能不用工程師幫忙,這樣可以盡可能的降低重復勞動、減少工作的誤差、浪費。
2. 數(shù)據(jù)工程師,可以騰出時間去處理數(shù)據(jù)平臺的其他工作,做好不同組件的整合,做好數(shù)據(jù)加工的性能優(yōu)化。

(歡迎大家加入數(shù)據(jù)工匠知識星球獲取更多資訊。)

掃描二維碼關(guān)注我們

我們的使命:發(fā)展數(shù)據(jù)治理行業(yè)、普及數(shù)據(jù)治理知識、改變企業(yè)數(shù)據(jù)管理現(xiàn)狀、提高企業(yè)數(shù)據(jù)質(zhì)量、推動企業(yè)走進大數(shù)據(jù)時代。
我們的愿景:打造數(shù)據(jù)治理專家、數(shù)據(jù)治理平臺、數(shù)據(jù)治理生態(tài)圈。
我們的價值觀:凝聚行業(yè)力量、打造數(shù)據(jù)治理全鏈條平臺、改變數(shù)據(jù)治理生態(tài)圈。

了解更多精彩內(nèi)容
長按,識別二維碼,關(guān)注我們吧!
數(shù)據(jù)工匠俱樂部
微信號:zgsjgjjlb
專注數(shù)據(jù)治理,推動大數(shù)據(jù)發(fā)展。
