騰訊數(shù)據(jù)分析實(shí)戰(zhàn)

導(dǎo)讀:生活中的選擇行為無(wú)處不在,數(shù)據(jù)分析師面對(duì)的商業(yè)場(chǎng)景也存在大量的用戶選擇問(wèn)題。系統(tǒng)、科學(xué)地研究用戶選擇問(wèn)題,得到選擇行為背后的客觀規(guī)律,并基于這些規(guī)律提出業(yè)務(wù)優(yōu)化策略,這些能力對(duì)于數(shù)據(jù)分析師來(lái)說(shuō)非常重要且極具價(jià)值。

人們?nèi)粘I钪薪^大多數(shù)的決定和行為,都涉及選擇。早上去上班,我們需要決定通勤方式;去食堂吃飯,我們需要選擇菜品;購(gòu)買(mǎi)一臺(tái)冰箱,我們需要選擇品牌和型號(hào)。隨著經(jīng)濟(jì)的快速發(fā)展,人們的物質(zhì)和精神生活日益豐富,面臨的選擇也越來(lái)越多。作為數(shù)據(jù)分析師,在面對(duì)常見(jiàn)的選擇行為分析問(wèn)題時(shí),應(yīng)該在數(shù)據(jù)之外深入思考這些選擇行為的本質(zhì),下面以選擇出行方式為例,剖析選擇行為的具體邏輯。
引子:以出行為例剖析選擇行為的具體邏輯
1.出行選擇的場(chǎng)景還原
出行就是“在某時(shí)從A點(diǎn)到達(dá)B點(diǎn)”,這一行為主要面臨的選擇是“以什么方式前往”,回想一下我們平時(shí)做出行選擇時(shí),是否有如下參考信息浮現(xiàn)在腦海。
可以選擇的交通方式有哪些?
同程的人多不多?
需要在什么時(shí)間到達(dá)?
出行預(yù)算是多少?
公共交通的便捷程度?
出行方式是否受天氣影響?
通常,我們會(huì)帶著這些疑問(wèn)打開(kāi)出行類App看看各類交通方式的花費(fèi)、耗時(shí)及路線,可能還會(huì)打開(kāi)天氣App看看未來(lái)一段時(shí)間是否下雨、是否有嚴(yán)重的霧霾,如圖1所示。

圖1 打開(kāi)App查看出行路線和天氣
2.出行選擇的決策邏輯
接下來(lái),我們通過(guò)一個(gè)更加具體的案例說(shuō)明出行選擇的決策邏輯:有200個(gè)家庭要進(jìn)行家庭旅行,每個(gè)家庭的情況不同(包括出行人數(shù)、目的地、家庭年收入等),每個(gè)家庭都會(huì)在飛機(jī)、火車(chē)、長(zhǎng)途巴士及自駕車(chē)中選擇一種作為出行方式。
不同的家庭會(huì)有不同的選擇,在選擇的表象下有著相似的決策邏輯。我們嘗試置身于這個(gè)場(chǎng)景中,在大腦里構(gòu)建一張類似圖2的打分表。出行方式的屬性可以主要?dú)w結(jié)為行程外(等車(chē))耗時(shí)、行程中耗時(shí)、行程花費(fèi)、舒適性等,確定這些出行方式的屬性后,再結(jié)合自身屬性(家庭收入、出行人數(shù)等),對(duì)每個(gè)選項(xiàng)進(jìn)行定性/定量的排序,得到最適合自己的選擇結(jié)果。

圖2 旅行出行方式打分表
在選擇的過(guò)程中,如果某個(gè)因素發(fā)生變化,就有可能對(duì)選擇結(jié)果產(chǎn)生影響。例如:其他因素保持不變,由于航空公司促銷,機(jī)票價(jià)格比火車(chē)票還便宜,你的選擇是不是會(huì)從火車(chē)改為飛機(jī)呢?再假設(shè),臨行前你收獲一筆超過(guò)預(yù)期的獎(jiǎng)金,可支配的現(xiàn)金增多,是不是也會(huì)從火車(chē)改為飛機(jī)呢?
離散選擇模型DCM基本原理
離散選擇模型(Discrete Choice Models,DCM)。DCM不是單一模型,而是一個(gè)模型簇,它包含了一系列應(yīng)對(duì)不同選擇場(chǎng)景的模型,例如邏輯回歸(Logistics Regression,LR)、多項(xiàng)Logit模型(Multinomial Logit Model,MNL)及嵌套Logit模型(NestedLogit Model,NL Model)等,后面會(huì)深入介紹這些模型的使用方式。
如圖3所示,DCM主要包括5個(gè)部分,分別是決策者(決策者屬性)、備選項(xiàng)集合、備選項(xiàng)屬性、決策準(zhǔn)則和選擇結(jié)果,數(shù)學(xué)表達(dá)形式如下:
選擇結(jié)果 = F(決策者, 備選項(xiàng)集合, 備選項(xiàng)屬性)
其中,F(xiàn)是決策準(zhǔn)則,即效用最大化準(zhǔn)則。模型最終實(shí)現(xiàn)的功能是在給定決策者, 備選項(xiàng)集合, 備選項(xiàng)屬性后,基于效用最大化準(zhǔn)則,得到選擇結(jié)果。

圖3 離散選擇模型的元素及結(jié)構(gòu)
回到旅行出行方式選擇的案例中,我們對(duì)例子中的元素進(jìn)行映射。
決策者:一次選擇行為的主體(決策者屬性包括家庭收入、出行人數(shù)、天氣)。
備選項(xiàng)集合:飛機(jī)、火車(chē)、長(zhǎng)途巴士、自駕車(chē)(不同決策者的備選項(xiàng)集合可以不同)。
備選項(xiàng)屬性:行程外耗時(shí)、行程中耗時(shí)、行程花費(fèi)、舒適性(不同備選項(xiàng)的屬性也可以不同)。
選擇準(zhǔn)則:效用的最大化準(zhǔn)則。
選擇結(jié)果:備選項(xiàng)中的一個(gè)選項(xiàng)(每個(gè)選擇過(guò)程均存在選擇結(jié)果)。
離散選擇模型DCM詳述
離散選擇模型(DCM)的基本形式:選擇結(jié)果=F(決策者,備選項(xiàng)集合,備選項(xiàng)屬性)。下面我們?cè)敿?xì)介紹DCM的設(shè)計(jì)原理、DCM的常見(jiàn)應(yīng)用場(chǎng)景以及重要的數(shù)據(jù)知識(shí)。
DCM是用來(lái)分析“從有限互斥選項(xiàng)集中進(jìn)行單項(xiàng)選擇”的計(jì)量模型。與大多數(shù)計(jì)量經(jīng)濟(jì)學(xué)建模一樣,DCM主要實(shí)現(xiàn)以下三點(diǎn)。
預(yù)測(cè)一組決策者的決策行為。
確定決策者在做出選擇決策時(shí),不同選項(xiàng)屬性的影響。
了解不同群體如何評(píng)價(jià)一個(gè)備選項(xiàng)的不同屬性,以便通過(guò)精心設(shè)計(jì)的策略,通過(guò)修改對(duì)個(gè)體決策者重要的選項(xiàng)的屬性,以主動(dòng)的方式改變行為。
我們定義如下數(shù)學(xué)公式表示效用最大化理論。

其中U為效用函數(shù),Xi、Xj為備選項(xiàng)屬性矢量,St為決策者屬性矢量;
表示相對(duì)備選項(xiàng)j,決策者更偏好于備選項(xiàng)i;
表示備選項(xiàng)集合C中的任意備選項(xiàng)j。
一般情況下,每個(gè)選項(xiàng)的屬性是不同的,而決策者屬性是相同的,我們選擇了飛機(jī),就意味著飛機(jī)的效用是4個(gè)選項(xiàng)中效用最大的。而模型需要做的就是依靠已知的,得到效用函數(shù)。有建模經(jīng)驗(yàn)的讀者知道,模型本身是一種包括未知參數(shù)的計(jì)算框架,需要依靠訓(xùn)練數(shù)據(jù)經(jīng)過(guò)參數(shù)估計(jì)過(guò)程得到最終模型結(jié)果。
1.Probit模型
假設(shè)分析師能夠了解決策過(guò)程的所有因素,可以對(duì)各因素做出準(zhǔn)確的測(cè)量,且了解每個(gè)決策者對(duì)備選項(xiàng)的評(píng)價(jià)形式,那么分析師可以使用確定效用模型準(zhǔn)確地描述決策過(guò)程。然而現(xiàn)實(shí)中,分析師并不具備這種能力,我們的模型也不能100%的準(zhǔn)確,在模型中需要考慮客觀存在的偏差,因此,DCM的效用表達(dá)式為

其中,Vit表示分析師觀察到的效用部分,通常稱之為確定性部分;
是全部真實(shí)效用與效用確定性部分的差異,我們稱之為殘差部分。殘差主要來(lái)自以下幾個(gè)方面。
未觀察到的備選項(xiàng)屬性:分析師了解到的備選項(xiàng)屬性不完整,模型忽略了一些影響效用計(jì)算的備選項(xiàng)屬性。
未觀察到的決策者屬性:分析師了解到的決策者屬性不完整,而且現(xiàn)實(shí)中人與人之間總會(huì)存在諸多差異,這些因素也會(huì)導(dǎo)致效用計(jì)算產(chǎn)生誤差。
屬性的測(cè)量誤差:備選項(xiàng)的屬性不可準(zhǔn)確觀測(cè)。
工具變量引入的誤差:當(dāng)分析師通過(guò)引入工具變量處理未知變量時(shí),估計(jì)值與實(shí)際值之間存在不完全表示關(guān)系,同樣會(huì)產(chǎn)生效用計(jì)算的誤差。
通過(guò)理解殘差項(xiàng)以及對(duì)人類行為進(jìn)行客觀觀察,我們知道人類行為是具有概率性質(zhì)的,而DCM就是基于概率選擇理論設(shè)計(jì)出來(lái)的。
我們使用模型描述的是選擇的概率,而不是預(yù)測(cè)一個(gè)人肯定會(huì)選擇某個(gè)備選項(xiàng)。這些概率反映了具有給定屬性且面對(duì)同一組備選項(xiàng)的決策者選擇每個(gè)備選項(xiàng)的概率。

其中,
為殘差的聯(lián)合密度函數(shù),I是判斷函數(shù),如果括號(hào)之間的語(yǔ)句為真,則函數(shù)結(jié)果為1,如果為假,則函數(shù)結(jié)果為0。不同的DCM有不同形式的
,常用DCM有Logit模型和Probit模型,二者的區(qū)別在于
不同,分別為L(zhǎng)ogit分布和正態(tài)分布。由于Logit模型更具計(jì)算優(yōu)勢(shì),因此應(yīng)用廣泛。
2.效用函數(shù)的設(shè)計(jì)
效用函數(shù)的確定部分是備選項(xiàng)屬性和決策者屬性的數(shù)學(xué)函數(shù)。理論上講,可以有任何數(shù)學(xué)形式,但為了便于模型參數(shù)的估計(jì)及模型解釋,通常采用加法形式,具體形式如下。

其中,V(Xi)是備選項(xiàng)屬性貢獻(xiàn)的確定效用;V(St)是決策者屬性貢獻(xiàn)的確定效用;V(Xi,St)是備選項(xiàng)屬性與決策者屬性的相互作用貢獻(xiàn)的確定效用。
對(duì)公式進(jìn)一步拆分,V(Xi)的數(shù)學(xué)形式可以表達(dá)如下,其中是待估計(jì)的模型參數(shù)。

如上式所示,每個(gè)備選項(xiàng)的確定效用是其屬性的加權(quán)和(系數(shù)需要我們基于訓(xùn)練數(shù)據(jù)估計(jì)得到)。DCM允許不同備選項(xiàng)具備相同或不同的屬性系數(shù)。例如,在選擇不同的出行方式時(shí),各出行方式的費(fèi)用和時(shí)間是在決策過(guò)程中需要考慮的兩個(gè)重要屬性。設(shè)和
分別作為費(fèi)用和時(shí)間對(duì)決策的影響系數(shù),假定不同出行方式的花費(fèi)對(duì)效用的影響是一致的,即共用屬性系數(shù);而對(duì)于時(shí)長(zhǎng)系數(shù),飛機(jī)、火車(chē)、長(zhǎng)途巴士3種公共交通需要與他人共乘,可能與自駕的感受不同。因此飛機(jī)、火車(chē)、長(zhǎng)途巴士的時(shí)長(zhǎng)系數(shù)使用
表示,而自駕的時(shí)長(zhǎng)系數(shù)用
表示。

在實(shí)際場(chǎng)景中,決策者對(duì)備選項(xiàng)會(huì)表現(xiàn)出特定偏好(ASC),且這些偏好不能被屬性解釋。在這種情況下,效用函數(shù)變?yōu)槿缦滦问健?/span>

對(duì)應(yīng)上面的例子,各交通方式的效用形式變?yōu)槿缦滦问剑渲凶择{為“參考”備選項(xiàng),
表示相對(duì)于自駕決策者對(duì)飛機(jī)的特定選擇偏好。

此外,不同屬性的決策者對(duì)于各備選項(xiàng)會(huì)有不同的偏好。例如,收入高的家庭可能更偏向選擇飛機(jī),出行成員較多的家庭可能更偏向選擇自駕,因此引入引入收入屬性是必要的。效用函數(shù)確定部分變?yōu)槿缦滦问健?/span>

以上就是DCM的基本設(shè)計(jì)原理。與傳統(tǒng)的線性回歸模型相似,在實(shí)際操作中,我們需要做的就是依據(jù)對(duì)業(yè)務(wù)的理解及實(shí)際數(shù)據(jù)表現(xiàn),確定效用函數(shù)形式,最后對(duì)模型進(jìn)行解讀,得到商業(yè)洞見(jiàn)。
DCM的應(yīng)用場(chǎng)景
由于選擇過(guò)程是多樣的,對(duì)于不同的選擇過(guò)程需要應(yīng)用不同的DCM。常用的DCM如表1-1所示,常用場(chǎng)景示例如圖1-4所示。使用錯(cuò)誤的選擇模型會(huì)造成分析結(jié)果偏差,我們需要結(jié)合業(yè)務(wù)邏輯和數(shù)據(jù)反饋謹(jǐn)慎選擇模型,盡可能得到準(zhǔn)確的結(jié)果。
表1 常用DCM模型及應(yīng)用場(chǎng)景


圖4 常用應(yīng)用場(chǎng)景示例
案例:使用多項(xiàng)Logit模型分析多種交通方式選擇問(wèn)題
如果要同時(shí)分析4種交通方式的選擇問(wèn)題,需要使用MNL或NL模型。下面介紹基于IIA假定的MNL模型。模型的問(wèn)題場(chǎng)景映射如圖5所示。

圖5 MNL的場(chǎng)景邏輯示意圖
需要注意的是,MNL的輸入數(shù)據(jù)為長(zhǎng)格式。不同于LR,MNL需要更加詳細(xì)、復(fù)雜的初始化聲明,指定每種選項(xiàng)的效用函數(shù)形式。為了保證信息的完整性,盡量先保留自變量,定義如下模型。

根據(jù)設(shè)計(jì)好的模型結(jié)構(gòu)搭建模型。如代碼清單1所示。
代碼清單1 搭建MNL模型# 第一步:模型初始化聲明basic_specification = OrderedDict()basic_names = OrderedDict()# 注意截距項(xiàng)包含選項(xiàng)個(gè)數(shù)減1basic_specification["intercept"] = [0, 1, 2]basic_names["intercept"] = ['ASC_air', 'ASC_train', 'ASC_bus']# 可以靈活指定備選項(xiàng)屬性的影響方式basic_specification["TTME"] = [[0, 1, 2]]basic_names["TTME"] = ['TTME']basic_specification["INVC"] = [[0, 1, 2, 3]]basic_names["INVC"] = ['INVC']basic_specification["INVT"] = [[0, 1, 2, 3]]basic_names["INVT"] = ['INVT']# 也可以靈活指定決策者的影響方式,但需要注意的是,由于每個(gè)選項(xiàng)的決策者屬性都一樣,因此保證可估計(jì)性只對(duì)部分選項(xiàng)生效basic_specification["HINC"] = [0, 1, 2]basic_names["HINC"] = ['HINC_air', 'HINC_train', 'HINC_bus']basic_specification["PSIZE"] = [0, 1, 2]basic_names["PSIZE"] = ['PSIZE_air', 'PSIZE_train', 'PSIZE_bus']# 第二步:創(chuàng)建模型mnl = pl.create_choice_model(data = model_data,alt_id_col="ALT_ID",obs_id_col="OBS_ID",choice_col="MODE",specification=basic_specification,model_type = "MNL",names=basic_names)# 第三步:模型估計(jì)和模型結(jié)果mnl.fit_mle(np.zeros(12)) # 需要輸入模型參數(shù)數(shù)量,根據(jù)之前的模型表達(dá)式即可得到mnl.get_statsmodels_summary()# | -------------------------------------------------------------# | coef std.err z P>|z| [0.025 0.975]# | -------------------------------------------------------------# | ASC_air 6.0352 1.138 5.302 0.000 3.804 8.266# | ASC_train 5.5735 0.711 7.836 0.000 4.179 6.968# | ASC_bus 4.5047 0.796 5.661 0.000 2.945 6.064# | TTME -0.1012 0.011 -9.081 0.000 -0.123 -0.079# | INVC -0.0087 0.008 -1.101 0.271 -0.024 0.007# | INVT -0.0041 0.001 -4.627 0.000 -0.006 -0.002# | HINC_air 0.0075 0.013 0.567 0.571 -0.018 0.033# | HINC_train -0.0592 0.015 -3.977 0.000 -0.088 -0.03# | HINC_bus -0.0209 0.016 -1.278 0.201 -0.053 0.011# | PSIZE_air -0.9224 0.259 -3.568 0.000 -1.429 -0.416# | PSIZE_train 0.2163 0.234 0.926 0.355 -0.242 0.674# | PSIZE_bus -0.1479 0.343 -0.432 0.666 -0.820 0.524# |==============================================================
模型的搭建完成后,我們會(huì)發(fā)現(xiàn)有些變量不顯著,此時(shí)需要進(jìn)行模型的修正,如代碼清單2所示。這里受篇幅限制,主要使用屬性剔除及屬性影響合并的方式進(jìn)行修正,修正后的模型聲明及模型效果如下。
代碼清單2 修正MNL模型basic_specification = OrderedDict()basic_names = OrderedDict()basic_specification["intercept"] = [0, 1, 2]basic_names["intercept"] = ['ASC_air', 'ASC_train', 'ASC_bus']basic_specification["TTME"] = [[0, 1, 2]]basic_names["TTME"] = ['TTME']basic_specification["INVT"] = [[0, 1, 2, 3]]basic_names["INVT"] = ['INVT']basic_specification["HINC"] = [[1, 2]]basic_names["HINC"] = [ 'HINC_train_bus']basic_specification["PSIZE"] = [0]basic_names["PSIZE"] = ['PSIZE_air']mnl = pl.create_choice_model(data = model_data,alt_id_col="ALT_ID",obs_id_col="OBS_ID",choice_col="MODE",specification=basic_specification,model_type = "MNL",names=basic_names)mnl.fit_mle(np.zeros(7))mnl.get_statsmodels_summary()# | -----------------------------------------------------------------# | coef std.err z P>|z| [0.025 0.975]# | -----------------------------------------------------------------# | ASC_air 5.6860 0.937 6.068 0.000 3.849 7.523# | ASC_train 5.4034 0.603 8.959 0.000 4.221 6.585# | ASC_bus 5.0128 0.623 8.051 0.000 3.792 6.233# | TTME -0.0992 0.011 -9.428 0.000 -0.12 -0.079# | INVT -0.0039 0.001 -4.489 0.000 -0.006 -0.002# | HINC_train_bus -0.0500 0.011 -4.484 0.000 -0.072 -0.028# | PSIZE_air -0.8997 0.245 -3.680 0.000 -1.379 -0.420# |==================================================================
根據(jù)模型系數(shù)可以初步判定模型的合理性,例如:TTME的系數(shù)為負(fù),可以解釋為當(dāng)某個(gè)備選項(xiàng)站點(diǎn)等待時(shí)間延長(zhǎng),其被選擇的概率會(huì)降低;HINC_train_bus的系數(shù)為負(fù),可以解釋為隨著家庭收入增加,選擇火車(chē)或長(zhǎng)途汽車(chē)的概率會(huì)降低。這種定性的合理性判斷有利于我們判斷模型搭建是否合理。當(dāng)然,如果想發(fā)揮模型真正的價(jià)值,還需要對(duì)模型進(jìn)行量化解讀。
對(duì)MNL模型的解讀需要基于其預(yù)測(cè)功能,原理已經(jīng)在1.2.3節(jié)進(jìn)行了闡述,這里主要進(jìn)行代碼實(shí)現(xiàn),如代碼清單3所示。假設(shè)其他條件保持不變,因?yàn)榛疖?chē)提速,使得行程耗時(shí)降低20%,通過(guò)計(jì)算可知:
飛機(jī)的選擇概率會(huì)由27.6%變?yōu)?5.6%,降低了2.0%。
火車(chē)的選擇概率會(huì)由30.0%變?yōu)?6.2%,提升了6.2%。
長(zhǎng)途汽車(chē)的選擇概率會(huì)由14.3%變?yōu)?2.7%,降低1.6%。
自駕的選擇概率會(huì)由28.1%變?yōu)?5.5%,降低2.6%。
代碼清單3 解讀MNL模型# 創(chuàng)建用于預(yù)測(cè)的dfprediction_df = model_data[['OBS_ID', 'ALT_ID', 'MODE','TTME', 'INVT','HINC','PSIZE']]choice_column = "MODE"# 對(duì)火車(chē)耗時(shí)進(jìn)行變化def INVT(x,y):if x == 1:return y*0.8else:return yprediction_df['INVT'] = prediction_df.apply(lambda x: INVT(x.ALT_ID, x.INVT), axis = 1)# 默認(rèn)情況下,predict()方法返回的結(jié)果是每個(gè)備選方案的選擇概率prediction_array = mnl.predict(prediction_df)# 存儲(chǔ)預(yù)測(cè)概率prediction_df["MNL_Predictions"] = prediction_array# 對(duì)比變化前后的概率raw_probability = prediction_df.groupby(['ALT_ID'])['MODE'].mean()new_probability = prediction_df.groupby(['ALT_ID'])['MNL_Predictions'].mean()print("--------原概率--------")print(raw_probability)print("--------新概率--------")print(new_probability)# | --------原概率--------# | ALT_ID# | 0 0.276190# | 1 0.300000# | 2 0.142857# | 3 0.280952# | Name: MODE, dtype: float64# | --------新概率--------# | ALT_ID# | 0 0.255643# | 1 0.362788# | 2 0.126937# | 3 0.254632
本文摘編于《數(shù)據(jù)科學(xué)工程實(shí)踐:用戶行為分析與建模、A/B實(shí)驗(yàn)、SQLFlow》。

這是一本將數(shù)據(jù)科學(xué)三要素一一商業(yè)理解、量化模型、數(shù)據(jù)技術(shù)全面打通的實(shí)戰(zhàn)性著作,是來(lái)自騰訊、滴滴、快手等一線互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師和算法工程師的經(jīng)驗(yàn)總結(jié),得到了SQLFlow創(chuàng)始人以及騰訊、網(wǎng)易、快手、貝殼找房、谷歌等企業(yè)的專家一致好評(píng)和推薦。
本書(shū)分三個(gè)部分,內(nèi)容相對(duì)獨(dú)立,既能幫助初學(xué)者建立知識(shí)體系,又能幫助從業(yè)者解決商業(yè)中的實(shí)際問(wèn)題,還能幫助有經(jīng)驗(yàn)的專家快速掌握數(shù)據(jù)科學(xué)的新技術(shù)和發(fā)展動(dòng)向。內(nèi)容圍繞非實(shí)驗(yàn)環(huán)境下的觀測(cè)數(shù)據(jù)的分析、實(shí)驗(yàn)的設(shè)計(jì)和分析、自助式數(shù)據(jù)科學(xué)平臺(tái)3大主題展開(kāi),涉及統(tǒng)計(jì)學(xué)、經(jīng)濟(jì)學(xué)、機(jī)器學(xué)習(xí)、實(shí)驗(yàn)科學(xué)等多個(gè)領(lǐng)域,包含大量常用的數(shù)據(jù)科學(xué)方法、簡(jiǎn)潔的代碼實(shí)現(xiàn)和經(jīng)典的實(shí)戰(zhàn)案例。
第一部分(第1-6章)觀測(cè)數(shù)據(jù)的分析技術(shù)
講解了非實(shí)驗(yàn)環(huán)境下不同觀測(cè)數(shù)據(jù)分析場(chǎng)景所對(duì)應(yīng)的分析框架、原理及實(shí)際操作,包括消費(fèi)者選擇偏好分析、消費(fèi)者在時(shí)間維度上的行為分析、基于機(jī)器學(xué)習(xí)的用戶生命周期價(jià)值預(yù)測(cè)、基于可解釋模型技術(shù)的商業(yè)場(chǎng)景挖掘、基于矩陣分解技術(shù)的用戶行為規(guī)律發(fā)現(xiàn)與挖掘,以及在不能進(jìn)行實(shí)驗(yàn)分析時(shí)如何更科學(xué)地進(jìn)行全量評(píng)估等內(nèi)容。
第二部分(第7~9章)實(shí)驗(yàn)設(shè)計(jì)和分析技術(shù)
從A/B實(shí)驗(yàn)的基本原理出發(fā),深入淺出地介紹了各種商業(yè)場(chǎng)景下進(jìn)行實(shí)驗(yàn)設(shè)計(jì)需要參考的原則和運(yùn)用的方法,尤其是在有樣本量約束條件下提升實(shí)驗(yàn)效能的方法及商業(yè)場(chǎng)景限制導(dǎo)致的非傳統(tǒng)實(shí)驗(yàn)設(shè)計(jì)。
第三部分(第10~12章)自助式數(shù)據(jù)科學(xué)平臺(tái)SQLFlow
有針對(duì)性地講解了開(kāi)源的工程化的自助式數(shù)據(jù)科學(xué)平臺(tái)SQLFlow,并通過(guò)系統(tǒng)配置、黑盒模型的解讀器應(yīng)用、聚類分析場(chǎng)景等案例幫助讀者快速了解這一面向未來(lái)的數(shù)據(jù)科學(xué)技術(shù)。
推薦閱讀
(點(diǎn)擊標(biāo)題可跳轉(zhuǎn)閱讀)
下載 | 經(jīng)典著作《機(jī)器學(xué)習(xí):概率視角》.pdf
從貝葉斯定理到概率分布:詳解概率論機(jī)器學(xué)習(xí):XGBoost vs 神經(jīng)網(wǎng)絡(luò)
老鐵,三連支持一下,好嗎?↓↓↓
