<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          算法與數據中臺:基于Google、Facebook與微博實踐

          共 7182字,需瀏覽 15分鐘

           ·

          2020-09-17 15:06

          ↑↑↑點擊上方藍字,回復資料,10個G的驚喜

          在O2O 模式下,網約車平臺成為其中最為經典的案例,無論是美國的 Uber 還是國內的滴滴都已經發(fā)展成為社會的基礎設施。

          網約車平臺的使用界面

          從這兩大巨頭的發(fā)展史來看,盡管前期它們都是利用補貼大戰(zhàn)來完成對市場的占領的,但是隨后它們也都專注于更為精細的運營和服務,以便滿足乘客、司機和平臺這三方的利益訴求。
          為了實現這些目標,Uber 和滴滴等網約車平臺都聚焦于技術的深耕和創(chuàng)新,它們的成功實踐經驗表明技術是業(yè)務發(fā)展的強大驅動力。業(yè)務和產品的快速迭代需要依靠優(yōu)良的系統(tǒng)架構,而算法與數據中臺在整體架構中又發(fā)揮了極為重要的作用,它是實現數據驅動和智能調度的核心組件。


          數據中臺技術架構
          從乘客和司機的角度來看,網約車平臺的整個運行過程是十分簡單的,他們似乎感知不到背后互聯網技術的存在。但實際上正是由于技術的支持和賦能,才給予了使用者更簡單、更流暢和更智能的體驗。
          這里我們著重圍繞整體架構與核心算法來闡述網約車平臺背后的技術力量。

          1 ?分層系統(tǒng)架構

          我們可以把網約車平臺的典型系統(tǒng)架構簡化為這樣的分層設計模型。

          網約車平臺的分層系統(tǒng)架構
          其包含了產品接入平臺業(yè)務中臺算法與數據中臺以及基礎架構這四個互相依賴的層次。
          ?產品接入平臺 : 該平臺不僅為乘客(用車需求方)和司機(用車服務方)提供了對接入口,而且也滿足了來自不同業(yè)務線的乘車產品的功能性需求。
          ?業(yè)務中臺 :?它包含了網約車業(yè)務中最核心和最通用的業(yè)務,其中需求池、運力池、調度系統(tǒng)、訂單系統(tǒng)、司機系統(tǒng)、分單系統(tǒng)、定價系統(tǒng)和策略引擎等是業(yè)務中臺里至關重要的組成部分。業(yè)務中臺是網約車業(yè)務區(qū)別于其他互聯網業(yè)務的核心部分,它體現了與打車最為密切的功能特性和業(yè)務策略。
          ?算法與數據中臺 :?它是支持網約車業(yè)務中各種產品與功能進行數據驅動和智能化升級的關鍵組件。通常來說,它由用戶畫像服務、司機畫像服務、LBS 數據服務、機器學習平臺、在線預估服務和樣本拼接系統(tǒng)等部分構成。
          基礎架構 : 作為底層支持,它為網約車業(yè)務中的上層建筑提供了必要的存儲保障、算力保障、資源保障、運維保障以及其他必要的支撐。該層面的系統(tǒng)和其他互聯網系統(tǒng)中的基礎架構組件沒有本質區(qū)別。

          2 ?業(yè)務中臺

          業(yè)務中臺管理著打車、分單、接單和定價等核心業(yè)務流程,因此它也集成了如下網約車平臺中最通用的業(yè)務系統(tǒng)。
          ?需求池和運力池:這兩個系統(tǒng)分別管理著出行需求信息和車輛運力信息。
          ?調度系統(tǒng):它可以根據不同的分單場景和需求,在資源調度的過程中選擇搶單模式或者分單模式。
          ?訂單系統(tǒng):它管理著所有的歷史訂單以及當前的訂單狀態(tài)。
          司機系統(tǒng):它管理著所有司機端的數據和狀態(tài)。
          ?分單系統(tǒng):作為最核心的業(yè)務系統(tǒng),它需要從全局的角度將訂單和司機進行高效匹配。
          ?搶單系統(tǒng):在搶單模式下,它需要對乘客訂單在多個司機間的爭搶來進行仲裁。
          ?策略引擎:它需要根據機器學習模型、專家規(guī)則和人工策略對業(yè)務系統(tǒng)的運行過程進行干預與指導,從而提高系統(tǒng)的智能化水平。
          ?定價系統(tǒng):它需要根據里程、時間、供需關系以及其他數據對行程進行動態(tài)定價。
          在這些業(yè)務系統(tǒng)中,分單系統(tǒng)占據著核心地位,因此,我們著重對這一部分進行介紹。在任意時刻都會有眾多的乘車需求和閑置運力等待匹配,分單系統(tǒng)便承擔了對供需進行高效匹配的重任。為了滿足多種打車產品的功能性需求,平衡多方的利益訴求,并且實現資源的優(yōu)化配置,分單系統(tǒng)通常都有著復雜的運行邏輯。我們需要知道,當分單系統(tǒng)完成了訂單和司機的匹配后,乘客會有一定的概率進行訂單撤銷操作,同時司機也會有一定的概率選擇拒絕接單。因此,分單系統(tǒng)的一個重要優(yōu)化目標就是降低這些有損訂單成交的操作,系統(tǒng)需要在算力可行和決策時間有限的約束下來實現總成交量或總成交額最大化的分單目標。
          以城市或者行政區(qū)域為界限,我們可以把這個范圍內的所有訂單和司機的匹配需求按照 DO(Driver-Order)匹配矩陣抽象為數據模型。
          司機與訂單的 DO 對矩陣和二分圖最佳匹配示意圖
          上圖左側橫行代表了所有的訂單,豎列代表了所有的司機,它們之間都是可以匹配的,但是匹配的概率各不相同。此外,這里有一個重要的現實約束條件,即一個司機在同一時刻只能匹配一個訂單,并且一個訂單在同一時刻只能被一個司機接單。因此,匹配問題又可以轉化成一個如右側所示的二分圖最佳匹配問題(連線代表有一定的權值),它的最終優(yōu)化目標是使得所有連線的權值之和最大化,經典的 KM 算法(Kuhn Munkres Assignment Algorithm)比較適合解決此類問題。在進行二分圖匹配的求解過程中,系統(tǒng)需要對權值進行數值定義。如果以交易額為優(yōu)化目標,那么權值就是訂單價值乘上預估的成交概率;如果單純以交易量為優(yōu)化目標,那么權值就是成交概率。平臺可以在不同的階段和場景下采用不同的權值定義,并且權值的設定也需要考慮一些運營策略和安全因素,例如,評分較低的司機或者乘客需要被降權。

          分單系統(tǒng)的大體運行流程圖
          上圖展示了分單系統(tǒng)的大體運行流程,它包括權值計算和權值調整兩個關鍵階段。權值計算基本上是根據行車距離以及其他硬性規(guī)則來進行成交額的估算,這里的距離可以被定義為球面距離或者路面距離。權值調整則是根據模型預估以及一些運營策略和安全策略來進行權值的加權、降權或者過濾操作。從分單的全流程來看,整個過程涉及多種數據,以及包括應答率預估、等車時長預估以及安全預估等多個機器學習模型的使用,因此算法與數據中臺在這個場景中為分單系統(tǒng)提供了重要的數據和智能支撐。

          3 ?算法與數據中臺

          算法與數據中臺是網約車業(yè)務進行數據驅動決策和智能化升級的必要條件,正如前文中所探討的,業(yè)務系統(tǒng)中的各個環(huán)節(jié)均需要它來提供支撐。在網約車業(yè)務中,最為核心的數據可以被歸納到用戶數據、運力數據和訂單數據三個方面。
          ?用戶數據 :?從平臺的角度來看,用戶數據包括乘客信息和司機信息兩部分,完善的用戶畫像對于網約車平臺進行資源的有效調度起著關鍵作用。乘客畫像一般包括乘客的性別、年齡、身份和是否為車主等信息,這些數據可以被平臺用來進行價格的動態(tài)調整,從而實現運力資源的調配和優(yōu)化。司機畫像一般包括司機的年齡、性別、駕駛習慣、信用分以及投訴記錄等信息,這些數據可以被平臺用來進行激勵策略的動態(tài)調整,以便實現運力的有效配置。
          ?運力數據 :?運力數據在網約車業(yè)務中有著不可替代的影響力,通過對與運力相關的實時特性以及歷史特性的掌握,平臺可以有效地實現資源利用效率和多方利益的最大化。網約車平臺一般將地理區(qū)域按照一定規(guī)則劃分為多個較小的子區(qū)域并統(tǒng)計各個子區(qū)域的實時運力信息和歷史運力信息。實時運力信息一般包括當前的司機數、訂單數、未播發(fā)的訂單數等信息,而歷史運力信息一般包括過去一段時間的司機數以及相同時間段的訂單數等信息。
          ?訂單數據 :?訂單數據包括兩部分,即當前訂單的詳細信息和歷史訂單的統(tǒng)計信息。當前訂單的詳細信息里包含了預估價格、預估時間、預估距離、折扣率和產品選擇等,而歷史訂單的統(tǒng)計信息里一般包含了歷史訂單數、歷史消費金額、歷史訂單取消數、歷史打車產品類型以及歷史投訴訂單數等信息。
          要將上面這些數據充分應用和賦能到網約車業(yè)務中,則需要借助機器學習模型和業(yè)務策略機制來實現。下面我們就算法模型在網約車平臺中的使用場景進行簡要介紹。
          • 訂單展示:平臺可以依據算法模型對出行時間和出行價格進行準確預估。

          • 訂單定價:平臺可以利用算法模型對應答率、轉化率和留存率等指標進行精準預估,并將這些預估值作為定價策略的依據。

          • 運力估算:平臺可以構建供需預測模型,并基于模型預估值為乘客提供打車排隊時間的預估值。

          • 智能分單:平臺可以利用諸如強化學習等更為復雜的算法來進行訂單的分發(fā)。

          • 乘車安全:平臺可以建立相應的機器學習模型來預測司機和乘客的沖突概率,或者司機對乘客的騷擾概率,進而提升乘車的安全性和乘車體驗。

          通過上面的介紹,我們可以看到數據和算法已經成為網約車業(yè)務中不可替代的決定性要素,而算法與數據中臺則為業(yè)務的快速發(fā)展和智能化升級提供了重要支撐。
          接下來,我們從打車定價和打車安全這兩個核心場景進行探討,并闡述算法與數據中臺在這些場景中的應用。
          案例一:打車定價場景
          網約車平臺需要同時兼顧乘客、司機和平臺這三方的利益訴求,而在所有因素中出行價格則占有核心地位,它直接影響了乘客對出行方式的選擇、司機的服務利潤以及平臺的商業(yè)利益。本節(jié)我們將對打車定價場景進行探討并分析算法與數據中臺在該場景中的作用。

          1. 場景描述

          為了兼顧靈活性和執(zhí)行效率,網約車平臺一般會將規(guī)則定價策略和智能定價策略結合起來,進而實現動態(tài)價格。
          • 規(guī)則定價策略:

          它與傳統(tǒng)的出租車定價策略并無本質區(qū)別,該策略會按照城市、里程和時間等有明確定義的規(guī)則來產生基準的出行價格,這些規(guī)則也都會以明文的形式在打車應用中進行公布。由于這部分內容一般由運營團隊和數據分析團隊來制定,因此這里不做過多描述。

          • 智能定價策略:

          作為規(guī)則定價的重要補充,智能定價是網約車平臺所具備的獨特定價方式。相比于司機和乘客,網約車平臺不僅可以感知全局的即時供需情況,它也擁有豐富的歷史數據積累。智能定價的一個核心目標是負責統(tǒng)籌全局來滿足乘客和司機的需求,并在此基礎上完成自己的商業(yè)目標。

          一個完善的動態(tài)價格機制需要考慮閑置運力、乘客意愿、使用場景以及歷史數據等一系列因素,由于現實場景的復雜性,在專家規(guī)則的基礎上,平臺需要更多地借助數據和算法來進行價格的動態(tài)調整。舉例來說,價格的動態(tài)上浮比例以及下浮折扣率都需要基于大量歷史數據和準確的機器學習模型來計算得到。由此可見,算法與數據中臺在智能定價場景中有著舉足輕重的影響,我們可以用下圖來描述它在這個業(yè)務場景中的應用。
          算法與數據中臺在定價場景中的應用

          2 ?價格動態(tài)下浮策略

          價格的動態(tài)下浮在網約車平臺里十分常見,其通常采用抵用券、打折和一口價等方式來展現。

          打車價格浮動示意圖
          價格的動態(tài)下浮是一定發(fā)展階段下和某些市場營銷需求下的運營手段,也是實現三方利益最大化的技術手段。一般來說,通過對價格進行合理尺度的下浮操作,平臺可以在自己利潤正向的前提下來促進訂單總量和司機留存的提升。
          網約車平臺里的動態(tài)定價策略通常涉及訂單轉化率和訂單價值這兩個核心指標。
          前者衡量的是乘客看到預估價格等信息后所表現出來的用車意愿的強烈程度,后者衡量的是訂單的實際價值。訂單價值在不同的平臺或者不同的運營階段有著不同的含義,平臺既可以將訂單價值定義為訂單費用的數額,也可以把它定義為司機在單位時間內的收益。價格下浮定價策略的一個典型應用場景就是尋找到那些訂單轉化率很低但是訂單價值卻很高的訂單,并針對這些訂單進行降價操作。
          價格下浮定價策略會給予這類訂單一定比例的折扣(如下圖),以便在保障訂單價值不受過大損失的情況下來快速提升訂單轉化率,從而實現整體利益的最大化。
          打車定價場景下的訂單轉化率和訂單價值的關系
          降價的幅度通常以折扣率來表示,因此我們可以建立折扣率和訂單轉化率之間的關系,這種關系完全可以通過機器學習模型來描述,其中折扣率是該模型中一個非常重要的特征。

          訂單轉化率模型的特征選擇和模型演進方向
          在特征選擇方面除了折扣率,乘客的畫像特征、打車記錄特征、行程、預估價格和運力供給等因素也與訂單轉化率有非常大的相關性。在機器學習模型的選擇上,我們也看到了從簡單的 LR 模型到 XGBoost 模型再到DNN模型的演進方向。無論是特征的選擇還是模型的迭代,除了最基本的離線評估,網約車平臺都需要借助算法與數據中臺里的 AB 實驗平臺在真實場景下進行驗證和評估。

          3 ?價格動態(tài)上浮策略

          價格的動態(tài)上浮一般出現在諸如高峰期、極端天氣和特別活動等供需不平衡的場景下。
          在供遠小于需的場景下,由于閑置運力的缺乏,再多的出行訂單也無法被有效滿足,長時間的等待還會嚴重影響乘客的用戶體驗。通過對價格進行合理的動態(tài)上浮,平臺可以迫使部分非剛需乘客放棄用車,從而更好地滿足剛需乘客的用車需求。同時,平臺利用較高的服務報酬也可以有效地吸引其他區(qū)域的空車司機前來接單,從而從更大的空間尺度上來實現供需平衡。
          價格動態(tài)上浮的尺度可以用司機的應答率來衡量,因此我們可以建立價格上浮比例和司機應答率之間的關系,這種關系完全可以通過機器學習模型來描述,其中價格上浮比例是該模型中一個非常重要的特征。在特征選擇方面,除了價格上浮比例,司機應答率與下面這些因素也密切相關。
          • 歷史特征:平均價格、昨天的歷史應答率、一周前的歷史應答率。

          • 實時特征:實時訂單數、實時未播發(fā)訂單數、實時空車司機數。

          • 空間特征:周圍空車司機數、周圍已創(chuàng)建訂單數、周圍搶單和發(fā)單比。

          • 訂單特征:預估價格、預估時間、預估行駛距離、行駛方向。

          從機器學習模型選擇的角度來看,該場景下的模型也經歷了從簡單到復雜的演進。目前來說,深度神經網絡模型已經成為主流選擇。理所當然地,特征和模型的迭代上線都需要將離線評估指標與AB 實驗平臺產生的在線指標作為主要評判依據。
          ?/ 案 例 小 結 /?

          這個案例所闡述的智能定價方式只是網約車平臺里定價策略的一種基本形式,在不同的時期和市場狀況下,網約車平臺所追求的目標是不一樣的。在發(fā)展的初期,平臺追求的是訂單量的最大化而非運營利潤;而在發(fā)展的中后期,平臺則更多地考慮乘客、司機和平臺這三方利益的平衡。在平臺的不同發(fā)展階段以及定價策略的迭代過程中,數據和算法總是發(fā)揮了重要作用,特別是在平臺轉入精細化運營階段后,算法與數據中臺則發(fā)揮了決定性作用。



          案例二:打車安全場景
          出行安全是所有乘客都關心的首要問題。相比于出行費用和出行品質,出行安全對于網約車平臺來說是一個更基本的要求,特別是在多起安全事故之后,對于乘客和司機的安全保障成為網約車行業(yè)中一個極為關切的話題。

          ▊?1. 場景描述

          各類網約車平臺為了切實保障乘客和司機的出行安全,紛紛出臺了實名認證、行程分享、全程錄音等多種安全保障措施。但這些基本上都屬于事后補救措施,要做到事前預防,則需要在撮合訂單和司機過程中進行,這就是本節(jié)所要闡述的派單安全保障機制。
          部分女性乘客可能會有這樣的經歷,在深夜里打車去往地點較為偏僻的地方時,她們往往需要等待較長時間才會有司機接單。同理,對于女性司機來說,在深夜時也基本不會接前往偏僻目的地的乘客訂單,這些現象背后都有派單安全保障機制的參與。派單系統(tǒng)將自動地分析安全事故在各類場景下的可能性,從而避免高風險訂單的分發(fā)。系統(tǒng)通常會結合乘客的出行習慣、司機駕駛習慣、歷史訂單信息和投訴記錄等特征來進行綜合判斷。派單安全保障機制往往需要借助機器學習模型來進行風險預測,它可以在上文中介紹的二分圖匹配算法里降低那些具有較高風險匹配對的權值。
          舉例來說,我們可以為派單安全保障機制建立如下一些機器學習模型。
          • 司乘沖突模型:用來預估司機和乘客發(fā)生沖突的概率。

          • 司機騷擾模型:用來預估司機對乘客實施騷擾的概率。

          • 醉酒傷人模型:用來預估乘客醉酒可能導致傷人的概率。


          2 ?安全策略

          限于篇幅,這里我們僅對司機騷擾模型在派單安全保障機制中的可能應用方案進行探討。

          司機騷擾模型在派單安全保障機制中的應用方案原理示意圖

          派單系統(tǒng)會利用司機騷擾模型來預測乘客訂單 O4 和司機 D1 或司機 D4 之間發(fā)生騷擾的概率。假設該訂單與司機 D4 之間的預估騷擾概率大于某個設定閾值,那么該匹配會被直接過濾;假設該訂單與司機 D3 之間的預估騷擾概率較小,那么該匹配會被降權處理。
          在這類場景下的模型中,乘客和司機雙方的用戶畫像具有突出的特征重要性,具體來說,模型可以考察如下一些特征數據。
          • 乘客特征:年齡、性別、近期訂單次數、用券情況、打車產出選擇等。

          • 司機特征:年齡、性別、駕駛習慣、歷史訂單信息、信用分、投訴記錄等。

          • 訂單信息:目的地坐標、行駛路線、行駛距離、當前時間和天氣等。

          司機騷擾預測這類的安全機制模型和其他場景下的模型有一些不同之處,由于樣本稀疏且實驗成本很高,因此它無法完全依賴 AB 實驗平臺來進行在線評估。這類模型一般會轉而利用訂單請求回放的方式來進行離線評估。在線評估一般只是為了試探模型對諸如應答率和訂單數等其他指標的影響,從而避免過度懲罰對于用戶正常出行需求的負面影響。

          / 案例小結 /

          對于出行安全的保障是網約車平臺得以生存的根本所在,除了全程錄音等事后補救措施,更重要的機制是提前預防安全事故的發(fā)生。在訂單和司機的匹配過程中加入多種與安全策略相關的機器學習模型是一個可行的技術方案。

          本文有刪減,完整案例詳解請見《算法與數據中臺:基于Google、Facebook與微博實踐》一書。

          《算法與數據中臺:基于Google、Facebook與微博實踐》

          詹盈 著


          • 智能數據中臺橫空出世

          • Facebook、Google、Uber、阿里、騰訊技術帶頭人領銜力薦

          本書作者依據在Google、Facebook、新浪微博及滴滴出行等中美一流互聯網公司的實際工作經歷,對算法技術、數據技術,以及圍繞它們進行的技術中臺建設實踐進行了全面的探討,并在此基礎上對信息流推薦、計算廣告及智能出行等核心互聯網業(yè)務進行了案例剖析。


          (掃碼了解本書詳情)

          掃描二維碼添加好友↓

          推薦閱讀

          (點擊標題可跳轉閱讀)

          【必讀經典】機器學習論文清單

          Numpy核心語法和代碼整理匯總!

          數學系的概率論和我們的不太一樣。。。

          【數學史】矩陣和線性代數原來是這么來的

          老鐵,三連支持一下,好嗎?↓↓↓

          瀏覽 39
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  青青草免费在线看视频 | 草在线视频 | 亚洲日韩欧美电影 | 大香蕉久久伊人网 | 熟妇视频在线 |