<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          產(chǎn)品經(jīng)理一定要了解的數(shù)倉知識

          共 3030字,需瀏覽 7分鐘

           ·

          2021-09-11 18:44


          這是Kevin的第 906 
          原創(chuàng),
          持續(xù)日更,做產(chǎn)品經(jīng)理的創(chuàng)業(yè)斜杠青年。


          做產(chǎn)品經(jīng)理一定會或多或少的負責產(chǎn)品的數(shù)據(jù)板塊工作,從基礎的數(shù)據(jù)埋點到數(shù)據(jù)看板、到數(shù)據(jù)報表產(chǎn)品設計,以至于后面數(shù)據(jù)平臺產(chǎn)品設計。

          產(chǎn)品經(jīng)理都需要了解數(shù)據(jù)知識,尤其是數(shù)倉和數(shù)據(jù)庫的知識是非常重要的。


          數(shù)據(jù)庫和數(shù)倉的關系有點像:咖啡廳和星巴克的關系。兩者其實是息息相關的。不過對于很多互聯(lián)網(wǎng)公司早期都會在這方面投入資源和精力。


          傳統(tǒng)的業(yè)務數(shù)據(jù)庫已經(jīng)能夠支持,比如以PMTalk為例


          一階段:公司剛起步,有了基礎的網(wǎng)站和電商購買入口;只需要提供數(shù)據(jù)庫、和服務器單機配置,用戶能夠保證購買成功即可。


          對于管理者和運營來說,關心的是下單量總和、庫存情況。


          二階段:隨著時間和運營策略,流量越來越多。以及提供的商品越來越多,從基礎性能上查詢數(shù)據(jù)變得成本越來越高,同事數(shù)據(jù)顆粒度越來越粗,不能夠回答出:“28女性用戶會在什么時間段下單購買什么樣的商品“這樣的答案


          三階段:為了解決上面需求,開始提供精細化運營的數(shù)據(jù)支持。關注的問題也不再是只有總訂單、總營業(yè)額,還要關注具體各個商品庫存、商品退換貨情況等,同時還要預測未來的訂單峰值,對用戶畫像下的用戶做商品推薦。


          上面3個階段,從簡單的數(shù)據(jù)獲取、到數(shù)據(jù)運營最后到數(shù)據(jù)挖掘,這都離不開數(shù)倉工作。


          數(shù)據(jù)庫和數(shù)倉的關系



          數(shù)據(jù)庫是存儲數(shù)據(jù)以及具體開發(fā)工作中使用的工具,比較受歡迎的數(shù)據(jù)庫有:MySQL,Oracle,SqlServer等。工作里體現(xiàn)的都是關系型數(shù)據(jù)庫,比如我們在美團購買電影票產(chǎn)生的電影票支付信息、和購票記錄,就是購買操作下產(chǎn)生的數(shù)據(jù)。


          而我們在支付寶里查詢的年度賬單,就包含了多個維度數(shù)據(jù),和用戶業(yè)務操作沒關系,是多個數(shù)據(jù)的匯總,就叫做OLAP(聯(lián)機分析處理)




          上面是關系數(shù)據(jù)庫,在開發(fā)過程中為了方便管理,會利用面向對象的概念建里數(shù)據(jù)庫表單,對象與對象之間是獨立的。


          但數(shù)據(jù)庫是存儲元數(shù)據(jù)的地方,元數(shù)據(jù)包含了業(yè)務元數(shù)據(jù)(比如訂單、交易、社區(qū)發(fā)帖量)還有技術元數(shù)據(jù)(日志、埋點)等2個維度。


          經(jīng)過下面的流程,一個數(shù)倉才是算搭建完成,同時產(chǎn)品經(jīng)理要了解前端應用(背后數(shù)倉原理)來完成數(shù)據(jù)報表、數(shù)據(jù)產(chǎn)品的設計


          在開始了解數(shù)據(jù)倉庫之前,我們數(shù)據(jù)處理的分類大致可以分成兩大類:OLTP(聯(lián)機事務處理)和OLAP(聯(lián)機分析處理)。


          • OLTP(聯(lián)機事務處理)就是操作型數(shù)據(jù)庫的主要應用,更側重于基本的、日常的事務處理,包括數(shù)據(jù)的增刪改查。

          • OLAP(聯(lián)機分析處理)就是分析型數(shù)據(jù)庫的主要應用,以多維度的方式分析數(shù)據(jù), 這個后續(xù)會整理。


          兩者的關系對比和區(qū)別,我在網(wǎng)上收集到一張圖??梢圆榭磧烧叩膮^(qū)別和優(yōu)勢,在開發(fā)層面上OL TP是至關重要的,方便了開發(fā)的讀寫操作,減少了數(shù)據(jù)的冗余。



          比如下面就是數(shù)據(jù)庫關系數(shù)據(jù)庫和數(shù)倉下的數(shù)據(jù)庫表單


          基于書下的屬性建立的數(shù)據(jù)表單,比如書的作者、書的分類、書的出版編號。各自屬性都是獨立管理,方便開發(fā)者進行單獨屬性的讀寫操作


          而基于分析查詢的數(shù)據(jù)庫,則會把若干的數(shù)據(jù)庫合并為一張表。雖然有冗余數(shù)據(jù),但至少在查詢的效率會比前者更快。在一張表里就可以查詢到所需要的數(shù)據(jù)


          數(shù)據(jù)倉庫是什么


          數(shù)倉也是數(shù)據(jù)庫的一種形態(tài),但以面向分析的存儲系統(tǒng)。

          也就是說數(shù)倉是存數(shù)據(jù)的,企業(yè)的各種數(shù)據(jù)往里面塞,主要目的是為了有效分析數(shù)據(jù),后續(xù)會基于它產(chǎn)出供分析挖掘的數(shù)據(jù),或者數(shù)據(jù)應用需要的數(shù)。

          在數(shù)倉里,會分為4個層面。從基礎設施到應用層分別為下面

          數(shù)據(jù)源:數(shù)據(jù)來源,比如埋點采集,客戶上報,API等、或自由服務數(shù)據(jù)。

          ODS層:數(shù)據(jù)倉庫源頭系統(tǒng)的數(shù)據(jù)表通常會原封不動地存儲一份,這稱為ODS層, ODS層也經(jīng)常會被稱為準備區(qū)。ODS會做一些簡單的ETL,但屬于數(shù)據(jù)共享區(qū)為接下來的DW和DM提供所需要的數(shù)據(jù)源。

          DW層:數(shù)據(jù)倉庫明細層和數(shù)據(jù)倉庫匯總層是數(shù)據(jù)倉庫的主題內(nèi)容。這一層的數(shù)據(jù)經(jīng)過了ETL后變成了可以用的分析數(shù)據(jù),通過維度、事件搭建的數(shù)據(jù)模型,成了DM前一環(huán)節(jié)。

          DWS層(前端應用層):應用層匯總層,主要是將DWD和DWS的明細數(shù)據(jù)在hadoop平臺進行匯總,然后將產(chǎn)生的結果同步到DWS數(shù)據(jù)庫,提供給各個應用。


          數(shù)據(jù)庫為數(shù)據(jù)分析提供的4類數(shù)據(jù)源


          在DW層面里,各種數(shù)據(jù)源中采集和存儲到數(shù)據(jù)存儲上,期間有可能會做一些ETL操作。數(shù)據(jù)源種類可以有多種,分為下面4類:

          • 日志:所占份額最大,存儲在備份服務器上

          • 業(yè)務數(shù)據(jù)庫:如Mysql、Oracle等數(shù)據(jù)

          • 來自HTTP/FTP的數(shù)據(jù):合作伙伴提供的接口

          • 其他數(shù)據(jù)源:如Excel等或手工錄入的數(shù)據(jù)


          從數(shù)據(jù)源到DW的過程前,還有一個ODS過程。匯聚了各種數(shù)據(jù)源進行存儲。經(jīng)過ETL后才會走進DW流程。

          ETL分別代表:抽取extraction、轉換transformation、加載load。

          (1)抽取(Extract)

          從數(shù)據(jù)來源提取指定數(shù)據(jù),數(shù)據(jù)是需要指定的,不是所有的數(shù)據(jù)都要抽取過來, 某些源數(shù)據(jù)對于分析而言沒有價值,或者其可能產(chǎn)生的價值,遠低于儲存這些數(shù)據(jù)所需要的數(shù)據(jù)倉庫的實現(xiàn)和性能上的成本,就不會抽取了。

          (2)轉換(Transform)

          將數(shù)據(jù)轉換為指定格式并進行數(shù)據(jù)清洗保證數(shù)據(jù)質量。

          數(shù)據(jù)清洗,如會對不完整數(shù)據(jù),錯誤數(shù)據(jù)和重復數(shù)據(jù)等臟數(shù)據(jù)進行清洗。

          (3)加載(Load)

          將轉換過后的數(shù)據(jù)加載到目標數(shù)據(jù)倉庫,加載可分為兩種:

          全量加載:一次對全部數(shù)據(jù)進行加載。

          增量加載:一般首次需要全量加載,但是在第二次周期或者第三次周期的時候仍然全量加載的話,耗費了極大的物理和時間資源。

          以上抽取、轉化、加載ETL的實踐具體可以用下面4個案例

          • 空值處理:將空值替換為特定值或直接過濾掉

          • 驗證數(shù)據(jù)正確性:把不符合業(yè)務含義的數(shù)據(jù)做統(tǒng)一處理

          • 規(guī)范數(shù)據(jù)格式:比如把所有日期都規(guī)范成YYYY-MM-DD的格式

          • 數(shù)據(jù)轉碼:把一個源數(shù)據(jù)中用編碼表示的字段通過關聯(lián)編碼表轉換成代表其真實意義的值

          • 數(shù)據(jù)標準統(tǒng)一:比如在源數(shù)據(jù)中表示男女的方式有很多種,在抽取的時候直接根據(jù)模型中定義的值做轉化。


          對于產(chǎn)品經(jīng)理來說,要知道ETL其實是整個數(shù)據(jù)分析、數(shù)倉搭建最費時間的過程。首先要做數(shù)據(jù)源的收集、同時還要收集并制定各個業(yè)務方的數(shù)據(jù)需求和指標。

          數(shù)據(jù)倉庫有AWS,Hive等




          數(shù)倉和產(chǎn)品經(jīng)理之間的關系



          有了上面的數(shù)倉了解和數(shù)據(jù)指標,接下來產(chǎn)品經(jīng)理要為運營、管理者等用戶提供一套可以查詢數(shù)據(jù)、以及基于數(shù)據(jù)挖掘獲得的數(shù)據(jù)預測建議。這些以前端展示,應用工具主要就是和數(shù)據(jù)倉庫不同環(huán)節(jié)的數(shù)據(jù)交互,這些應用一般可以分為4類:


          • 數(shù)據(jù)查詢和報表工具

          • BI即席分析工具

          • 數(shù)據(jù)挖掘工具

          • 各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應用開發(fā)工具


          針對數(shù)據(jù)挖掘要說明下


          數(shù)據(jù)挖掘是為管理者提供預判建議,比如618活動、雙12活動應該上架什么商品、某地區(qū)用戶應該開展什么樣的商品活動,實際上就是數(shù)據(jù)挖掘的深度應用


          今天的分享就在這


          今日Bonus:加我好友 pmtalk001,領取直播原型部件庫,同時還有運營模版帶你了解快速提升產(chǎn)品運營進階



          Kevin帶新人第2期21天小程序訓練營



          我在9月29日到10月21日,開展了2020年第2期21天小程序訓練營。如果你打算轉型數(shù)據(jù)產(chǎn)品經(jīng)理、學數(shù)據(jù)知識,歡迎報名


          點擊卡片即可跳轉




          瀏覽 21
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  青娱乐无码视频 | 婷婷综合色| 国产精品久久久久久久久AV竹菊 | 免费久久大香蕉 | 九色视频网 |