<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          基于 Flink 搭建實(shí)時(shí)平臺(tái)

          共 5237字,需瀏覽 11分鐘

           ·

          2021-10-29 00:59

          1一、前言

          在大數(shù)據(jù)時(shí)代,金融科技公司通常借助消費(fèi)數(shù)據(jù)來(lái)綜合評(píng)估用戶的信用和還款能力。這個(gè)過(guò)程中,某些中介機(jī)構(gòu)會(huì)搜集大量的號(hào)并進(jìn)行“養(yǎng)號(hào)”工作,即在一年周期里讓這些號(hào)形成正常的消費(fèi)、通訊記錄,目的是將這些號(hào)“培養(yǎng)”得非常健康,然后賣(mài)給有欺詐意向的用戶。這類用戶通過(guò)網(wǎng)上信息提交審核,騙到貸款后就“銷(xiāo)聲匿跡”了。

          那么,如何更快速地預(yù)防或甄別可能的欺詐行為?如何從超大規(guī)模、高并發(fā)、多維度的數(shù)據(jù)中實(shí)現(xiàn)在線實(shí)時(shí)反欺詐?這些都是金融科技公司當(dāng)下面臨的主要難題。

          針對(duì)這些問(wèn)題,InfoQ 專訪玖富集團(tuán),揭秘基于 Flink 的超大規(guī)模在線實(shí)時(shí)反欺詐技術(shù)是如何快速處理海量數(shù)據(jù)并打造良好的用戶體驗(yàn)。

          2二、在線實(shí)時(shí)反欺詐的難點(diǎn)和痛點(diǎn)

          有三類常見(jiàn)的金融欺詐場(chǎng)景:

          • 一是材料偽造。這是早年需要提交紙質(zhì)材料時(shí)期常見(jiàn)的欺詐;
          • 二是“養(yǎng)號(hào)”,常見(jiàn)于中介機(jī)構(gòu),通過(guò)收取服務(wù)費(fèi)來(lái)維護(hù)大量號(hào)的健康狀態(tài),賣(mài)給有欺詐意向的用戶進(jìn)行貸款申請(qǐng);
          • 三是來(lái)自于專業(yè)黑客的威脅,他們通過(guò)尋找系統(tǒng)、流程的漏洞等方式,對(duì)賬號(hào)安全構(gòu)成攻擊。

          金融科技因其虛擬性特征,主要風(fēng)險(xiǎn)集中在兩方面:一是欺詐風(fēng)險(xiǎn),二是信用風(fēng)險(xiǎn),因此核心的風(fēng)險(xiǎn)評(píng)估流程就是反欺詐和信用評(píng)估。對(duì)于反欺詐而言,信息核實(shí)、高危人群攔截和實(shí)時(shí)計(jì)算、識(shí)別、決策是其核心風(fēng)控手段。而對(duì)于信用風(fēng)險(xiǎn)的評(píng)估,需要內(nèi)外兼修。

          玖富集團(tuán)對(duì)用戶的信用評(píng)級(jí)主要由玖富集團(tuán)自主研發(fā)的火眼評(píng)分 - 彩虹評(píng)級(jí)系統(tǒng)動(dòng)態(tài)評(píng)估用戶信用情況,覆蓋玖富集團(tuán) C 端全線借貸服務(wù),自上線以來(lái)表現(xiàn)穩(wěn)定,區(qū)分效果明顯。外部也參考了騰訊、阿里等評(píng)分作為參考。

          目前,在線實(shí)時(shí)反欺詐會(huì)面臨各類痛點(diǎn),在玖富集團(tuán)業(yè)務(wù)場(chǎng)景中,主要痛點(diǎn)集中在以下三方面:

          1. 低延時(shí)要求。越是大量數(shù)據(jù)需要計(jì)算,所需時(shí)間越長(zhǎng)。在網(wǎng)貸盛行的年代,經(jīng)常流傳的一句口號(hào)是“三分鐘授信,一分鐘放款”,甚至有的公司打出“一分鐘授信,半分鐘放款”。但是在大數(shù)據(jù)場(chǎng)景中,數(shù)據(jù)分析與處理對(duì)低延時(shí)的需求越來(lái)越高。
          2. 超大規(guī)模實(shí)時(shí)計(jì)算要求。大數(shù)據(jù)場(chǎng)景中,需要對(duì)大規(guī)模數(shù)據(jù)做到實(shí)時(shí)計(jì)算,玖富集團(tuán)內(nèi)部代號(hào)為“伏羲”的 Flink 計(jì)算平臺(tái)每天要在接近 510TB 的數(shù)據(jù)集上做快速的檢索和計(jì)算,用戶的行為改變會(huì)導(dǎo)致數(shù)據(jù)發(fā)生變化,進(jìn)而影響決策。因此對(duì)超大規(guī)模數(shù)據(jù)的實(shí)時(shí)計(jì)算需求越來(lái)越高,確保用戶在出現(xiàn)欺詐行為時(shí)能夠及時(shí)中止交易。
          3. 多維度、高并發(fā)要求。隨著同一業(yè)務(wù)場(chǎng)景下用戶規(guī)模的擴(kuò)增,用戶產(chǎn)生的數(shù)據(jù)也形成爆發(fā)性增長(zhǎng)。在金融場(chǎng)景下,亟需一套完整系統(tǒng)可以實(shí)現(xiàn)按照數(shù)據(jù)各個(gè)維度分析得出風(fēng)險(xiǎn)評(píng)估報(bào)告,根據(jù)用戶特性挖掘用戶潛在需求等;系統(tǒng)獲取用戶產(chǎn)生數(shù)據(jù)最簡(jiǎn)單有效的方法就是流水式數(shù)據(jù),單個(gè)數(shù)據(jù)包里包含了發(fā)生時(shí)間點(diǎn)的各個(gè)維度的所有信息量,這種場(chǎng)景的特性之一就是數(shù)據(jù)高并發(fā),因此對(duì)時(shí)效要求比較高的數(shù)據(jù)分析來(lái)說(shuō)是一個(gè)非常巨大的挑戰(zhàn)。

          針對(duì)目前在線實(shí)時(shí)反欺詐的痛點(diǎn),玖富集團(tuán)采用基于 Flink 的超大規(guī)模在線實(shí)時(shí)反欺詐系統(tǒng),在提升用戶體驗(yàn)的同時(shí),也降低了商業(yè)損失。

          3三、基于 Flink 的超大規(guī)模在線實(shí)時(shí)反欺詐系統(tǒng)

          1、為什么選擇 Flink?

          Flink 開(kāi)源項(xiàng)目是近一兩年大數(shù)據(jù)處理領(lǐng)域冉冉升起的一顆新星。雖然是后起之秀,但在國(guó)內(nèi)許多大型互聯(lián)網(wǎng)企業(yè)的工程實(shí)踐中均有被應(yīng)用,如阿里、美團(tuán)、京東等。那么,在玖富的大數(shù)據(jù)技術(shù)體系迭代中,為何會(huì)選用 Flink 這套流數(shù)據(jù)處理引擎呢?

          從技術(shù)語(yǔ)言角度:Spark 的技術(shù)語(yǔ)言主要是 JAVA 和 Scala,尤其是對(duì) Scala 語(yǔ)言有一定要求。而 Flink 主要是基于 JAVA,編程語(yǔ)言更成熟,通用度更高,修改代碼也更容易。所以從語(yǔ)言層面綜合來(lái)看,F(xiàn)link 相對(duì)較好。Spark、Storm、Flink 技術(shù)選型對(duì)比如下:

          從時(shí)延和吞吐量的角度:Flink 是純粹的流式設(shè)計(jì),流式大數(shù)據(jù)技術(shù)的計(jì)算是邏輯先行,即先定義計(jì)算邏輯,當(dāng)數(shù)據(jù)流過(guò)時(shí),實(shí)時(shí)計(jì)算并保留計(jì)算結(jié)果;當(dāng)需要使用數(shù)據(jù)時(shí),直接調(diào)用計(jì)算結(jié)果即可,無(wú)需再次計(jì)算。

          流式大數(shù)據(jù)技術(shù)可廣泛應(yīng)用于對(duì)數(shù)據(jù)處理時(shí)效性要求較高的場(chǎng)景,如實(shí)時(shí)交易反欺詐。Flink 的時(shí)延和吞吐量方面的性能表現(xiàn)較好,能滿足玖富集團(tuán)對(duì)超大規(guī)模數(shù)據(jù)流在線實(shí)時(shí)計(jì)算的要求。

          相比之下,Spark 主要是小批量處理模式,無(wú)法滿足反欺詐系統(tǒng)實(shí)時(shí)處理大規(guī)模、多維度、高并發(fā)的數(shù)據(jù)流的要求。Storm 雖然是基于流處理,但與 Flink 的性能數(shù)據(jù)相比,F(xiàn)link 吞吐量約為 Storm 的 3~5 倍,F(xiàn)link 在滿吞吐時(shí)的延遲約為 Storm 的一半。綜合來(lái)看,F(xiàn)link 框架本身性能優(yōu)于 Storm。

          從與現(xiàn)有生態(tài)體系結(jié)合的角度:Flink 與超大型計(jì)算和存儲(chǔ)(HBase)的結(jié)合比 Spark 和 Storm 要好很多,同時(shí)接口也更友好。HBase 是整個(gè)系統(tǒng)預(yù)查功能的緩存基礎(chǔ),預(yù)查功能是降低系統(tǒng) p99 延遲最重要的技術(shù)優(yōu)化。

          總的來(lái)說(shuō),F(xiàn)link 是一個(gè)設(shè)計(jì)良好的框架,它不但功能強(qiáng)大,而且性能出色。此外它還有一些比較好的設(shè)計(jì),比如的內(nèi)存管理和流控。但是,由于 Flink 目前成熟度較低,還存在不少問(wèn)題,比如 SQL 支持比較初級(jí),無(wú)法像 Storm 一樣在不停止任務(wù)的情況下動(dòng)態(tài)調(diào)整資源;不能像 Spark 一樣提供很好的 Streaming 和 Static Data 的交互操作等。

          2、超大規(guī)模在線實(shí)時(shí)反欺詐系統(tǒng)架構(gòu)

          線上信貸的基本流程是:由用戶通過(guò) App 發(fā)起需求,App 會(huì)要求用戶填寫(xiě)與授權(quán)相關(guān)的信息,主要目的是評(píng)估用戶的信用額度。之后用戶數(shù)據(jù)會(huì)進(jìn)入后臺(tái)數(shù)據(jù)系統(tǒng)進(jìn)行反欺詐和信用的評(píng)估,審核通過(guò),用戶會(huì)收到信息,賬戶額度開(kāi)通?;?Flink 的超大規(guī)模在線實(shí)時(shí)反欺詐系統(tǒng)架構(gòu)如下:

          對(duì)于該套在線實(shí)時(shí)反欺詐系統(tǒng)的未來(lái)規(guī)劃,玖富第一步會(huì)針對(duì) Flink 技術(shù)本身,結(jié)合玖富在技術(shù)、場(chǎng)景等方面的積累,把基于 Flink 的超大規(guī)模在線實(shí)時(shí)反欺詐系統(tǒng)打造成一款數(shù)據(jù)產(chǎn)品,使其具備向外輸出數(shù)據(jù)資產(chǎn)和數(shù)據(jù)處理的能力。

          其次,玖富技術(shù)團(tuán)隊(duì)也會(huì)持續(xù)投入人力在系統(tǒng)的功能優(yōu)化上,并把它做成一個(gè)開(kāi)源的產(chǎn)品推向社區(qū),讓更多開(kāi)發(fā)人員可以直接使用這個(gè)系統(tǒng)。

          最后,通過(guò)技術(shù)的優(yōu)化進(jìn)一步提升整個(gè)系統(tǒng)的性能,目前該系統(tǒng)的 p99 延遲是 100ms,未來(lái)玖富的下一項(xiàng)目標(biāo)是實(shí)現(xiàn) p99 延遲是 50ms。)

          玖富基于 Flink 的超大規(guī)模在線實(shí)時(shí)反欺詐系統(tǒng)的架構(gòu)分為兩部分:數(shù)據(jù)部分和決策部分。整個(gè)系統(tǒng)的運(yùn)作相當(dāng)于一個(gè)工作流,用戶的數(shù)據(jù)信息以流的形式由一個(gè)節(jié)點(diǎn)傳到下一個(gè)節(jié)點(diǎn),在流轉(zhuǎn)過(guò)程中會(huì)產(chǎn)生大量的決策信息,根據(jù)條件做出篩選和判斷,并把判斷結(jié)果快速推行到下一個(gè)節(jié)點(diǎn),從而實(shí)時(shí)判斷用戶的數(shù)據(jù)情況,進(jìn)而決定是否放款給用戶。

          數(shù)據(jù)部分需要最快速度的加工處理,整個(gè)數(shù)據(jù)處理由四部分完成。

          第一部分是把數(shù)據(jù)從前端最快速地傳遞到后端。基于 Flink 的超大規(guī)模在線實(shí)時(shí)反欺詐系統(tǒng)首先要把數(shù)據(jù)通路加寬,允許更多信息同時(shí)涌入數(shù)據(jù)處理中。

          第二部分是大型的列式存儲(chǔ)集群,主要由 HBase 實(shí)現(xiàn)。HBase 是運(yùn)行在 Hadoop 上的 NoSQL 數(shù)據(jù)庫(kù),它是一個(gè)分布式和可擴(kuò)展的大數(shù)據(jù)倉(cāng)庫(kù),能夠利用 HDFS 的分布式處理模式,并從 Hadoop 的 MapReduce 程序模型中獲益,最關(guān)鍵的是可以提供高并發(fā)讀寫(xiě)操作的支持。HBase 是整個(gè)架構(gòu)最基礎(chǔ)的保障,當(dāng)大量數(shù)據(jù)涌入時(shí)能實(shí)現(xiàn)快速存儲(chǔ),降低寫(xiě)入和讀取數(shù)據(jù)過(guò)程對(duì)系統(tǒng)架構(gòu)的過(guò)度依賴。

          HBase 里有大量的索引,如一級(jí)索引、二級(jí)索引等,對(duì) HBase 的讀寫(xiě)緩存進(jìn)行定制化改造,保證預(yù)查功能的實(shí)現(xiàn)。通過(guò) App 或其他渠道獲取用戶的行為數(shù)據(jù)信息,進(jìn)而推測(cè)用戶的意愿,然后系統(tǒng)開(kāi)始做預(yù)查詢,把用戶的相關(guān)信息放到緩存里,這樣當(dāng)用戶在前端觸發(fā)操作時(shí),后端直接從緩存里調(diào)用數(shù)據(jù)開(kāi)展計(jì)算,極大地提升了數(shù)據(jù)處理速度。在 HBase 緩存里,基本能夠?qū)崿F(xiàn) 99% 的數(shù)據(jù)信息被命中,這依賴于系統(tǒng)強(qiáng)大的用戶感知能力。

          第三部分就是計(jì)算引擎,主要由 Flink 完成。計(jì)算引擎分為兩部分,一個(gè)是過(guò)濾引擎,主要是在大規(guī)模、高并發(fā)數(shù)據(jù)流中對(duì)用戶信息做不同維度的定制化過(guò)濾,目的是降低整個(gè)數(shù)據(jù)計(jì)算的量級(jí)。另一個(gè)是函數(shù)引擎,通過(guò)高度抽象的方法,定制化一些性能非常好的函數(shù),并把這些函數(shù)加載到引擎中去,可以避免開(kāi)發(fā)人員自行修改代碼。過(guò)濾引擎和函數(shù)引擎的結(jié)合,使整個(gè)用戶的數(shù)據(jù)量級(jí)大幅降低,再結(jié)合一些高效的代碼,進(jìn)一步降低延遲。

          Flink 的核心是基于流執(zhí)行引擎,F(xiàn)link 提供了諸多更高抽象層的 API 以方便用戶編寫(xiě)分布式任務(wù),常用的三類 API 如下:

          DataSet API,對(duì)靜態(tài)數(shù)據(jù)進(jìn)行批處理操作,將靜態(tài)數(shù)據(jù)抽象成分布式的數(shù)據(jù)集,用戶可以方便的采用 Flink 提供的各種操作符對(duì)分布式數(shù)據(jù)集進(jìn)行各種操作。

          DataStream API,對(duì)數(shù)據(jù)流進(jìn)行流處理操作,將流式的數(shù)據(jù)抽象成分布式的數(shù)據(jù)流,用戶可以方便的采用 Flink 提供的各種操作符對(duì)分布式數(shù)據(jù)流進(jìn)行各種操作。

          Table API,對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行查詢操作,將結(jié)構(gòu)化數(shù)據(jù)抽象成關(guān)系表,并通過(guò) Flink 提供的類 SQL 的 DSL 對(duì)關(guān)系表進(jìn)行各種查詢操作。

          玖富根據(jù)自身業(yè)務(wù)特點(diǎn),需要對(duì)超大規(guī)模在線實(shí)時(shí)數(shù)據(jù)流進(jìn)行快速處理,因此采用 DataStream API,追求更低的延遲。

          第四部分是算力。算力依賴于 Hadoop 集群,通過(guò) YARN 實(shí)現(xiàn)對(duì)整個(gè)資源的管理,橫向來(lái)說(shuō)具有很好的可擴(kuò)展性。YARN 的基本思想是將資源管理和作業(yè)調(diào)度 / 監(jiān)控的功能分解為單獨(dú)的守護(hù)進(jìn)程,包括兩個(gè)部分,一個(gè)是全局的資源調(diào)度(RM),另一個(gè)是針對(duì)每個(gè)應(yīng)用程序的調(diào)度(AM)。YARN 使得 Hadoop 不再局限于僅支持 MapReduce 一種計(jì)算模型,而是可無(wú)限融入多種計(jì)算框架,且對(duì)這些框架進(jìn)行統(tǒng)一管理和調(diào)度。YARN 架構(gòu)如下:

          3、系統(tǒng)架構(gòu)迭代

          基于 Flink 的超大規(guī)模在線實(shí)時(shí)反欺詐系統(tǒng),在玖富集團(tuán)內(nèi)部經(jīng)歷過(guò)一次比較重大的架構(gòu)迭代。玖富集團(tuán)最初是以 1s 內(nèi)快速得出風(fēng)控結(jié)果為目標(biāo),但是用戶體驗(yàn)不夠快,于是整個(gè)系統(tǒng)進(jìn)行了一次技術(shù)升級(jí),增加了預(yù)查技術(shù)。預(yù)查技術(shù)包括檢索和計(jì)算兩部分,其核心依賴于 Flink 強(qiáng)大的并發(fā)能力。

          在大量數(shù)據(jù)中做快速預(yù)查,利用 Flink 并發(fā)能力進(jìn)行數(shù)據(jù)覆蓋,最后在緩存里命中結(jié)果,從而不必重新進(jìn)行網(wǎng)絡(luò) I/O 查詢、等待返回的過(guò)程。經(jīng)過(guò)部分計(jì)算框架升級(jí),最終系統(tǒng)實(shí)現(xiàn)了 p99 延遲由 1s 降為 100ms 的優(yōu)化。

          4、AI 技術(shù)的應(yīng)用

          在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的質(zhì)量直接影響大數(shù)據(jù)分析處理方法的效果,也影響決策過(guò)程。通過(guò)分析海量數(shù)據(jù),可以從中發(fā)現(xiàn)數(shù)據(jù)集中隱含的模式和規(guī)律。但異常數(shù)據(jù)會(huì)對(duì)分析過(guò)程產(chǎn)生重大干擾。在基于 Flink 的超大規(guī)模在線實(shí)時(shí)反欺詐系統(tǒng)中,利用機(jī)器學(xué)習(xí)進(jìn)行異常點(diǎn)檢測(cè)。異常點(diǎn)檢測(cè)(又稱離群點(diǎn)檢測(cè))是找出其行為不同于預(yù)期對(duì)象的一個(gè)檢測(cè)過(guò)程。這些對(duì)象被稱為異常點(diǎn)或者離群點(diǎn)。

          在大數(shù)據(jù)中的異常數(shù)據(jù)存在如下特點(diǎn):與正常數(shù)據(jù)的表現(xiàn)有明顯的差異;其產(chǎn)生機(jī)制與正常數(shù)據(jù)不同,可能為未知方式;數(shù)據(jù)維度較高。異常點(diǎn)檢測(cè)在信用卡欺詐檢測(cè)中應(yīng)用較多,當(dāng)用戶數(shù)量非常多時(shí),其中一些低信用值的用戶需要被識(shí)別出來(lái),利用機(jī)器學(xué)習(xí)進(jìn)行異常值檢測(cè),把信用值低的用戶篩選出來(lái),再進(jìn)行人工確認(rèn)。

          在基于 Flink 的超大規(guī)模在線實(shí)時(shí)反欺詐系統(tǒng)中也應(yīng)用了 AI 知識(shí)圖譜技術(shù)。社會(huì)是由大大小小的群體組成,同理用戶也有這樣的群體特點(diǎn),用數(shù)據(jù)來(lái)構(gòu)建這些群體的關(guān)系,通過(guò)圖的分割與檢索這兩大類算法深入挖掘數(shù)據(jù)價(jià)值。在實(shí)際應(yīng)用中,如果一個(gè)用戶的信用非常差,已經(jīng)被列入黑名單,那么與他有關(guān)系的用戶都需要重點(diǎn)排查。根據(jù)用戶的行為將用戶進(jìn)行分類,即聚類。各式各樣的聚類算法很多,然后根據(jù)用戶的信息進(jìn)行圖的分割,確定每個(gè)人的風(fēng)險(xiǎn)系數(shù),也可以通過(guò)一些手段打通優(yōu)質(zhì)圈層的通路,引導(dǎo)優(yōu)質(zhì)圈層進(jìn)行信息交互。

          四、基于 Flink 的超大規(guī)模在線實(shí)時(shí)反欺詐系統(tǒng)的未來(lái)規(guī)劃

          對(duì)于該套在線實(shí)時(shí)反欺詐系統(tǒng)的未來(lái)規(guī)劃,玖富第一步會(huì)針對(duì) Flink 技術(shù)本身,結(jié)合玖富在技術(shù)、場(chǎng)景等方面的積累,把基于 Flink 的超大規(guī)模在線實(shí)時(shí)反欺詐系統(tǒng)打造成一款數(shù)據(jù)產(chǎn)品,使其具備向外輸出數(shù)據(jù)資產(chǎn)和數(shù)據(jù)處理的能力。

          其次,玖富技術(shù)團(tuán)隊(duì)也會(huì)持續(xù)投入人力在系統(tǒng)的功能優(yōu)化上,并把它做成一個(gè)開(kāi)源的產(chǎn)品推向社區(qū),讓更多開(kāi)發(fā)人員可以直接使用這個(gè)系統(tǒng)。

          最后,通過(guò)技術(shù)的優(yōu)化進(jìn)一步提升整個(gè)系統(tǒng)的性能,目前該系統(tǒng)的 p99 延遲是 100ms,未來(lái)的下一項(xiàng)目標(biāo)是實(shí)現(xiàn) p99 延遲是 50ms。

          瀏覽 61
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  精品国产亚洲AV | 亚洲欧洲日本国产 | 日本乱伦A片 | 天天爽夜夜 | 男女拍拍视频免费看 |