<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          數(shù)據(jù)驅(qū)動的算法工程落地!

          共 4951字,需瀏覽 10分鐘

           ·

          2021-10-08 22:32

          ↑↑↑關(guān)注后"星標(biāo)"Datawhale
          每日干貨 & 每月組隊學(xué)習(xí),不錯過
           Datawhale干貨 
          開源數(shù)據(jù)平臺 格物鈦 X Datawhale

          導(dǎo)讀:隨著科技浪潮的演進,數(shù)據(jù)已然成為第五大生產(chǎn)要素,越來越多的企業(yè)開啟數(shù)字化轉(zhuǎn)型,然而目前企業(yè)的現(xiàn)狀卻是數(shù)據(jù)人才的儲備遠遠不足,學(xué)生卻求職內(nèi)卷,所學(xué)與企業(yè)具體生產(chǎn)環(huán)境匹配極低。

          本文邀請了雪湖科技算法專家張益興、格物鈦首席產(chǎn)品官王廣宇帶來分享:企業(yè)面臨的數(shù)據(jù)問題是什么,以及企業(yè)實際工程落地的經(jīng)驗。分為三部分,第一部分是會先講數(shù)據(jù)驅(qū)動算法目前的進展,第二部分是算法部門分工與招人痛點,第三部分聊聊數(shù)據(jù)管理的痛點問題。

          01 張益新:數(shù)據(jù)驅(qū)動算法的進展

          人工智能在國內(nèi)2017年后才開始火熱,資本市場也競相追逐,但其實在 1950 年左右就出來了人工智能概念。但當(dāng)時沒得到很好的發(fā)展,出現(xiàn)了所謂第一次危機的,到了 60- 70 年代,又出現(xiàn)了第二次危機,明斯基等人工智能大拿論斷說人工智能是無法實現(xiàn)的。直到布爾茲曼基的算法出現(xiàn)打破了這一論斷,80 年代的時候,現(xiàn)在我們大家所熟知的圖靈獎深度學(xué)習(xí)三巨頭出現(xiàn),終于在 2008 年開始有一些轉(zhuǎn)機。吳恩達用 GPU 解決了數(shù)據(jù)集訓(xùn)練問題,才把我們目前使用的這種基于數(shù)據(jù)的方法訓(xùn)練這條路走通了。

          我們現(xiàn)在還是處于弱人工智能時代,是有多少數(shù)據(jù),就有多少智能,有多少人工就有多少智能。目前的人工智能分為機器感知、學(xué)習(xí)、語言、記憶、決策幾個方向?,F(xiàn)在我們能落地的大部分都屬于感知層級。語音和自然語言處理等處理的數(shù)據(jù)類型不一樣,但也屬于基于數(shù)據(jù)驅(qū)動的類型。

          在目前的弱人工智能階段,是一個趨于數(shù)據(jù)驅(qū)動的過程。工程落地的大致流程步驟,其實就是我們基于深度學(xué)習(xí)的框架tensorflow等所架構(gòu)的一套叫做生產(chǎn)環(huán)境部署的流程。從最初的提取和驗證數(shù)據(jù),到訓(xùn)練分析模型,最后部署到生產(chǎn)環(huán)境中,這是一套環(huán)環(huán)相扣的標(biāo)準(zhǔn)流程。只要把每一步操作都鏈接起來,有機會形成一個快速落地的工程,這是在算法落地中非常看重的一環(huán)。

          舉個例子,在我們做安防場景的實際過程中,第一步其實不是數(shù)據(jù)也不是算法,而是設(shè)備的安裝。在一些特殊性的場景,不管是機場海關(guān)港口銀行,還是傳統(tǒng)的安防場景。我們都很關(guān)心攝像頭的安裝位置等所決定的最后帶來的精度上限,是否滿足客戶需求,能夠完成驗收?,F(xiàn)在做激光雷達這一塊,還涉及到產(chǎn)品的選型,產(chǎn)品價格從六七千到十幾萬不等,要根據(jù)施工現(xiàn)場的限制和甲方的需求來。之后還需要把涉及到的交通局、城市管理局、城市規(guī)劃局等各個部門拉到一起,去處理設(shè)計圖紙等。

          對于企業(yè)中來說,算法里的研究、出一個好的trick、訓(xùn)練一個好的模型,這塊對于最后的工程落地可能只有10%的影響,在我所接觸的客戶范圍內(nèi),其實前面提到的設(shè)備安裝這部分就占了50%的比重。

          設(shè)備安裝后的數(shù)據(jù)采集,就各不相同了。有些可以遠程采集,有些需要到本地去。比如銀行等保密級別比較高的場景,沒有外網(wǎng)就需要到現(xiàn)場采集。有了數(shù)據(jù)后面臨數(shù)據(jù)清洗的問題,主要是剔除無效數(shù)據(jù),之后將有效數(shù)據(jù)挑選得到高質(zhì)量的數(shù)據(jù)。

          在整個算法落地過程中,除了設(shè)備安裝占50%外,第二大重要的就是數(shù)據(jù)標(biāo)注了,占比可能要達到20%。這部分很多是管理性的問題,而不是技術(shù)性。數(shù)據(jù)驗收之后會將結(jié)構(gòu)化的數(shù)據(jù)送入模型進行訓(xùn)練,進行模型部署。

          02 張益新:算法部門分工與招聘痛點

          我們可以根據(jù)算法落地過程,將算法部門拆分為三塊。分別是數(shù)據(jù)管理、算法研究和工程落地。數(shù)據(jù)管理部門會提供數(shù)據(jù)給研究人員,算法研究人員對應(yīng)出不同的模型,讓工程落地人員去部署在不同的GPU上。有些公司會將數(shù)據(jù)管理外包出去。

          對算法部門中這三類人員的能力需求各不相同。

          數(shù)據(jù)管理的人員需要完成從數(shù)據(jù)采集和標(biāo)注到驗收這一塊,我們叫做“臟活累活”的工作。對于數(shù)據(jù)管理人員,會要求有較強的運營能力,編程能力也需要,但懂得基本操作就可以。

          算法研究人員需要有創(chuàng)新研究能力。提出一些新的網(wǎng)絡(luò)結(jié)構(gòu)、新的訓(xùn)練方法、trick,或者把整體精度提到的方法。這背后需要一定的數(shù)學(xué)能力支撐,為什么這么設(shè)計有效?從哪個方向去才能達到需要的精度或速度?一個BN怎么去設(shè)計?如果要走在算法研究前列,這些都是必要的研究能力。

          另外就是工程落地人員。我目前招聘了200人左右,只通過了2、3人。大部分所謂的算法人員,他們的工程能力都普遍偏弱有一些好的想法,但自己實現(xiàn)不了,比如編程,除了Python,一般還需要C++的能力(Python很好也可以),需要自己可以用C++去把一些功能實現(xiàn)出來。

          目前遇到的招聘痛點,對于數(shù)據(jù)管理人員來說,是人員的流動性較大,我們正在思考邏輯性解決的方案。對于算法研究人員,主要是數(shù)學(xué)能力不夠,提不出新的結(jié)構(gòu)等等。對于工程人員,則是他們的編程能力需要提高,要懂一些深度學(xué)習(xí),了解目前使用的一些模型。

          03 王廣宇:企業(yè)的數(shù)據(jù)管理痛點

          這部分由格物鈦聯(lián)合創(chuàng)始人、首席產(chǎn)品官王廣宇解答。

          Q

          在公司數(shù)據(jù)采集的流程中,會遇到很多不同的數(shù)據(jù)格式,尤其是點云中的obj格式、pcd格式等,還有一些自定義的csv等等,這些一般怎么處理?

          答:我們當(dāng)時做數(shù)據(jù)平臺也遇到了很多格式問題。過去的文件組織格式,是直接存儲在文件夾里。比如可能是一個激光雷達的文件,里面再有一個描述文件去描述它的label等信息。如果有十萬個一百萬個,里面就去乘以十萬或者一百萬。尤其是當(dāng)公司標(biāo)準(zhǔn)沒有統(tǒng)一時,可能會出現(xiàn)一個災(zāi)難,就是A和B的存儲格式完全不一樣。我們提供了一個統(tǒng)一的數(shù)據(jù)存儲方法,只要按照存儲方法,我們會自動在平臺上去組織這些文件。當(dāng)讀取文件時,讀的是我們提供的一個對象。這樣一來,工程師就會有一個統(tǒng)一的接口去調(diào)用這些信息,而不需要去感知數(shù)據(jù)的格式。

          第二個是當(dāng)可視化渲染或者讀取數(shù)據(jù)時,有時候可能需要感知數(shù)據(jù)格式,將其解析出來。目前格物鈦平臺已經(jīng)可以適配大部分格式,此外,未來也會將適配標(biāo)準(zhǔn)逐步開放出來,來應(yīng)對未來自定義文件存儲格式等場景。

          第三個管理數(shù)據(jù)。不僅是數(shù)據(jù)存儲,還有數(shù)據(jù)標(biāo)注這個關(guān)鍵信息。大家都用過很多公開數(shù)據(jù)集,在用的過程中,每使用一個數(shù)據(jù)集,就要去了解一個數(shù)據(jù)格式。即使是目標(biāo)檢測也可能有不同的描述方法,激光雷達的描述方法就更多了。我們也在與一些企業(yè)和社區(qū)聯(lián)合,盡量做一些適合應(yīng)用的統(tǒng)一格式,希望在今后數(shù)據(jù)集的使用過程中,所有調(diào)用數(shù)據(jù)和讀取標(biāo)簽的格式是一致的,這樣就大幅增加數(shù)據(jù)的流通性,降低了使用門檻。

          Q

          從企業(yè)拿到第一手的原始數(shù)據(jù),到最后變成數(shù)據(jù)集,過程中會有很多中間性數(shù)據(jù),這些數(shù)據(jù)不確定是否有價值,該怎么處理?

          答:這是一個要平衡的過程。如果使用頻次很高,可以選擇保存下來,因為高頻使用每次抽取數(shù)據(jù)所耗費的時間和算力,遠大于存儲成本;如果很長時間采用一次,就丟棄掉。重要的是要把獲取中間數(shù)據(jù)的方法保留下來,當(dāng)想用的時候可以很快從數(shù)據(jù)中提取出來。

          我們在平臺上也遇到很多用戶有這種需求,所以提供了一個自動化的能力,把數(shù)據(jù)的自動化處理流和數(shù)據(jù)本身綁在一起,作為一個版本。

          Q

          關(guān)于數(shù)據(jù)存儲,我們所有項目全開的話,數(shù)據(jù)量會達到PB級,一直在本地買硬盤很難持續(xù),這方面有什么建議?

          答:當(dāng)數(shù)據(jù)規(guī)模很大時,反而建議存儲在云上。因為云上存儲并不像我們想象的那么貴。PB的數(shù)據(jù)中不是所有的都是高頻的活躍的,可以把其中有價值的放在熱存儲里面,低頻的放在冷存儲里——冷存儲是非常便宜的。另外,本地存儲會需要運維團隊去保證數(shù)據(jù)可靠性,甚至使用分布式存儲等等,如果存放在云上,運維成本會指數(shù)級下降,可能一兩個工程師就解決問題了。

          關(guān)于云的可靠性問題,其實比很多人想象的要高,安全性是所有云廠商最在意的問題,它提供的賬號等合規(guī)體質(zhì)往往比本地更成熟,可靠性都在六個、七個9以上。我們目前采取的方式是一方面和云廠商合作,另一方面提供授權(quán)管理服務(wù),面向整個人工智能開發(fā)團隊提供版本管理、格式管理、可視化等等。當(dāng)然,當(dāng)數(shù)據(jù)上云時,可能算力也要上云,來避免傳輸成本,我的客戶會有類似案例。

          Q

          關(guān)于這一點,我們目前的項目是外地采集數(shù)據(jù),回到本地訓(xùn)練,想知道是否可以直接在云上進行?

          答:有些客戶是使用本地之前遺留下來的GPU做一些不緊急不耗時的任務(wù),大規(guī)模的、并行的任務(wù)放在云上進行,采用這種混合方式。之前對接過一家美國無人車公司,是不需要數(shù)據(jù)工程師感知數(shù)據(jù)在哪里,要使用數(shù)據(jù)集訓(xùn)練時,會自動同步一份到云上,自然開啟一個服務(wù)器跑起來,中間和GPU、算力、調(diào)度等的交涉都放在后臺,不需要算法工程師考慮。

          Q

          我們目前交付給客戶的主要是部署這一塊,邊緣性的內(nèi)容可能覆蓋不到,希望把從訓(xùn)練到數(shù)據(jù)整個流程都交付給客戶,做一套管理平臺,想知道這里的可行性。

          答:我們目前對接的一家公司,算法負責(zé)人就有類似需求。他們需要用檢測感知算法,配上GPU算力都部署到一些停車場,去檢驗貨車或卡車停放得是否合規(guī),人員是否在合規(guī)范圍內(nèi)行走。需求方的變動可能兩三天就會變,比如過去識別工作服,只需要識別藍色和灰色,突然有一天就多了個紫色的。這時如果沒有一個很好的方案,成本會非常高。大概估算下來需要三個工程師一個月左右,快20萬的成本。如果這件事可以做成自動化,比如捕捉這種case進入異常流程,積攢數(shù)據(jù)量到一定程度就生成一個數(shù)據(jù)集,自動發(fā)到標(biāo)注平臺,然后自動訓(xùn)練、優(yōu)化再到應(yīng)用。如果整個流程可以壓縮到一周之內(nèi),他的產(chǎn)品將變得非常有競爭力。我認為這部分事情是可以自動化的,不能完全自動化的部分可以通過對客戶的一些簡單教學(xué)搞定。

          現(xiàn)場問答

          Q

          對于技術(shù)面試官來說,對校招生做算法工程師看重的能力是什么?

          張益新:我最近幾年面試了200人,大概也就招了2、3個。首先深度學(xué)習(xí)的反向傳播一定要會,自己要可以手推,最好能用Python、C++實現(xiàn)一遍,這個是基礎(chǔ)。你要把整個CNN最起碼  Batch Normalization(批量歸一化)整明白,就是每一層的map 剪去均值除以方差,開了根號以后,阿爾法乘以 beta 這個公式為什么能這么推導(dǎo),到這一步其實就差不多了。如果這些都會,可能會問為什么這么設(shè)計,BN背后的原理等,深度學(xué)習(xí)的基礎(chǔ)知識和背后的邏輯關(guān)系、數(shù)學(xué)原理等。此外就是一些C++的內(nèi)容,我們對工程能力的要求很高,算法能力我們這邊會的人都可以叫,但寫代碼的能力怎么樣是我最看重的,因為創(chuàng)業(yè)公司的性質(zhì)是這樣。此外最好有一些github上的開源項目、或提交了一些bug,說明是圈子里的人。

          Q

          對于醫(yī)療上的敏感數(shù)據(jù),如何做數(shù)據(jù)管理?

          王廣宇:首先是對于身份證等人物標(biāo)識進行脫敏處理,其次要提供一個明確的訪問權(quán)限,誰可以訪問數(shù)據(jù)、誰可以管理,誰可以使用,同時所有的操作記錄都要保存下來,這是在合規(guī)上非常硬性的要求。

          Q

          數(shù)據(jù)分析師會參與數(shù)據(jù)管理工作嗎?還是只有業(yè)務(wù)上在使用?

          王廣宇:如果把數(shù)據(jù)看成是機器學(xué)習(xí)的代碼,不同于以往用于數(shù)據(jù)分析、數(shù)據(jù)決策的BI數(shù)據(jù),數(shù)據(jù)在機器學(xué)習(xí)中更多是一種核心生產(chǎn)資料,相當(dāng)于帶功能的代碼一樣。如果把它看作是開發(fā)的流程,有很多人會參與。數(shù)據(jù)分析是也可能參與到其中,不是結(jié)構(gòu)化數(shù)據(jù)的根系,可能是到底要加多少數(shù)據(jù),加哪些數(shù)據(jù)會使模型迭代更好、更有效。

          Q

          企業(yè)在數(shù)據(jù)的收集、標(biāo)注成本會很高,如何處理?

          王廣宇:在收集這一塊,對于項目制的公司,可能會按照項目單獨收集,這是不可避免的。有很多企業(yè)已有成熟的產(chǎn)品,這時候去收集數(shù)據(jù)不同于我們傳統(tǒng)的模式,而是可能在很多場景的邊緣布算法trigger,進行特定收集、人工檢查后標(biāo)注。這時候標(biāo)注就有很多方式了,可以根據(jù)之前的訓(xùn)練模型進行預(yù)標(biāo)注。這時候大量的標(biāo)注成本是花在了質(zhì)檢上,來保證數(shù)據(jù)質(zhì)量,如果標(biāo)注團隊不行,可能要花上幾周甚至上月的時間去解決質(zhì)檢問題。

          這部分是企業(yè)很需要的工程能力,如果有人可以提升質(zhì)檢效率,這個價值可能比寫一個算法、或模型的價值還要大,因為大幅縮短了整個研發(fā)周期。

          分享嘉賓:

          整理不易,三連
          瀏覽 41
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  18XXX亚洲HD护士JD | 影音先锋AV在线资源网站 | 中文字幕国产av 中文字幕国产豆花 | 国产黄色电影在线免费观看 | 蝌蚪窝成人网 |