<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          費(fèi)解!比模型算法更牛的竟然是它?

          共 2790字,需瀏覽 6分鐘

           ·

          2021-09-02 19:38

          點(diǎn)擊“開發(fā)者技術(shù)前線”,選擇“星標(biāo)??”

          讓一部分開發(fā)者看到未來

          作者:Dario Radecic,Medium 高質(zhì)技術(shù)博主  
          編譯:頌賢
          一般的 AI 課程會(huì)介紹很多如何通過參數(shù)優(yōu)化來提高機(jī)器學(xué)習(xí)模型準(zhǔn)確性的方法,然而這些方法通常都存在一定的局限性。這是因?yàn)槲覀兂3:鲆暳爽F(xiàn)代機(jī)器學(xué)習(xí)一個(gè)非常重要的核心——數(shù)據(jù)。如果我們沒有處理好訓(xùn)練數(shù)據(jù)沒,上百個(gè)小時(shí)的時(shí)間都會(huì)被浪費(fèi)在調(diào)整一個(gè)低質(zhì)量數(shù)據(jù)訓(xùn)練出來的模型上,模型的準(zhǔn)確度很容易就會(huì)低于預(yù)期,而這和模型調(diào)優(yōu)是沒有太大關(guān)系的。怎樣才能避免這樣的問題呢?
          粗略地看,其實(shí)每個(gè)AI項(xiàng)目都由兩部分組成:模型和數(shù)據(jù)。對于代碼這部分,我們總能使用第三方庫來盡可能地提高代碼質(zhì)量,但從來沒有人告訴我們該如何充分提升數(shù)據(jù)的質(zhì)量。這就是本文想要介紹的新思路:以數(shù)據(jù)為中心的AI。究竟什么是以數(shù)據(jù)為中心的AI?數(shù)據(jù)的數(shù)量與質(zhì)量到底哪一個(gè)優(yōu)先級(jí)更高?哪里可以找到好的數(shù)據(jù)集?這些問題本文都將帶大家探討。

          什么是以數(shù)據(jù)為中心的AI?

          既然AI由模型和數(shù)據(jù)兩部分組成,那么我們可以想到有兩種基本思路來指導(dǎo)我們的機(jī)器學(xué)習(xí):
          • 以模型為中心: 通過改進(jìn)模型來提升表現(xiàn)

          • 以數(shù)據(jù)為中心: 通過改進(jìn)數(shù)據(jù)來提升表現(xiàn)

          其實(shí),以數(shù)據(jù)為中心的AI(data-centric AI)這一概念是吳恩達(dá)(Andrew Ng)的發(fā)明。吳恩達(dá)早前在油管上做了一次直播問答,專門講解了什么是以數(shù)據(jù)為中心的AI。他提出,最近發(fā)表的學(xué)術(shù)論文中,99%都是在談?wù)撃P?,只?%是以數(shù)據(jù)為中心的。其中有一句話特別值得注意:“別再花太多心思在模型優(yōu)化上了”(your model architecture is good enough)。
          吳恩達(dá)何出此言呢?ResNet, VGG, EfficientNet等學(xué)術(shù)界各路天才的種種智慧結(jié)晶,已經(jīng)讓我們現(xiàn)在能夠接觸到的模型架構(gòu)變得非常強(qiáng)大了。試圖再站在這些巨人的肩膀上改善她們的工作只能達(dá)到杯水車薪的效果。
          不過,以模型為中心的思路的確更適合那些喜歡鉆研理論的人,她們可以直接把手頭的知識(shí)應(yīng)用到具體場景中提升模型性能。而且,以數(shù)據(jù)為中心的思路聽起來并不討巧,誰會(huì)喜歡每天樂此不疲地給數(shù)據(jù)做標(biāo)注呢?
          然而事實(shí)證明,我們能做到的大部分性能提升都是通過以數(shù)據(jù)為中心的方法實(shí)現(xiàn)的。吳恩達(dá)在他的演講中就展示了下面這組數(shù)據(jù):
          圖1 — 基線、模型中心、數(shù)據(jù)中心性能比較(作者制圖)

          即使我們對鋼鐵缺陷這些事情沒有什么了解,模型性能在數(shù)字上的顯著提升我們是看得見的。我們可以看到,以模型為中心的方法對基線的改進(jìn)不是零就是接近零,而且這種方法往往需要花費(fèi)從業(yè)者數(shù)百小時(shí)的時(shí)間。
          總結(jié)而言,我們可以得出一個(gè)很重要的經(jīng)驗(yàn)教訓(xùn):不要試圖和一屋子的博士比智商。在想要改進(jìn)模型之前,我們要首先確保手頭上的數(shù)據(jù)質(zhì)量是一流的。

          數(shù)據(jù)要先保質(zhì)還是保量?

          要想追求數(shù)據(jù)的數(shù)量,通常的做法就是收集盡可能多的數(shù)據(jù),并將其悉數(shù)扔給神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)映射關(guān)系。然而,一個(gè)數(shù)據(jù)集好用并不意味著它的數(shù)據(jù)量很大。我們可以參考數(shù)據(jù)集分享網(wǎng)站Kaggle上的數(shù)據(jù)集大小分布,圖示如下:
          圖2 — Kaggle上的數(shù)據(jù)集大小分布 (圖源作者)
          我們可以看到,大多數(shù)數(shù)據(jù)集并沒有太多的數(shù)據(jù)。在以數(shù)據(jù)為中心的方法中,數(shù)據(jù)集的大小并不重要。當(dāng)然,我們不可能用三張圖片去訓(xùn)練神經(jīng)網(wǎng)絡(luò),但我們的重點(diǎn)要放到質(zhì)量上,而不是數(shù)量。就算我們沒有成百上千的圖片也沒關(guān)系,已有的數(shù)據(jù)質(zhì)量和標(biāo)注準(zhǔn)確度是至關(guān)重要的。我們可以參考下面的例子,下圖是標(biāo)注人員為兩個(gè)橙子的位置做出的兩種不同的標(biāo)注方法。
          圖3 — 為物體檢測任務(wù)標(biāo)注邊界的不同方法(圖源作者)
          想要讓模型準(zhǔn)確度下降很簡單,只要給它灌入標(biāo)注不一致的數(shù)據(jù)就可以了。如果要追求數(shù)據(jù)的質(zhì)量,我們就必須有嚴(yán)格而統(tǒng)一的標(biāo)注規(guī)則。項(xiàng)目同時(shí)有多家標(biāo)注商時(shí)情況就更是如此。
          不過,就算數(shù)據(jù)的質(zhì)量能夠保證,我們到底需要多少數(shù)據(jù)才算夠呢?這個(gè)問題比你想象的要難回答。大多數(shù)算法在其文檔中會(huì)標(biāo)明一個(gè)最小的推薦數(shù)據(jù)量。例如,YOLOv5就建議每個(gè)類別至少有1500張圖片。我本人曾經(jīng)設(shè)法用比這更少的數(shù)據(jù)取得了很好的結(jié)果,但是如果有更多的訓(xùn)練樣本,模型的準(zhǔn)確性肯定會(huì)提高。
          總結(jié)而言,擁有大量的數(shù)據(jù)能夠如虎添翼,但數(shù)據(jù)的量絕不是必需品。小數(shù)據(jù)集只要能有較高的數(shù)據(jù)質(zhì)量,我們就可以用較少的數(shù)據(jù)達(dá)到四兩撥千斤的效果。

          高質(zhì)量數(shù)據(jù)集哪里找?

          現(xiàn)在我們來看一下兩個(gè)能夠免費(fèi)獲取高質(zhì)量數(shù)據(jù)集的平臺(tái)。

          Kaggle

          Kaggle擁有大量包括圖表和圖像在內(nèi)的數(shù)據(jù)集。同時(shí),Kaggle經(jīng)常會(huì)舉辦各種各樣的機(jī)器學(xué)習(xí)競賽,其中不乏現(xiàn)金獎(jiǎng)勵(lì),非常適合那些想要展示自身技能的同學(xué)。不過,盡管Kaggle已經(jīng)非常出名,它沒有針對國內(nèi)的網(wǎng)絡(luò)進(jìn)行優(yōu)化,下載數(shù)據(jù)集并非易事。
          圖4 — Kaggle數(shù)據(jù)集主頁

          格物鈦公開數(shù)據(jù)集平臺(tái)

          也許你沒有聽說過這個(gè)平臺(tái),不過它的出現(xiàn)確實(shí)給算法開發(fā)者們帶來了極大的幫助,不論你身處國內(nèi)還是國外。
          在格物鈦公開數(shù)據(jù)集平臺(tái)(gas.graviti.cn/open-datasets),用戶可以通過數(shù)據(jù)集的名稱聯(lián)想檢索、應(yīng)用場景篩選、標(biāo)注類型篩選、推薦、更新時(shí)間及熱度篩選,輕松找到所需數(shù)據(jù)集。同時(shí),用戶無需下載,即可在數(shù)據(jù)集詳情頁在線查看標(biāo)注情況及標(biāo)簽分布,掌握數(shù)據(jù)細(xì)節(jié)。
          不過,如果你想下載數(shù)據(jù)集至本地,格物鈦用戶提供高速穩(wěn)定的下載服務(wù)。將全球資源Host至國內(nèi)鏡像,無需VPN訪問,滿帶寬極速下載。與進(jìn)入海外官網(wǎng)下載相比,格物鈦至少提速100%
          簡直是身處國內(nèi)AI開發(fā)者的福音!
          事實(shí)上,格物鈦平臺(tái)上的數(shù)據(jù)集還在不斷增長中,用戶可以自發(fā)的上傳一些開源數(shù)據(jù)集,其團(tuán)隊(duì)也會(huì)定期加入新的高質(zhì)量公開數(shù)據(jù)集。例如,知名的自動(dòng)駕駛數(shù)據(jù)集nuScenes就在平臺(tái)上有所收錄,并且有非常高效的在線可視化插件一鍵直觀查看數(shù)據(jù)集內(nèi)容:

          圖6 — 格物鈦平臺(tái)上的nuScenes數(shù)據(jù)集
          不僅如此,當(dāng)你需要某些未被上傳的特定數(shù)據(jù)集時(shí),你可以加入格物鈦社區(qū)(微信或Discord)。格物鈦提供了問題與需求的反饋渠道,便于一對一針對性回應(yīng)、跟進(jìn)、解決用戶的需求

          結(jié)語

          以上就是對以數(shù)據(jù)為中心的AI的基本介紹。簡單來說,以數(shù)據(jù)為中心的AI就是要更關(guān)心數(shù)據(jù)的質(zhì)量而不是數(shù)量。然而,高質(zhì)量的數(shù)據(jù)集是很難找到的。如果你想建立優(yōu)質(zhì)的機(jī)器學(xué)習(xí)模型,你就一定需要優(yōu)質(zhì)的數(shù)據(jù)集。對于接觸數(shù)據(jù)集平臺(tái)而言,Kaggle是一個(gè)很好的開始。但如果你對計(jì)算機(jī)視覺等具體領(lǐng)域感興趣,并且想要以快捷高效的方式訪問數(shù)據(jù)集,
          務(wù)必試試免費(fèi)好用的格物鈦公開數(shù)據(jù)集平臺(tái)。掃碼可了解!


          瀏覽 46
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  免费看黄色视频在线观看 | 午夜激情操逼网 | 亚洲美女片 | 亚洲中文字幕无码爆乳av | 亚洲欧美中文字幕在线观看 |