有這技術(shù),活該漲工資!
大家好,我是 Jack。
我發(fā)現(xiàn),技術(shù)開放日是個好東西,秀技術(shù)肌肉的好日子。
各大互聯(lián)網(wǎng)公司都有這樣的活動。
就比如,騰訊在 6 月 28 日就舉行了首期的 Techo Day,這期的主題是“輕量級”。
所謂騰訊也圍繞降低門檻,提高研效發(fā)布了幾款新的云開發(fā)工具。
這里最讓我眼前一亮的是騰訊云 TI 平臺的 TI-ONE。
可以輕松地讓我們訓練自己想要的模型。
TI-ONE
這么好的工具,我也去體驗了一番。
化繁為簡,輕而易用。
TI-ONE 的官方定義是這樣的:
騰訊云 TI 平臺 TI-ONE 是為 AI 工程師打造的一站式機器學習平臺,為用戶提供從數(shù)據(jù)接入、模型訓練、模型管理到模型服務(wù)的全流程開發(fā)支持。騰訊云 TI 平臺 TI-ONE 支持多種訓練方式和算法框架,滿足不同 AI 應(yīng)用場景的需求。
官方使用手冊:
https://cloud.tencent.com/document/product/851
體驗地址:
https://cloud.tencent.com/product/tione
應(yīng)用場景

目前平臺提供了低門檻訓練場景:圖像分類和圖像檢測。
除主流的訓練場景外,其他類型的場景化訓練工具,會持續(xù)升級豐富。
像現(xiàn)在,很多工業(yè)界都在逐漸使用深度學習算法進行缺陷檢測與缺陷分類。
TI-ONE 就可以幫助這些技術(shù)積累少,但也想試一試這些算法的傳統(tǒng)行業(yè),幫助他們降本增效。
會用了這神器,讓老板漲工資穩(wěn)了!

今天就帶大家一起實戰(zhàn)試一試。
弄個簡單的,試一試分類任務(wù)。
一提到分類任務(wù),我就想到了之前寫的文章,用傳統(tǒng)方法做的色情圖片識別,其實用深度學習方法效果更好,更穩(wěn)定,但苦于無法分享數(shù)據(jù)集只能作罷。
今天就不來這種極限拉扯的了,來點正經(jīng)干貨!
數(shù)據(jù)集準備
我們都知道,想要訓練一個基于監(jiān)督學習的深度學習分類模型,必須得有數(shù)據(jù),有標簽。
對于分類任務(wù),平臺支持兩種格式的數(shù)據(jù):
TI 平臺格式
其實就是有個 annotation.txt 寫好數(shù)據(jù)的標注信息即可。

annotation.txt 文件的格式是這樣的:
{
"info": { // 可選字段,表示圖片的相關(guān)信息
"md5": "圖片md5值", // 可選字段,表示圖片的md5值
"path": "圖片相對路徑",
},
"tags": {
"classification_tags": [{
"first_class": "一級標簽值",
"confidence_level": 置信度 // 可選字段,表示標簽置信度
}]
}
}
這個其實需要使用者有一定的代碼能力,寫好標注數(shù)據(jù),略有門檻。
文件目錄結(jié)構(gòu)
另外就是這種,不用寫什么標注文件,直接一個類別一個文件夾就行。

簡單粗暴,無需額外上傳標注文件。
這是有標簽的數(shù)據(jù),對于沒有標簽的數(shù)據(jù),我們也可以使用 TI-ONE 平臺進行標注:

自己一張一張標注數(shù)據(jù)就可以了:

總結(jié)一下就是:
自己有數(shù)據(jù),有標簽,直接按照格式導入平臺,就能使用了 自己有數(shù)據(jù),沒標簽,也可以導入平臺,然后一張一張標注
自動學習
數(shù)據(jù)準備好,我們就可以嘗試訓練模型了,選擇圖像分類。

這里我直接使用示例數(shù)據(jù)進行測試,平臺為我們準備好了一些任務(wù)的數(shù)據(jù)集。
如果是使用自己的數(shù)據(jù)集,可以選擇數(shù)據(jù)中心,里面保存的就是我們自己上傳的數(shù)據(jù)。

這是一個簡單的分類任務(wù),有各種小企鵝。
有齊天大圣:

有威威虎:

一共 12 個類別,共 720 張訓練數(shù)據(jù)。
數(shù)據(jù)分為:
訓練集:用來訓練模型的數(shù)據(jù)。 驗證集:訓練的時候,是根據(jù)驗證集的準召保存模型的,不參與訓練。 測試集:訓練好后,用測試集看模型的效果,不參與訓練。
結(jié)果需要輸出到 COS 中,就是一個對象存儲,可以直接買一個 10G 的資源包,很便宜。
https://console.cloud.tencent.com/cos/bucket
一個月 8 毛~

然后創(chuàng)建一個存儲桶,就能使用了,我這里直接取名 test。

這樣就能選擇這個 bucket,保存我們的訓練結(jié)果了。

訓練參數(shù)根據(jù)實際情況選擇就行,對于很小數(shù)據(jù)集的分類任務(wù),基本上 1 個小時輕松搞定,我這里就用默認參數(shù)了。

資源配置主要是選擇 GPU,我這里用個 T4 就夠用了。

用這個卡訓練,一小時 8 元多。
然后平臺會自動配置機器,初始化環(huán)境,開啟訓練。

這種平臺用起來,還是很方便的。
接下來就可以喝杯茶、泡杯咖啡,該干嘛干嘛,等 1 小時之后再回來看訓練結(jié)果。
效果查看
我這個分類任務(wù)簡單,所以訓練很快,模型 5 分鐘就收斂了。

我猜內(nèi)部應(yīng)該是有個訓練好的通用模型,直接在其上 fine-tune,所以又快又好。
然后也可以查看在測試集上的效果:

準確率、召回率、1-Score、PR曲線這些評估指標。
從結(jié)果可以看出,召回率有些低,因為數(shù)據(jù)少,可以補充一些數(shù)據(jù)再訓練。
一般分類任務(wù),不太復雜,每個類別準備一萬張,在測試集上,準召怎么也都能 95% 以上。
這類分類任務(wù),基本 1 小時,就收斂了。
感興趣的小伙伴,有類似需求,又不想寫太多代碼,想快速完成任務(wù),那完全可以試一試這個平臺,方便好用。
后記
以上就是整個 TI-ONE 的體驗,可以看到,整個過程非常方便快捷,有興趣的同學也可以自行部署和體驗。
昨天正好也參加了騰訊Techo Day技術(shù)開放日活動,看到了很多輕量化的云端工具,也分享了不少與之相關(guān)的技術(shù)原理及應(yīng)用案例。
比如,使用 TI-ONE 訓練自己的模型;使用Lighthouse快速構(gòu)建屬于自己的云端硬盤,搭建個個人網(wǎng)站,都很實用。
所有的資料和課件都被整合成了一份《騰訊云輕量級工具指南》,里面除了 TI-ONE 這種低門檻的 AI 平臺以外,還有 Lighthouse 這類服務(wù)的使用,也涵蓋了不少像如何利用Serverless實現(xiàn)事件驅(qū)動、如何基于Spring Cloud Tencent快速構(gòu)建高可用輕量級微服務(wù)應(yīng)用等課程及解決方案,能夠幫助開發(fā)者實現(xiàn)降本提效,優(yōu)化工作流程,感興趣的朋友可以掃碼領(lǐng)取課件資料。

可以直接點“閱讀原文”下載查看。
