揭曉飛槳平臺(tái)提速秘訣:INT8量化加速實(shí)現(xiàn)“事半功倍”
在圖像分類等深度學(xué)習(xí)應(yīng)用中,使用 INT8 替代 FP32 來提升推理效率、降低功耗和部署復(fù)雜度,是目前 AI 技術(shù)發(fā)展的重要方向。飛槳基于第二代英特爾? 至強(qiáng)? 可擴(kuò)展處理器的高性能算力以及英特爾? 深度學(xué)習(xí)加速( VNNI 指令集)的技術(shù),對(duì)應(yīng)的 INT8 方案在不影響推理準(zhǔn)確度的情況下,推理速度實(shí)現(xiàn)顯著的提升。 -- 高鐵柱 高級(jí)經(jīng)理 百度深度學(xué)習(xí)平臺(tái)部

百度飛槳開源深度學(xué)習(xí)平臺(tái)實(shí)現(xiàn)的解決方案優(yōu)勢(shì):
? 在圖像分類等場(chǎng)景所用的深度學(xué)習(xí)模型中,采用 INT8 等低精度定點(diǎn)計(jì)算方式,可以更高效地利用高速緩存,減少帶寬瓶頸,并更大限度地利用計(jì)算資源,降低功率消耗;
? 在 ResNet-50* 和 MobileNet-V1* 等多個(gè)深度學(xué)習(xí)模型上的實(shí)踐表明,基于第二代英特爾? 至強(qiáng)? 可擴(kuò)展處理器,特別是它所集成的英特爾? 深度學(xué)習(xí)技術(shù)的支持,INT8可以實(shí)現(xiàn)與 FP32 相近的深度學(xué)習(xí)模型推理準(zhǔn)確度,兩者差值在 1% 以內(nèi)2;
? 在這些深度學(xué)習(xí)模型上的實(shí)踐,同時(shí)還表明,基于第二代英特爾? 至強(qiáng)? 可擴(kuò)展處理器及英特爾?深度學(xué)習(xí)技術(shù)的支持,INT8 可實(shí)現(xiàn)更快的深度學(xué)習(xí)模型推理速度,其推理速度約為 FP32 的 2.2 倍~2.79倍3。








分享

點(diǎn)收藏

點(diǎn)點(diǎn)贊

點(diǎn)在看
評(píng)論
圖片
表情
