国产一级片,天天躁夜夜躁av天天爽,欧美AAA网,4438AV,大香蕉官网,高清无码性爱视频,一级免费A片,中文字幕视频

點(diǎn)擊下方卡片，關(guān)注“新機(jī)器視覺”公眾號(hào)

重磅干貨，第一時(shí)間送達(dá)

本文由半導(dǎo)體產(chǎn)業(yè)縱橫（ID:ICVIEWS）編譯自computerwoche

創(chuàng)建有效的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型需要具備的功能有哪些？

創(chuàng)建有效的機(jī)器和深度學(xué)習(xí)模型不僅需要大量數(shù)據(jù)。此外，需要有一種方法來(lái)清理這些數(shù)據(jù)并將其用于特征工程。模型還必須在合理的時(shí)間內(nèi)根據(jù)數(shù)據(jù)進(jìn)行訓(xùn)練。然后需要交付它們，監(jiān)測(cè)模型漂移，并在必要時(shí)重新訓(xùn)練。

大型（以及一些較小的）云提供商已做出重大努力來(lái)擴(kuò)展其機(jī)器學(xué)習(xí)(ML) 平臺(tái)，以支持整個(gè)機(jī)器學(xué)習(xí)生命周期——從規(guī)劃項(xiàng)目到在生產(chǎn)中維護(hù) ML 模型。但是，問題在于如何找出哪些云最符合要求。

云端機(jī)器學(xué)習(xí)需要12 個(gè)必備功能：

1、貼近數(shù)據(jù)

當(dāng)擁有創(chuàng)建準(zhǔn)確模型所需的大量數(shù)據(jù)時(shí)，數(shù)據(jù)傳輸?shù)膯栴}不在于距離，而在于時(shí)間：數(shù)據(jù)傳輸?shù)难舆t最終受到光速的限制，即使在無(wú)限帶寬的完美網(wǎng)絡(luò)中也是如此。長(zhǎng)距離意味著延遲。

非常大量數(shù)據(jù)的理想情況下：在數(shù)據(jù)已經(jīng)定位的地方創(chuàng)建模型，這樣就不需要進(jìn)行重大數(shù)據(jù)傳輸。許多數(shù)據(jù)庫(kù)支持此功能。另外，數(shù)據(jù)與建模軟件位于同一高速網(wǎng)絡(luò)上，通常是相同的數(shù)據(jù)中心。即使數(shù)據(jù)從一個(gè)數(shù)據(jù)中心移動(dòng)到另一個(gè)數(shù)據(jù)中心（在可用區(qū)內(nèi)），當(dāng)數(shù)據(jù)量超過幾 TB 時(shí)，也可能導(dǎo)致嚴(yán)重延遲。這個(gè)問題可以通過增量更新來(lái)緩解。另一方面，最壞的情況是在帶寬有限和高延遲的長(zhǎng)距離和路徑上移動(dòng)大量數(shù)據(jù)。

主要的云提供商正在以不同的方式解決這個(gè)問題。通過將機(jī)器學(xué)習(xí)和深度學(xué)習(xí)添加到他們的數(shù)據(jù)庫(kù)服務(wù)中，例如：

Amazon Redshift ML旨在讓 SQL 用戶能夠輕松構(gòu)建、訓(xùn)練和部署 ML 模型。
BigQuery ML為 Google提供了類似的功能云平臺(tái)。
IBM Db2 Warehouse on Cloud包括范圍廣泛的數(shù)據(jù)庫(kù)內(nèi) SQL 分析，其中包括一些基本的機(jī)器學(xué)習(xí)功能和對(duì) R 和 Python 的數(shù)據(jù)庫(kù)內(nèi)支持。
Microsoft SQL Server 機(jī)器學(xué)習(xí)服務(wù)支持 R、Python、Java、T-SQL 命令PREDICT、SQL Server RDBMS 中的存儲(chǔ)過程rx_Predict和 SQL Server Big 中的 Spark MLlib數(shù)據(jù)集群。

云提供商解決此問題的另一種方法——他們將云服務(wù)帶到客戶的數(shù)據(jù)中心，然后依賴衛(wèi)星連接：

Amazon Web Services 將此稱為AWS Outposts和AWS Local Zones；
微軟選擇了Azure Stack Edge Nodes和Azure Arc；
Google Cloud Platform 將這些功能命名為Network Edge Locations、Google Distributed Cloud Virtual和Anthos on-prem。

2. ETL或ELT管道

ETL（導(dǎo)出、轉(zhuǎn)換、加載）和 ELT（導(dǎo)出、加載、轉(zhuǎn)換）是數(shù)據(jù)管道配置。轉(zhuǎn)換組件對(duì)于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)尤其重要：如果您需要更改轉(zhuǎn)換，ELT 提供了更大的靈活性，因?yàn)榧虞d階段通常是大數(shù)據(jù)最耗時(shí)的階段。

一般來(lái)說，常規(guī)獲取的數(shù)據(jù)是有噪聲的，所以需要過濾。此外，這些數(shù)據(jù)具有不同的范圍：一個(gè)變量的最大值可以達(dá)到數(shù)百萬(wàn)，而另一個(gè)變量的范圍為 -0.1 到 -0.001。對(duì)于機(jī)器學(xué)習(xí)，需要將變量轉(zhuǎn)換為標(biāo)準(zhǔn)化范圍，以便那些具有大范圍的變量不會(huì)主導(dǎo)模型。究竟使用哪個(gè)標(biāo)準(zhǔn)化范圍取決于模型所使用的算法。

AWS Glue是一個(gè)基于 Apache Spark 的無(wú)服務(wù)器 ETL 引擎；借助Amazon EMR，AWS 還提供了運(yùn)行 Apache Spark 的大數(shù)據(jù)平臺(tái)；Amazon Redshift Spectrum支持來(lái)自基于 S3 的數(shù)據(jù)湖的 ELT。

Azure 數(shù)據(jù)工廠和Azure Synapse支持 ETL 和 ELT。
Google Cloud Data Fusion、Dataflow和Dataproc對(duì) ETL 和 ELT 也很有用。
Trifacta等第三方自助ETL/ELT產(chǎn)品也可以在云端使用。

3. 在線創(chuàng)建模型

過去有一種解決方式，即應(yīng)該將建模數(shù)據(jù)導(dǎo)入桌面。為機(jī)器和深度學(xué)習(xí)構(gòu)建高質(zhì)量模型所需的大量數(shù)據(jù)改變了情況：對(duì)于探索性數(shù)據(jù)分析和模型構(gòu)建，可以將一小部分?jǐn)?shù)據(jù)樣本下載到桌面，但對(duì)于生產(chǎn)模型，需要訪問整個(gè)數(shù)據(jù)。

Jupyter Notebooks、JupyterLab和Apache Zeppelin等基于 Web 的開發(fā)環(huán)境非常適合創(chuàng)建模型。將數(shù)據(jù)與筆記本環(huán)境放在同一云中，可以對(duì)數(shù)據(jù)進(jìn)行分析，從而最大限度地減少耗時(shí)的數(shù)據(jù)傳輸。作為管道的一部分，筆記本也可用于 ELT。

借助Amazon SageMaker，可以使用完全托管的基礎(chǔ)設(shè)施、工具和工作流為任何用例構(gòu)建、訓(xùn)練和部署機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型。SageMaker Studio 基于 JupyterLab。

Microsoft Azure 機(jī)器學(xué)習(xí)是一個(gè)端到端、可擴(kuò)展、可信的 AI 平臺(tái)，具有實(shí)驗(yàn)和模型管理功能；Azure 機(jī)器學(xué)習(xí)工作室包括 Jupyter Notebooks、機(jī)器學(xué)習(xí)設(shè)計(jì)器和 AutoML 功能。Azure Databricks是一個(gè)基于 Apache Spark 的分析平臺(tái)；Azure 數(shù)據(jù)科學(xué)虛擬機(jī)使高級(jí)數(shù)據(jù)科學(xué)家可以輕松設(shè)置機(jī)器學(xué)習(xí)和深度學(xué)習(xí)開發(fā)環(huán)境。

Google Cloud Vertex AI能夠在統(tǒng)一的人工智能平臺(tái)內(nèi)使用預(yù)訓(xùn)練模型和自定義工具更快地構(gòu)建、部署和擴(kuò)展機(jī)器學(xué)習(xí)模型。Vertex AI 通過 Vertex AI Workbench 與 BigQuery、Dataproc 和 Spark 原生集成。Vertex AI 還集成了廣泛使用的開源框架，如 TensorFlow、PyTorch 和 Scikit-learn，并通過自定義容器支持所有機(jī)器學(xué)習(xí)框架和人工智能分支進(jìn)行訓(xùn)練和預(yù)測(cè)。

4. Scale-up和Scale-out訓(xùn)練

筆記本計(jì)算和存儲(chǔ)要求通常是最低的——除了訓(xùn)練模型。當(dāng)筆記本可以觸發(fā)在多個(gè)虛擬機(jī)或容器上運(yùn)行的訓(xùn)練作業(yè)時(shí)，這非常有用。使用 GPU、TPU 和 FPGA 等加速器時(shí)效果會(huì)更好，這可以將培訓(xùn)天數(shù)減少到幾個(gè)小時(shí)。

Amazon SageMaker 支持各種 VM 大小、GPU 和其他加速器，例如 NVIDIA A100s、Habana Gaudi 和 AWS Trainium（一種模型編譯器）以及具有數(shù)據(jù)或模型并行性的分布式訓(xùn)練。

Azure 機(jī)器學(xué)習(xí)支持各種 VM 大小、GPU 和其他加速器，包括英偉達(dá) A100 和英特爾 FPGA，以及利用數(shù)據(jù)并行性或模型并行性的分布式訓(xùn)練。

Google Cloud Vertex AI 支持各種 VM 大小、GPU 和其他加速器，包括英偉達(dá) A100 和 Google TPU，以及利用數(shù)據(jù)并行性或模型并行性的分布式訓(xùn)練，包括可選的縮減服務(wù)器。

5. AutoML 和自動(dòng)化特征工程

并不是每個(gè)人都擅長(zhǎng)選擇或開發(fā)機(jī)器學(xué)習(xí)模型及其特征（模型使用的變量）。它們很耗時(shí)，并且可以在很大程度上實(shí)現(xiàn)自動(dòng)化。

AutoML 系統(tǒng)會(huì)測(cè)試各種模型，以確定哪些模型會(huì)產(chǎn)生最佳目標(biāo)函數(shù)值，例如回歸問題的最小平方誤差。好的 AutoML 系統(tǒng)也適用于特征工程，并有效地利用其資源來(lái)實(shí)現(xiàn)具有最佳特征集的最佳模型。

6. 框架支持

大多數(shù)數(shù)據(jù)科學(xué)家更喜歡機(jī)器和深度學(xué)習(xí)的特定框架和編程語(yǔ)言。

對(duì)于喜歡 Python 的人來(lái)說，scikit-learn通常是機(jī)器學(xué)習(xí)的最愛。
TensorFlow、PyTorch、Keras和Apache MXNet通常是深度學(xué)習(xí)的首選。
在 Scala 中，Spark MLlib通常是機(jī)器學(xué)習(xí)的首選。
R 有許多本地機(jī)器學(xué)習(xí)包和 Python 的良好接口。
在 Java 中，H2O.ai 非常流行，還有Java-ML和Deep Java Library。

機(jī)器學(xué)習(xí)和深度學(xué)習(xí)云平臺(tái)通常有自己的一套算法，并且通常支持至少一種語(yǔ)言的外部框架或作為具有特定入口點(diǎn)的容器。在某些情況下，您可以將自己的算法和統(tǒng)計(jì)方法與平臺(tái)的 AutoML 功能集成，非常方便。

一些云平臺(tái)還提供自己的主要深度學(xué)習(xí)框架的優(yōu)化版本，例如，AWS 有一個(gè)優(yōu)化版本的 TensorFlow，它聲稱它允許神經(jīng)網(wǎng)絡(luò)訓(xùn)練的近線性可擴(kuò)展性。同樣，Google Cloud 提供TensorFlow Enterprise。

7. 預(yù)訓(xùn)練模型和遷移學(xué)習(xí)

不是每個(gè)人都想花時(shí)間和計(jì)算資源來(lái)訓(xùn)練他們自己的模型。一方面，當(dāng)已經(jīng)有可用的訓(xùn)練模型時(shí)，他們不應(yīng)該這樣做。例如，ImageNet 數(shù)據(jù)集非常龐大，訓(xùn)練現(xiàn)代神經(jīng)網(wǎng)絡(luò)可能需要數(shù)周時(shí)間。

另一方面，預(yù)訓(xùn)練模型可能并不總能識(shí)別出感興趣的對(duì)象。遷移學(xué)習(xí)允許神經(jīng)網(wǎng)絡(luò)的最后幾層適應(yīng)特定數(shù)據(jù)集，而無(wú)需花費(fèi)時(shí)間和費(fèi)用來(lái)訓(xùn)練整個(gè)網(wǎng)絡(luò)。

所有主要的深度學(xué)習(xí)框架和云服務(wù)提供商都在一定程度上支持遷移學(xué)習(xí)。有一些區(qū)別，一個(gè)主要的區(qū)別是Azure可以使用數(shù)十個(gè)標(biāo)記示例自定義某些類型的模型，而在其他一些平臺(tái)上則有數(shù)百或數(shù)千個(gè)。

8. 預(yù)訓(xùn)練的人工智能服務(wù)

主要的云平臺(tái)為許多應(yīng)用程序提供強(qiáng)大的、經(jīng)過優(yōu)化的 AI 服務(wù)，不僅用于圖像識(shí)別，還用于翻譯、語(yǔ)音到文本、文本到語(yǔ)音、預(yù)測(cè)和推薦。

這些服務(wù)已經(jīng)使用比公司通常擁有的更多的數(shù)據(jù)進(jìn)行了培訓(xùn)和測(cè)試。此外，它們已經(jīng)部署在具有足夠計(jì)算資源（包括加速器）的服務(wù)端點(diǎn)上，以確保在全局負(fù)載下具有良好的響應(yīng)時(shí)間。

三大公司提供的服務(wù)之間的差異更多地在于細(xì)節(jié)。一個(gè)正在積極開發(fā)的領(lǐng)域是邊緣部署服務(wù)，這些服務(wù)安裝在攝像頭等設(shè)備上并與云通信。

9. 實(shí)驗(yàn)管理

為您的數(shù)據(jù)集找到最佳模型的唯一方法是嘗試所有方法，無(wú)論是手動(dòng)還是使用 AutoML。這引發(fā)了另一個(gè)問題：這些實(shí)驗(yàn)必須進(jìn)行管理。一個(gè)好的機(jī)器學(xué)習(xí)云平臺(tái)提供了一種方法來(lái)查看和比較每個(gè)實(shí)驗(yàn)的目標(biāo)函數(shù)值，無(wú)論是訓(xùn)練數(shù)據(jù)還是測(cè)試數(shù)據(jù)，以及模型的大小和混淆矩陣。繪制所有這些圖表的能力是一個(gè)明確的優(yōu)勢(shì)。

10. 預(yù)測(cè)模型部署

在部署模型方面，如果出于同一目的使用多個(gè)模型，則還必須可以在模型之間拆分流量以進(jìn)行 A/B 測(cè)試。

一個(gè)原因是部署端點(diǎn)的成本（更多內(nèi)容見下文）。在過去的一到三年中，模型部署發(fā)生了許多變化。理想情況下，低流量端點(diǎn)應(yīng)該是無(wú)服務(wù)器的，而高流量端點(diǎn)應(yīng)該是集群的和/或使用加速器。

11. 預(yù)測(cè)性能監(jiān)控

不幸的是，數(shù)據(jù)會(huì)隨著時(shí)間而變化，這對(duì)模型開發(fā)人員來(lái)說是一個(gè)劣勢(shì)。因此，這意味著不能設(shè)置模型然后“忘記”它。相反，必須隨著時(shí)間的推移監(jiān)控提交用于預(yù)測(cè)的數(shù)據(jù)。當(dāng)數(shù)據(jù)開始與原始訓(xùn)練集的基線顯著不同時(shí)，需要重新訓(xùn)練模型。

Amazon SageMaker Model Monitor在這方面做得特別好，盡管它僅限于表格數(shù)據(jù)。
Azure 機(jī)器學(xué)習(xí)在公共預(yù)覽版中有一個(gè)數(shù)據(jù)漂移檢測(cè)包。
Google Cloud Vertex AI 模型監(jiān)控檢測(cè) AutoML 表格和自定義訓(xùn)練模型的偏差和漂移。

上面提到的實(shí)驗(yàn)管理產(chǎn)品也可以用來(lái)檢測(cè)模型和數(shù)據(jù)的漂移。

12. 成本控制

最后，需要控制模型產(chǎn)生的成本的方法。為生產(chǎn)推理部署模型通常占深度學(xué)習(xí)成本的 90%，而培訓(xùn)僅占 10%。

如何最好地控制預(yù)測(cè)成本取決于工作量和模型的復(fù)雜性。如果負(fù)載很重，或許可以使用加速器來(lái)避免添加更多虛擬機(jī)實(shí)例。對(duì)于波動(dòng)的工作負(fù)載，可以隨著工作負(fù)載的增加或減少而動(dòng)態(tài)更改實(shí)例或容器的大小或數(shù)量。在少量或偶爾使用的情況下，也許可以使用帶有分?jǐn)?shù)加速器的非常小的實(shí)例來(lái)處理預(yù)測(cè)。

本文僅做學(xué)術(shù)分享，如有侵權(quán)，請(qǐng)聯(lián)系刪文。

—THE END—

云端機(jī)器學(xué)習(xí)：12 個(gè)必備功能