嗚啦啦啦啦啦啦啦大家好,本周的AI Scholar Weekly欄目又和大家見面啦!AI ScholarWeekly是AI領域的學術專欄,致力于為你帶來最新潮、最全面、最深度的AI學術概覽,一網(wǎng)打盡每周AI學術的前沿資訊。本周關鍵詞:無監(jiān)督學習、RL、張量網(wǎng)絡
編寫與PyTorch,TensorFlow,JAX和NumPy均兼容的代碼深度學習(DL)的進步正日益促進著越來越多DL框架的發(fā)展。這類框架提供了用于自動區(qū)分和GPU加速的高級且高效的API,并使得使用相對較少而直接的代碼來實現(xiàn)異常復雜且功能強大的深度學習模型成為可能。EagerPy是一個Python框架,可用于編寫自動與PyTorch、TensorFlow、JAX和NumPy兼容的代碼,而無需犧牲性能。庫開發(fā)人員不必選擇僅支持這些框架之一而為每個框架重新實現(xiàn)庫,或是選擇處理代碼重復問題。因此這類庫的用戶可以更輕松地切換框架,而不會被一個第三方庫鎖定。除了支持多框架之外,EagerPy還對鏈接到所有框架的方法都提供了詳盡的類型注釋和一致的支持。https://github.com/jonasrauber/eagerpyhttps://eagerpy.jonasrauber.de/https://arxiv.org/pdf/2008.04175v1.pdf用于圖無監(jiān)督學習的面向API的開源Python框架在這項工作中,研究人員介紹了一個Python框架Karate Club。它結合了30多種可用于無監(jiān)督機器學習任務的最新的圖挖掘算法。具體來說,它支持社區(qū)檢測、節(jié)點嵌入和整個圖嵌入技術。它建立在NetworkX、PyGSP、Gensim、NumPy和SciPy Sparse等對圖形數(shù)據(jù)進行無監(jiān)督學習的開源包的基礎上。本文還運用實例討論了該框架背后的設計原理。研究人員還展示了Karate Club在學習廣泛的現(xiàn)實世界中的聚類問題和分類任務等中高效的學習性能,并證明了其具有競爭力的速度。該軟件包的主要目標是使廣泛的機器學習研究人員和從業(yè)人員可以使用社區(qū)檢測、節(jié)點和整個圖形嵌入技術。https://github.com/benedekrozemberczki/karateclubhttps://arxiv.org/abs/2003.04819v3強化學習(RL)已證明其在解決多個AI領域復雜問題中的價值。但是,由于在實際應用時一系列假設很少能被滿足,將RL部署到實際產(chǎn)品和系統(tǒng)中仍然面臨很大的挑戰(zhàn)。為了強調RL算法發(fā)展中的的核心問題、鼓勵人們研究這些問題、并加快未來RL應用的實現(xiàn)進度,Google AI研究人員提出并討論了九種不同的挑戰(zhàn),這些挑戰(zhàn)阻礙了當前RL算法在應用系統(tǒng)中的應用。他們也使用最新的RL算法對這些挑戰(zhàn)的模擬版本進行了實證研究,并對每種挑戰(zhàn)的效果進行了基準測試。研究人員已為讀者提供了每種挑戰(zhàn)的相關參考文獻,用于指導相關從業(yè)者將RL應用于生產(chǎn)系統(tǒng),并為相關研究人員提供了一個示例環(huán)境和評估標準來衡量這些挑戰(zhàn)的進展。https://github.com/google-research/realworldrl_suitehttps://ai.googleblog.com/2020/08/a-simulation-suite-for-tackling-applied.html使用張量(Tensor)網(wǎng)絡進行自適應學習在本文中,蒙特利爾大學的研究人員利用張量網(wǎng)絡的形式開發(fā)了一種通用且高效的張量學習自適應算法。所提出的方法基于一種簡單的“貪心算法”,該“貪心算法”從一階張量優(yōu)化了可微分的損失函數(shù),并針對小等級增量依次識別了最有希望的張量網(wǎng)絡邊緣。該算法可以通過少量參數(shù)自適應地識別張量網(wǎng)絡結構,從而有效地從數(shù)據(jù)中優(yōu)化目標函數(shù)。這一框架相當全面,并且包含許多常見的張量優(yōu)化問題。在張量分解和完成任務的綜合數(shù)據(jù)方面都有實驗能證明該算法的有效性,以及它優(yōu)于傳統(tǒng)方法的有效性。https://arxiv.org/abs/2008.05437v1Google Lookout:設備上的超市產(chǎn)品識別隨著現(xiàn)代智能手機上的計算能力不斷增強,許多計算機視覺任務現(xiàn)在有可能完全在移動設備上高性能運行。通過結合MnasNet和MobileNets等設備上模型并結合設備上索引,可以實時運行完整的計算機視覺系統(tǒng),例如對帶有標簽的產(chǎn)品進行識別。利用此類技術,Google AI最近發(fā)布了Lookout,這是一個使用計算機視覺使視障用戶可以更輕松地訪問物理世界的安卓應用程序。當用戶將智能手機的相機對準產(chǎn)品時,Lookout會識別它并大聲說出品牌名稱和產(chǎn)品尺寸。為了實現(xiàn)這一強大功能,Lookout包括帶有產(chǎn)品上商品索引的超市產(chǎn)品檢測和識別模型,以及MediaPipe對象跟蹤和光學字符識別模型。由此產(chǎn)生的架構足以在整個設備上實時運行,研究人員很期待能夠繼續(xù)探索這一技術在未來的應用,同時繼續(xù)進行研究以提高底層設備模型的質量和健壯性。https://ai.googleblog.com/2020/07/on-device-supermarket-product.htmlGoogle AI:我們將虹膜和深度估計模型作為跨平臺的MediaPipe管道發(fā)布:https://ai.googleblog.com/2020/08/mediapipe-iris-real-time-iris-tracking.html用于徽標(Logo)檢測的大規(guī)模圖像數(shù)據(jù)集:https://github.com/Wangjing1551/LogoDet-3K-Datasethttps://github.com/google-research/language/tree/master/language/realm具有強大功能的高效Visual SLAM系統(tǒng)——DXSLAM簡介:https://arxiv.org/abs/2008.05416v1https://arxiv.org/abs/2008.05457v1http://www.it.uu.se/edu/course/homepage/sml/lectures/Google,F(xiàn)acebook,Amazon,Microsoft,Kaggle,GE和Cornerstone中的ML用例:https://www.bernardmarr.com/img/bigdata-case-studybook_final.pdf?fbclid=IwAR0JCmOFEQ3ztA7eOBszuhascmSPW20laiklWAOWcbyJvjF-CV6r9FrfRS4https://www.technologyreview.com/2020/08/14/1006780/ai-gpt-3-fake-blog-reached-top-of-hacker-news/https://www.forbes.com/sites/johnkoetsier/2020/08/13/how-retailers-use-ai-to-predict-when-youll-buy/#2feb85e75421https://www.forbes.com/sites/tomtaulli/2020/08/14/quantum-computing-what-does-it-mean-for-ai-artificial-intelligence/#3db9fe23b4c8
Christopher Dossman是Wonder Technologies的首席數(shù)據(jù)科學家,在北京生活5年。他是深度學習系統(tǒng)部署方面的專家,在開發(fā)新的AI產(chǎn)品方面擁有豐富的經(jīng)驗。除了卓越的工程經(jīng)驗,他還教授了1000名學生了解深度學習基礎。
LinkedIn:
https://www.linkedin.com/in/christopherdossman/