機(jī)器學(xué)習(xí),什么時(shí)候?qū)W都不晚!
來自:Coggle
您在1979年讀了新聞學(xué)本科,大約30年后在2012年選修了數(shù)據(jù)科學(xué)課程。什么促使您學(xué)習(xí)新技術(shù)并進(jìn)入一個(gè)新領(lǐng)域?哪些資源/工具幫助您克服了這一差距?
Philip:雖然我在大學(xué)主修新聞學(xué),但我一直對計(jì)算機(jī)著迷,并在十幾歲時(shí)開始編程。我作為技術(shù)作家的早期職業(yè)是我的寫作和技術(shù)興趣的良好結(jié)合。在做了大約15年的技術(shù)作者之后,我在接下來的20年里成為了一名連續(xù)創(chuàng)業(yè)者。
我參與的幾乎所有初創(chuàng)公司都是數(shù)據(jù)驅(qū)動的公司,所以即使我的角色是管理和戰(zhàn)略層面,我也保持與編程和數(shù)據(jù)的聯(lián)系。
我不記得我是如何登陸 Kaggle 網(wǎng)站的,但是當(dāng)我意識到ML的能力時(shí),我感覺好像我在曠野長途跋涉后終于回到了家。
我認(rèn)為ML最吸引我的是它可以用來回答如此廣泛的現(xiàn)實(shí)生活問題。我一直對解決實(shí)際問題比對理論研究更感興趣。
由于我多年沒有做過任何編程,而且我的統(tǒng)計(jì)知識很初級,所以一開始我的學(xué)習(xí)曲線非常陡峭。我參加了很多在線課程,并關(guān)注Kaggle論壇來獲取技巧。Kaggle排行榜在激勵我繼續(xù)學(xué)習(xí)方面非常有用。
作為一個(gè)長期的技術(shù)作家,您在過渡到機(jī)器學(xué)習(xí)過程中遇到過什么困難嗎?
Philip:從技術(shù)作家和企業(yè)家轉(zhuǎn)變?yōu)闄C(jī)器學(xué)習(xí)從業(yè)者絕對是一個(gè)挑戰(zhàn)。我很幸運(yùn)在經(jīng)濟(jì)上有保障,所以我沒有任何壓力要以數(shù)據(jù)科學(xué)家的身份謀生。我只是按照自己的興趣,盡可能多地專注于學(xué)習(xí)。
您在機(jī)器學(xué)習(xí)領(lǐng)域的自由職業(yè)者方面也有豐富的經(jīng)驗(yàn)。初學(xué)者在該領(lǐng)域自由職業(yè)時(shí)應(yīng)避免哪些陷阱?
Philip:我最喜歡自由職業(yè)者的一點(diǎn)是,每個(gè)數(shù)據(jù)集和數(shù)據(jù)問題都是獨(dú)一無二的,需要定制的解決方案。我認(rèn)為初學(xué)者的最大陷阱是假設(shè)每個(gè)新項(xiàng)目都與他們已經(jīng)遇到的相似。我的經(jīng)驗(yàn)是,這是個(gè)例外,該項(xiàng)目更有可能需要一個(gè)人來學(xué)習(xí)新技術(shù)。
您是如何想到創(chuàng)立 Cozio Publishing 的?您之前是否有過編碼經(jīng)驗(yàn)?
Philip:Cozio Publishing是在我的妻子想要購買一把“新”小提琴時(shí)成立的。有很多關(guān)于古董弦樂器的信息,但它們分散在不同的印刷出版物中——書籍、雜志、拍賣目錄等。
當(dāng)我?guī)椭业钠拮邮占畔r(shí),我開始將數(shù)據(jù)輸入自定義數(shù)據(jù)庫,以便我們可以跟蹤她正在考慮的不同儀器。在某個(gè)時(shí)候,我意識到其他音樂家可能會發(fā)現(xiàn)這些信息有用。
數(shù)據(jù)新聞——這是當(dāng)今流行的流行詞。你在這個(gè)領(lǐng)域有什么經(jīng)驗(yàn)嗎?它如何利用機(jī)器學(xué)習(xí)領(lǐng)域?
Philip:雖然我是學(xué)新聞學(xué)的,是個(gè)技術(shù)作家,但實(shí)際上我已經(jīng)很多年沒有寫過任何文章了,所以我不能真正評論數(shù)據(jù)新聞學(xué),但這聽起來很有趣。
你是Kaggle比賽的大師,目前排名第47。您參加了80多項(xiàng)比賽。這真太了不起了!如果我們具體談?wù)勀?Kaggle 之旅,那么您面臨哪些挑戰(zhàn),您是如何克服這些挑戰(zhàn)的?
Philip:我基本上是從零開始的,對機(jī)器學(xué)習(xí)、概率、統(tǒng)計(jì)或矩陣代數(shù)一無所知。我所擁有的只是一點(diǎn)數(shù)據(jù)庫設(shè)計(jì)知識和一些非常生疏的 C 編程技能。
所以我必須一次學(xué)習(xí)所有東西R、Python、概率和統(tǒng)計(jì),以及機(jī)器學(xué)習(xí)。我很幸運(yùn),正是在MOOC開始流行的時(shí)候開始了這段旅程。我的第一個(gè)在線課程之一,是著名的Andrew Ng ML課程,另一個(gè)很棒的課程是Tibshirani和Hastie的斯坦福統(tǒng)計(jì)學(xué)習(xí)課程。
我通過 Coursera、MIT、Stanford 等在線學(xué)習(xí)了許多其他課程。這些課程的整體質(zhì)量非常高。
為了讓初學(xué)者進(jìn)入 Kaggle 比賽的前 1% 級別,您會給他們的五個(gè)提示是什么?
Philip:我想我的第一個(gè)建議是設(shè)定一個(gè)不同的目標(biāo)。如果高Kaggle排名是您的主要目標(biāo),您可能會想尋找捷徑,例如混合大量公共內(nèi)核。這可能對特定的比賽有幫助,但從長遠(yuǎn)來看無濟(jì)于事。
所以我建議設(shè)定學(xué)習(xí)盡可能多的實(shí)用ML技術(shù)的目標(biāo)。將每次Kaggle比賽用作學(xué)習(xí)機(jī)會,即使它不會在該比賽中獲得高排名。如果我必須指定5個(gè)提示,我想它們是:
在查看論壇討論和代碼分享之前,可以嘗試自己解決問題; 盡早開始,比賽中后期很難趕上比賽; 嘗試與擁有更多知識/經(jīng)驗(yàn)的人合作; 關(guān)注論壇,包含重要的信息; 如果排名下降,請耐心等待,不要沮喪。你學(xué)到的一切都會在未來的比賽中有所幫助;
迄今為止最具挑戰(zhàn)性的兩場比賽是哪一場,你是如何提出解決方案的?
Philip:因?yàn)槊繄霰荣惗加歇?dú)特的挑戰(zhàn)。例如,在最近的內(nèi)核競賽中,最大的挑戰(zhàn)通常是在內(nèi)存和 CPU/GPU 限制內(nèi)擬合模型。我投入最多時(shí)間和精力的比賽是 100 萬美元的 Zillow 挑戰(zhàn)賽。這里的主要挑戰(zhàn)是一個(gè)非常龐大而豐富的數(shù)據(jù)集和非常積極的競爭對手。
我的最終解決方案獲得了第二名,是多個(gè)LGB模型的融合結(jié)果。我的大部分努力都致力于特色工程和避免過度擬合。
我們想知道您在構(gòu)建機(jī)器學(xué)習(xí)模型時(shí)遵循了哪些步驟?
Philip:我真的沒有系統(tǒng)的方法論,但我通常從一些非常基本的 EDA 和一個(gè)簡單的模型開始來設(shè)置基線。對于許多比賽,一開始我花了很多時(shí)間來確保我有一個(gè)與訓(xùn)練/測試集拆分兼容的驗(yàn)證設(shè)置。一旦我對驗(yàn)證設(shè)置有信心,我將開始嘗試逐步改進(jìn)模型。
當(dāng)我模型停止改進(jìn),或者如果我的驗(yàn)證分?jǐn)?shù)與排行榜分?jǐn)?shù)不同步,我將對數(shù)據(jù)進(jìn)行更深入的分析以找出發(fā)生了什么。我通常避免查看任何公共內(nèi)核,直到卡住為止。
你在討論中也很活躍。您會向初學(xué)者推薦哪些討論主題?
Philip:如果我以良好的排名完成比賽,我通常會發(fā)布我的解決方案摘要,偶爾我會發(fā)布一些關(guān)于比賽早期階段的一般說明。
我強(qiáng)烈建議大家一定要所有解決方案。這些非常有價(jià)值,因?yàn)樗鼈兺ǔ0浅S袆?chuàng)意的技術(shù),可以在未來的項(xiàng)目中使用。
對于想要過渡到機(jī)器學(xué)習(xí)的人,您有什么建議?
Philip:我通常會避免這種類型的建議,因?yàn)槿藗兪侨绱瞬煌瑢ξ矣杏玫牟灰欢▽ζ渌擞杏谩N业娜松軐W(xué)一直是追隨自己的興趣,樂于學(xué)習(xí)新事物。
這在ML中是必不可少的,它發(fā)展如此之快。最能激勵我學(xué)習(xí)新技能的是具體問題,無論是 Kaggle 挑戰(zhàn)還是自由職業(yè)項(xiàng)目。我知道有些人可以為了學(xué)習(xí)而激勵自己學(xué)習(xí)。
推薦閱讀
學(xué)習(xí)機(jī)器學(xué)習(xí)的最佳路徑
