在消失的幾個(gè)月里,我拿獎(jiǎng)啦老肥碼碼碼關(guān)注共 2208字,需瀏覽 5分鐘 ·2020-11-08 00:33 最近不怎么出現(xiàn)在大家的視野中,可不是因?yàn)槲彝祽朽浮T谄毡槌ニ惴◢徫坏拇蟓h(huán)境下,為了給自己的空白簡(jiǎn)歷增加點(diǎn)色彩,也是給自己未來(lái)在就業(yè)市場(chǎng)增加求職的籌碼,從今年六月份到現(xiàn)在這5個(gè)月我一共參加了三個(gè)算法比賽。就在前幾天,剛剛結(jié)束了我的第三個(gè)比賽。今天就和大家聊聊,這幾個(gè)比賽一個(gè)入門級(jí)菜鳥的真實(shí)感受。01Kaggle我正兒八經(jīng)參加的第一個(gè)比賽是kaggle上的圖像隱寫分析比賽,因?yàn)槲冶旧淼难芯糠较虮闶沁@個(gè),于是我自信滿滿地參加了這個(gè)比賽。方向比較冷門,屬于信息安全領(lǐng)域中的多媒體安全。很多朋友應(yīng)該都沒(méi)有聽過(guò)隱寫分析,我簡(jiǎn)單介紹一下。首先是隱寫, 隱寫指的是我們將秘密信息藏入載體之中(比如圖像、語(yǔ)音、視頻、文本等),不讓其他人通過(guò)肉眼或者技術(shù)手段檢測(cè)出來(lái),而隱寫分析正是指檢測(cè)某個(gè)載體是否藏有秘密信息的技術(shù)。具體到這個(gè)比賽,目標(biāo)就是檢測(cè)某張圖片是否藏有秘密信息,是一個(gè)看似簡(jiǎn)單的二分類問(wèn)題。但由于嵌入算法的多樣性,嵌入率的不確定性,隱寫分析的難度相當(dāng)大。我一開始便選擇了領(lǐng)域中的SOTA模型——SRNet, 但由于該模型是在實(shí)驗(yàn)室環(huán)境中的“無(wú)敵”, 無(wú)法適應(yīng)該賽題的變化,效果令人大失所望。接著采用了效果驚艷整個(gè)CV屆的EfficientNet, 嘗試了b2-b5, 從b4開始因?yàn)轱@存的限制我不得不使用了混合精度。因?yàn)镋fficientNet的強(qiáng)大性能以及我“嫻熟”的玄學(xué)調(diào)參,我一度來(lái)到了接近LB銀牌的位置,中間也嘗試了很多不同的訓(xùn)練方法, 一些包含領(lǐng)域知識(shí)的解決思路。但還是非常遺憾,隨著比賽的進(jìn)行,大佬們的涌入讓我眼睜睜地看著自己的排名下降,最令我難受地是切換到B榜之后,我直接shake了600名!一次瘋狂的大跳水結(jié)束了我的處子秀。02WAIC首屆全球工業(yè)互聯(lián)網(wǎng)算法大賽這次比賽分為多個(gè)賽道,包含汽車賽道、高端裝備賽道、航空航天賽道、醫(yī)療賽道和一個(gè)開放賽道,比賽目的是讓AI算法與企業(yè)應(yīng)用真正結(jié)合起來(lái),采用的數(shù)據(jù)是真實(shí)的工業(yè)數(shù)據(jù)。我從中挑選了兩個(gè)賽道,其一是上海電氣的利用算法搭建設(shè)備健康情況預(yù)警模型,其二是基于DNA編碼化合物篩選數(shù)據(jù)的機(jī)器學(xué)習(xí)建模。同時(shí)進(jìn)行兩個(gè)賽道的比賽的原因是,這可以讓我在比賽進(jìn)程中根據(jù)自己的相對(duì)排名情況主攻排名靠前的賽道,有更大的可能獲獎(jiǎng)。我最終主攻的是第二題,簡(jiǎn)單來(lái)說(shuō),這道題的任務(wù)是一個(gè)二分類問(wèn)題,給定一堆化合物信息數(shù)據(jù),包括其結(jié)構(gòu)(SMILES表示),分子量,脂水分配系數(shù)等數(shù)據(jù),來(lái)預(yù)測(cè)該化合物與靶點(diǎn)結(jié)合的性質(zhì)為陰性或是陽(yáng)性。對(duì)于SMILES的處理以及靶點(diǎn)篩選我查閱了很多文獻(xiàn),當(dāng)下非常流行也是效果最棒的兩個(gè)模型分別是LSTM和GNN, 于是我基于這兩種模型分別進(jìn)行了實(shí)驗(yàn),兩種模型都取得了不錯(cuò)的效果,但圖網(wǎng)絡(luò)還是更勝一籌。在經(jīng)過(guò)線下驗(yàn)證線上反饋的方式調(diào)整自己的網(wǎng)絡(luò)參數(shù),最終在該賽道取得了客觀成績(jī)第二的好成績(jī),并且在經(jīng)過(guò)答辯以及線上主觀評(píng)審之后最終獲得了單賽道的季軍,也收獲了人生的第一筆比賽獎(jiǎng)金5000。03鏈想家計(jì)算科技大賽前兩次的比賽都是solo的,那么根據(jù)三人成虎(誤)的道理,組個(gè)隊(duì)融合一下豈不能獲得更優(yōu)的成績(jī),很開心這第三次比賽完美印證了我的猜想。我和鄧?yán)薪M隊(duì)取得了這次比賽初賽第二,復(fù)賽第一的好成績(jī)。這個(gè)比賽是鏈想家計(jì)算科技大賽MOOCCube學(xué)生行為分析挑戰(zhàn)賽,我也同時(shí)參加了兩個(gè)賽道,賽道一是學(xué)生退課行為預(yù)測(cè),賽道二是學(xué)生答題正確性預(yù)測(cè)。我主攻的賽道一賽題非常明確,那便是根據(jù)學(xué)生觀看視頻的歷史數(shù)據(jù)來(lái)預(yù)測(cè)該學(xué)生是否會(huì)選擇退課。該比賽我用時(shí)兩個(gè)多月,瘋狂地沖分導(dǎo)致我連做夢(mèng)都在構(gòu)造特征。初賽一步一步地從倒數(shù)到前二十到前十,期間還不斷被新參賽的大佬們按到十名開外,到了比賽的最后階段,我和鄧?yán)幸慌募春希瓿闪私M隊(duì)。一千個(gè)人眼里有一千個(gè)哈姆雷特,每個(gè)人對(duì)賽題的解讀不同,數(shù)據(jù)處理方式不同,特征構(gòu)造維度不同,經(jīng)過(guò)思想的碰撞之后,我們各取所長(zhǎng),一舉讓我們沖到初賽LB第二名。復(fù)賽這一天尤為刺激,也是我人生中睡眠時(shí)間最少的一天。2020年11月1日下午4時(shí),我完成了復(fù)賽的第一次提交。查這個(gè)分和我當(dāng)時(shí)高考查分的刺激程度有的一拼,我是從榜單的下面一直往上滑,最終發(fā)現(xiàn)自己在第一的位置,在開心地吃完晚餐之后發(fā)現(xiàn)自己以0.00006的微弱劣勢(shì)屈居第二,并在次日凌晨四時(shí)發(fā)現(xiàn)自己掉到了排行榜第三位,而當(dāng)時(shí)我們只剩最后一次提交機(jī)會(huì),在一番糾結(jié)之后我最終使用搖骰子的方式確定選擇了另外一種模型融合的方式,很高興正是這一次的提交讓我們?cè)俅位氐搅说谝幻奈恢茫惨恢北3值搅吮荣惤Y(jié)束。打比賽一時(shí)爽,一直打比賽一直爽,這是我最真實(shí)而又深刻的體驗(yàn)。當(dāng)你從排行榜的末端一直上升,一直上升到頭部的位置,可能會(huì)經(jīng)歷開心,經(jīng)歷失落,中間的過(guò)程可能起起伏伏,而你精心構(gòu)造的特征,辛勤付出的汗水一定會(huì)收獲好的結(jié)果。后續(xù)的比賽復(fù)盤,我們團(tuán)隊(duì)的解決方案我也會(huì)在這個(gè)公眾號(hào)繼續(xù)和大家分享,空余時(shí)間我也會(huì)給大家整理一些打比賽的小技巧,給想嘗試打比賽卻無(wú)從下手的朋友們一個(gè)參考。最后,新比賽繼續(xù),CCF BDCI見!——END——掃碼二維碼獲取更多精彩老肥碼碼碼 瀏覽 43點(diǎn)贊 評(píng)論 收藏 分享 手機(jī)掃一掃分享分享 舉報(bào) 評(píng)論圖片表情視頻評(píng)價(jià)全部評(píng)論推薦 在我消失前肖恩·克里斯汀森ShawnChristensen編劇Writer法提瑪·普塔塞克FatimaPtacek演員Actress埃米·羅森EmmyRossum演員Actress保羅·韋斯利PaulWesle有我在OK啦有我在OK啦0我母親的消失伯納黛特·芭茲妮BenedettaBarzini演員Actress薩爾瓦多·達(dá)利SalvadorDalí自己Self奧利維亞·羅斯OliviaRoss自己Self勞倫·赫頓LaurenHutton自己在沒(méi)有我的世界里在沒(méi)有我的世界里0你在我的世界里你在我的世界里0消失在上空的聲音消失在上空的聲音0在我手機(jī)里在我手機(jī)里0在我憂愁里在我憂愁里0在我生命里在我生命里0在我生命里歌手羅文在我生命里892496615發(fā)布日期2001-01-01ISRCHKE050131808時(shí)長(zhǎng)4.15分鐘流派粵語(yǔ)流行,音樂(lè),國(guó)際流行點(diǎn)贊 評(píng)論 收藏 分享 手機(jī)掃一掃分享分享 舉報(bào)