神州信息金融科技校園極客大賽TOP baseline
* 神州的一個比賽,主辦方非要抓著我看訓(xùn)練集的分?jǐn)?shù),并以我訓(xùn)練集得分過高并且測試集得分也過高判過擬合,不予我正常的排行榜的分?jǐn)?shù)顯示。
* 關(guān)于過擬合,我倒是也看到過一些討論,比如這個鏈接里所討論的https://www.kaggle.com/competitions/amex-default-prediction/discussion/335689,在我過去的數(shù)據(jù)挖掘經(jīng)歷中在保證數(shù)據(jù)劃分正確不產(chǎn)生leak的情況下(這很重要)充分?jǐn)M合訓(xùn)練集并且使用驗證集表現(xiàn)最佳的模型往往會得到更高的測試集分?jǐn)?shù),即使訓(xùn)練集和驗證集之間的分?jǐn)?shù)gap很大。
* 去年答辯降了N個名次,最后甚至不如一個不加特征就能達到基礎(chǔ)分的選手排名高,這是在我?guī)资蔚母傎惔疝q中唯一一次被干掉排名的比賽。哈哈哈哈哈哈,今年只想恰個低保,結(jié)果就發(fā)生了這種事
* 連霸占排行榜的資格都不給我,恰不到爛錢,遂開源,有需要自取
* 代碼和方案都很簡單,純純baseline
* 祝大家比賽順利~
* 代碼鏈接:https://github.com/librauee/yjcomp
評論
圖片
表情
