<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          科大訊飛CTR預估挑戰(zhàn)賽Top3方案總結(jié)

          共 1165字,需瀏覽 3分鐘

           ·

          2022-11-22 20:39

          ?
          ?前一陣子,老肥參加了科大訊飛AI開發(fā)者大賽的部分比賽,主要包括結(jié)構(gòu)化、音頻、文本以及圖像這四大類型,總體來看都是較為簡單的任務(wù)并且解題方案也較為簡單,后續(xù)會跟大家一一分享。

          今天要分享的是結(jié)構(gòu)化的賽題-創(chuàng)意視角下的數(shù)字廣告CTR預估挑戰(zhàn)賽


          賽題任務(wù)

          廣告的CTR預估需要強大的數(shù)據(jù)作為支撐,本次大賽提供了訊飛AI營銷云海量的現(xiàn)網(wǎng)流量和創(chuàng)意數(shù)據(jù)作為訓練樣本,參賽選手需基于提供的樣本構(gòu)建模型,預測測試集的點擊率,點擊率的準確性將直接影響評價結(jié)果。

          數(shù)據(jù)說明

          本次比賽的數(shù)據(jù)主要包括:標注數(shù)據(jù)、媒體流量數(shù)據(jù)、廣告創(chuàng)意數(shù)據(jù)以及其他業(yè)務(wù)Embedding向量。其中,標注數(shù)據(jù)為樣本的Label信息,媒體流量數(shù)據(jù)主要是流量媒體APP和廣告位來源信息。本次挑戰(zhàn)賽首次公開了元素級廣告創(chuàng)意數(shù)據(jù),包含創(chuàng)意的文字、圖片素材等,選手可基于創(chuàng)意進行深度的特征工程挖掘,包含但不限于大小,色系,利益點,元素Embedding等。

          總體來說就是包含了多個ID信息、Embedding特征以及文本圖像的一個多模態(tài)的數(shù)據(jù)。

          評價指標

          評價指標采用GAUC,在這其中, 權(quán)重取為流量媒體的廣告位上的點擊數(shù),為媒體廣告位上的AUC。



          方案概述

          首先對文本和圖像進行特征提取,確認多模態(tài)信息的有效性。文本直接采用TF-IDF再進行SVD降維得到特征表示拼接到主表,圖像采用預訓練模型VIT直接抽取Embedding向量再拼接到主表,經(jīng)過線下和線上的驗證得出本題多模態(tài)信息提取意義不大的結(jié)論。于是,最終確定的整體解決方法為基于特征工程的樹模型,整體方案如下所示。
          對于本方案,首先進行數(shù)據(jù)處理。
          第一步講初賽的訓練集與復賽的訓練集進行拼接,
          第二步對數(shù)據(jù)進行去重(包含部分數(shù)據(jù)所有字段值完全相同的情況),
          第三步對數(shù)據(jù)進行壓縮處理,節(jié)省內(nèi)存的使用。
          然后是特征工程部分,包含常規(guī)的一些統(tǒng)計特征:包括頻數(shù)統(tǒng)計特征(單類別出現(xiàn)的次數(shù)以及類別共現(xiàn)次數(shù))、unique特征(A類別在B類別中的unique,B類別在A類別中的unique),以及類別變量的Label Encoder編碼。對于240維的Embedding,我們對低信息量的特征進行刪除(unique值較小),對剩余Embedding特征進行mean、std的統(tǒng)計(groupby各個ID特征)
          最后是模型訓練的部分,采用常規(guī)的分層五折交叉驗證,將對測試集的預測概率取均值得到最后的預測結(jié)果。該方案在線上排名到第三位的成績,另外,如果我們不進行重復數(shù)據(jù)刪除,而是對數(shù)據(jù)重復次數(shù)進行統(tǒng)計作為特征輸入,再應(yīng)用上述方案可以排到排行榜第一位,得分為0.68098。完整的代碼已開源,可以從下面的閱讀原文鏈接中獲取。



          為了大家能更好的溝(日)(常)(吹)(水),我創(chuàng)建了一個,感興趣的可以掃碼入群,歡迎大家!!(若碼失效了,可后臺私信我)




          ?
          ?

          瀏覽 53
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          評論
          圖片
          表情
          推薦
          點贊
          評論
          收藏
          分享

          手機掃一掃分享

          分享
          舉報
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  蜜桃人妻Ⅴ一v二精品视频 | 欧美三级中文字幕 | 啪啪啪啪免费网站 | 中文天堂新在线 | 男人的天堂青青草视频 |