程序員的歐洲杯:用大數(shù)據(jù)預(yù)測(cè)勝率,比踢球還刺激
共 14961字,需瀏覽 30分鐘
·
2024-07-04 08:45
??目錄
1 足彩預(yù)測(cè)
2 投注策略分析
3 One more thing
4 結(jié)語(yǔ)
本文作者從數(shù)據(jù)層面出發(fā),通過挖掘足球比賽相關(guān)的數(shù)據(jù)特征,結(jié)合機(jī)器學(xué)習(xí)的模型方法,對(duì)足球比賽的勝、平、負(fù)結(jié)果進(jìn)行預(yù)測(cè)。特別提醒,本文不構(gòu)成任何投資、下注建議,博彩有風(fēng)險(xiǎn),下注需注意!
-
挖掘足球比賽數(shù)據(jù)特征。 -
構(gòu)建預(yù)測(cè)模型。 -
預(yù)測(cè)比賽結(jié)果概率(勝、平、負(fù))。 -
分析足彩投注策略。
01
-
基于進(jìn)球數(shù)預(yù)測(cè)方法。基于進(jìn)球數(shù)預(yù)測(cè)的方法[1]把比賽結(jié)果的預(yù)測(cè)轉(zhuǎn)化為利用泊松分布模型估計(jì)對(duì)戰(zhàn)雙方的攻防能力,進(jìn)而通過進(jìn)球數(shù)預(yù)測(cè)比賽最終的結(jié)果。
-
基于概率回歸模型。論文[2]提出由多個(gè)不同的解釋變量來組成一個(gè)概率回歸模型,主要考慮球隊(duì)水平、近期表現(xiàn)、比賽重要程度、主客隊(duì)位置距離等。 -
利用貝葉斯網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)。主要采用與比賽相關(guān)的主觀和客觀數(shù)據(jù)對(duì)貝葉斯網(wǎng)絡(luò)的進(jìn)行訓(xùn)練建模,進(jìn)而對(duì)比賽結(jié)果進(jìn)行預(yù)測(cè)。
-
賠率是兩支球隊(duì)實(shí)力的體現(xiàn)。 -
賠率基于比賽結(jié)果的基本概率。 -
賠率融合了莊家的市場(chǎng)預(yù)期。
-
比賽的主要信息:聯(lián)賽、主隊(duì)、客隊(duì)、比分。
-
賠率信息:各博彩公司對(duì)比賽給出的歐洲賠率(勝、平、負(fù))。
-
根據(jù)聯(lián)賽積分排名,排名第1的球隊(duì)得20分,第2名的球隊(duì)得19分,以此類推,第20名的球隊(duì)得1分,降級(jí)球隊(duì)得0分; -
計(jì)算每支球隊(duì)在近10個(gè)聯(lián)賽賽季的排名方差; -
由每支球隊(duì)的排名方差的平均值計(jì)算得到聯(lián)賽的混沌程度得分。
-
容易收斂到局部最小值,陷入局部最優(yōu)。 -
訓(xùn)練數(shù)據(jù)不足時(shí),容易過擬合。 -
要求訓(xùn)練數(shù)據(jù)為有標(biāo)簽的數(shù)據(jù)。 -
訓(xùn)練速度慢,計(jì)算性能要求高。
-
逐層訓(xùn)練構(gòu)建神經(jīng)元,使得每一層網(wǎng)絡(luò)的輸入和輸出所蘊(yùn)含的信息差別最小。這一步是無監(jiān)督的訓(xùn)練過程。 -
通過有標(biāo)簽的訓(xùn)練數(shù)據(jù),誤差自頂向下對(duì)各層網(wǎng)絡(luò)的參數(shù)進(jìn)行微調(diào)。
-
比賽數(shù)量更少。 英超聯(lián)賽有20支隊(duì)伍,正常賽季有380場(chǎng)比賽。而一屆杯賽的總場(chǎng)次是遠(yuǎn)遠(yuǎn)小于這個(gè)數(shù)量的。2016年擴(kuò)軍后,歐洲杯24支參賽隊(duì)伍,共51場(chǎng)比賽;世界杯32支參賽隊(duì)伍,共64場(chǎng)比賽。這使得杯賽相關(guān)數(shù)據(jù)的總量都遠(yuǎn)小于聯(lián)賽。 -
數(shù)據(jù)質(zhì)量更為波動(dòng)。 由于杯賽往往4年舉辦一屆,參賽隊(duì)伍變動(dòng)大,隊(duì)伍的實(shí)力變化大。這就導(dǎo)致對(duì)戰(zhàn)隊(duì)伍的歷史對(duì)局相對(duì)較少,同時(shí)歷史對(duì)戰(zhàn)數(shù)據(jù)的指導(dǎo)性變?nèi)酢H缭谑澜绫希軌蚺c中國(guó)隊(duì)一戰(zhàn)的隊(duì)伍不過巴西、哥斯達(dá)黎加、土耳其,數(shù)據(jù)極少。綜上所述,杯賽的預(yù)測(cè)相對(duì)聯(lián)賽來說更難。結(jié)合上面對(duì)法甲聯(lián)賽的分析,杯賽相當(dāng)于一個(gè)混沌程度更高的“聯(lián)賽”,預(yù)測(cè)的結(jié)果具有更大的隨機(jī)性。
02
-
現(xiàn)在得到的盈利投注區(qū)間規(guī)律只在各個(gè)聯(lián)賽300場(chǎng)左右的測(cè)試集進(jìn)行過測(cè)試,是否具有更加普適性的可能,還需要有更多的比賽數(shù)據(jù)進(jìn)行測(cè)試和驗(yàn)證。 -
現(xiàn)有的投注策略受限于預(yù)測(cè)概率區(qū)間,投注場(chǎng)次與總場(chǎng)次之比還不夠高,如英超為20%,而法甲由于準(zhǔn)確率較低的緣故,投注比例只有7%。 -
由于投注場(chǎng)次的賠率會(huì)有波動(dòng),導(dǎo)致盈利率在不同的訓(xùn)練集上變化較大,難以確保一個(gè)高而穩(wěn)定的盈利率。
03
-
大量的熱度指數(shù) 媒體熱度。 搜索熱度。 社交熱度。
-
意想不到的數(shù)據(jù)關(guān)聯(lián)性 啤酒vs尿布。 股市大盤vs社交網(wǎng)絡(luò)恐慌指數(shù)。 流感疫情vs搜索熱詞。
-
股票信息足夠“大數(shù)據(jù)”
-
股票信息具備天然的“時(shí)序”特點(diǎn)
04
-
數(shù)據(jù)樣本仍然需要進(jìn)一步積累,進(jìn)一步擴(kuò)充比賽數(shù)據(jù)樣本,增加中超聯(lián)賽以及歐冠、亞冠等杯賽數(shù)據(jù); -
特征挖掘。對(duì)于 DNN 模型來說,現(xiàn)在的特征維度仍然偏少,有效的特征不多。有效特征的進(jìn)一步挖掘是接下來重要的工作之一。如賠率變化值,對(duì)戰(zhàn)陣形、球員疲勞程度、比賽重要度,球隊(duì)重大新聞等等,進(jìn)一步挖掘和分析對(duì)比賽有影響的因子。 -
當(dāng)前利用足彩預(yù)測(cè)概率進(jìn)行投注的策略仍然比較簡(jiǎn)單,其穩(wěn)定性和適用性仍然需要在更大量的數(shù)據(jù)集上進(jìn)行測(cè)試和調(diào)整。 -
增加對(duì)比賽其他結(jié)果的預(yù)測(cè),如進(jìn)球數(shù),強(qiáng)弱隊(duì)比賽爆冷概率等等。
????歡迎加入騰訊云開發(fā)者社群,享前沿資訊、大咖干貨,找興趣搭子,交同城好友,更有鵝廠招聘機(jī)會(huì)、限量周邊好禮等你來~
(長(zhǎng)按圖片立即掃碼)
評(píng)論
圖片
表情
