<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          程序員的歐洲杯:用大數(shù)據(jù)預(yù)測(cè)勝率,比踢球還刺激

          共 14961字,需瀏覽 30分鐘

           ·

          2024-07-04 08:45


          ??目錄


          1 足彩預(yù)測(cè)

          2 投注策略分析

          3 One more thing

          4 結(jié)語(yǔ)




          激戰(zhàn)正酣的歐洲杯已經(jīng)進(jìn)入了淘汰賽階段,每一場(chǎng)比賽的勝負(fù)都牽動(dòng)著萬(wàn)千球迷的心。天氣、場(chǎng)地、球星、戰(zhàn)術(shù)、傷病、裁判,每一個(gè)因素都可能會(huì)影響一場(chǎng)比賽的結(jié)果。有言道,在足球比賽里,不到最后一刻,你永遠(yuǎn)不知道事情的結(jié)果。對(duì)于足彩愛好者來說,不僅在欣賞足球蕩氣回腸、懸念叢生的魅力,更是在與博彩公司進(jìn)行一場(chǎng)心理與策略的博弈(其實(shí)是為了投注賺錢)。

          本文作者從數(shù)據(jù)層面出發(fā),通過挖掘足球比賽相關(guān)的數(shù)據(jù)特征,結(jié)合機(jī)器學(xué)習(xí)的模型方法,對(duì)足球比賽的勝、平、負(fù)結(jié)果進(jìn)行預(yù)測(cè)。特別提醒,本文不構(gòu)成任何投資、下注建議,博彩有風(fēng)險(xiǎn),下注需注意!




          偉大的福爾特博·普利迪特說過:球無假球,盤皆假盤,信息的不對(duì)稱才是造成貧富差距的根本原因。在這大數(shù)據(jù)時(shí)代,能否在數(shù)據(jù)的幫助下,減少這種信息的不對(duì)稱,從而成功地對(duì)足球比賽進(jìn)行預(yù)測(cè)?本文從數(shù)據(jù)層面出發(fā),通過挖掘足球比賽相關(guān)的數(shù)據(jù)特征,結(jié)合機(jī)器學(xué)習(xí)的模型方法,對(duì)足球比賽的勝、平、負(fù)結(jié)果進(jìn)行預(yù)測(cè)。進(jìn)一步根據(jù)預(yù)測(cè)結(jié)果指導(dǎo)足彩單場(chǎng)競(jìng)猜的投注,以期實(shí)現(xiàn)有效盈利,甚至是穩(wěn)定盈利的投注方法。

          • 挖掘足球比賽數(shù)據(jù)特征。
          • 構(gòu)建預(yù)測(cè)模型。
          • 預(yù)測(cè)比賽結(jié)果概率(勝、平、負(fù))。
          • 分析足彩投注策略。


          在使用本文提出的投注策略下,對(duì)英超2015賽季100場(chǎng)比賽,投注了其中20場(chǎng)比賽。若均為單注投注(2元一注),投注20場(chǎng)比賽可盈利22.18元,盈利率達(dá)到55%!下面將以2015年的歐洲五大聯(lián)賽數(shù)據(jù)為例,詳細(xì)地介紹如何通過數(shù)據(jù)和簡(jiǎn)單的機(jī)器學(xué)習(xí)方法,構(gòu)建一個(gè)實(shí)用有效的足彩預(yù)測(cè)系統(tǒng)。




          01



          足彩預(yù)測(cè)

          “我們可以把宇宙現(xiàn)在的狀態(tài)視為其過去的果以及未來的因。如果一個(gè)智者能知道某一刻所有自然運(yùn)動(dòng)的力和所有自然構(gòu)成的物件的位置,假如他也能夠?qū)@些數(shù)據(jù)進(jìn)行分析,那宇宙里最大的物體到最小的粒子的運(yùn)動(dòng)都會(huì)包含在一條簡(jiǎn)單公式中。對(duì)于這智者來說沒有事物會(huì)是含糊的,而未來只會(huì)像過去般出現(xiàn)在他面前。”——法國(guó)數(shù)學(xué)家皮埃爾·西蒙·拉普拉斯

             1.1 數(shù)據(jù)特征


          那究竟如何才能做到先知先覺,事先一窺足球比賽的結(jié)果呢?對(duì)于足球比賽,是否存在一種合理有效的預(yù)測(cè)方法,進(jìn)而在足球彩票投注中實(shí)現(xiàn)較為穩(wěn)定的盈利呢?

          拉普拉斯提出的拉普拉斯妖是機(jī)械決定論的典型代表,他認(rèn)為只要擁有宇宙所有力的分布和物體狀態(tài),便可以通過一個(gè)牛逼的AI去預(yù)測(cè)未來的所有,然而這樣的論斷被薛定諤的那只貓給否定了。拉普拉斯妖雖然有其自身的局限性,但在宏觀動(dòng)力學(xué)中原則上仍是適用的。就像布拉德·皮特主演的電影《MoneyBall》講述的真實(shí)故事,一支屌絲球會(huì)通過數(shù)據(jù)分析,挖掘出合適的球員,最終組合成一支總薪金低卻能與豪門洋基競(jìng)爭(zhēng)冠軍的球隊(duì)。影響一場(chǎng)足球比賽結(jié)果的因素千千萬(wàn),不管是普通球迷還是職業(yè)足球評(píng)論家都可以提出一系列的影響因子,球隊(duì)排名、歷史戰(zhàn)績(jī)、攻防數(shù)據(jù)、近期表現(xiàn)、主場(chǎng)優(yōu)勢(shì)、紅牌裁判等等。

          現(xiàn)有業(yè)界的足球比賽預(yù)測(cè)方法眾多,下面簡(jiǎn)要介紹下常見的幾種方法:
          1. 基于進(jìn)球數(shù)預(yù)測(cè)方法。基于進(jìn)球數(shù)預(yù)測(cè)的方法[1]把比賽結(jié)果的預(yù)測(cè)轉(zhuǎn)化為利用泊松分布模型估計(jì)對(duì)戰(zhàn)雙方的攻防能力,進(jìn)而通過進(jìn)球數(shù)預(yù)測(cè)比賽最終的結(jié)果。
          2. 基于概率回歸模型。論文[2]提出由多個(gè)不同的解釋變量來組成一個(gè)概率回歸模型,主要考慮球隊(duì)水平、近期表現(xiàn)、比賽重要程度、主客隊(duì)位置距離等。
          3. 利用貝葉斯網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)。主要采用與比賽相關(guān)的主觀和客觀數(shù)據(jù)對(duì)貝葉斯網(wǎng)絡(luò)的進(jìn)行訓(xùn)練建模,進(jìn)而對(duì)比賽結(jié)果進(jìn)行預(yù)測(cè)。

          參考多篇關(guān)于 football prediction 的論文,其預(yù)測(cè)比賽利用的數(shù)據(jù)主要分為兩方面,一是球隊(duì)基本面信息,二是公開的賠率盤口。這里的足彩預(yù)測(cè)實(shí)現(xiàn)主要也是考慮了這兩方面的數(shù)據(jù)。

             1.1.1 球隊(duì)基本面信息



          球隊(duì)基本面信息由比賽雙方球隊(duì)在球隊(duì)實(shí)力、賽前狀態(tài)、對(duì)戰(zhàn)歷史、場(chǎng)地效應(yīng)、攻防能力這五個(gè)方面組成。我們把這主隊(duì)客隊(duì)在這五個(gè)方面的能力量化為17維的連續(xù)特征。


             1.1.2 賠率盤口


          球隊(duì)基本面信息很容易理解,而賠率盤口與足球比賽的結(jié)果有什么具體的聯(lián)系呢?賠率的基本條件是概率,但又不僅僅是概率。簡(jiǎn)單來說,博彩公司對(duì)某場(chǎng)比賽進(jìn)行一系列科學(xué)的分析和判斷后,得出勝、平、負(fù)三種結(jié)果,贏面大的一方,相應(yīng)的賠率自然就低,贏面小的一方,其賠率就相對(duì)的高。概率的高低并非對(duì)應(yīng)最終的結(jié)果,但一旦形成市場(chǎng)行為,博彩公司便將概率轉(zhuǎn)化為賠率去銷售。公開的賠率數(shù)據(jù)為了切合市場(chǎng)預(yù)期和體現(xiàn)它的存在價(jià)值,勢(shì)必要或多或少與實(shí)際比賽概率產(chǎn)生聯(lián)系,從而去迎合大眾投注心理,而最終形成的賠率則是包含著莊家市場(chǎng)預(yù)期值、比賽信息以及結(jié)果概率的綜合體。

          • 賠率是兩支球隊(duì)實(shí)力的體現(xiàn)。
          • 賠率基于比賽結(jié)果的基本概率。
          • 賠率融合了莊家的市場(chǎng)預(yù)期。


          可以看到,博彩公司公開的賠率本身蘊(yùn)含了比賽相關(guān)的信息,但摻雜了莊家的市場(chǎng)期望和閑家的投注傾向,附著了許多商業(yè)利益。賠率從最初開出到比賽開始都有可能發(fā)生變化,當(dāng)博彩公司獲得更多的信息時(shí),會(huì)依據(jù)球隊(duì)動(dòng)態(tài)和投注傾向做出一定的調(diào)整。有經(jīng)驗(yàn)的彩民常常通過觀察不同博彩公司的初始賠率以及賠率的變化來決定自己的投注。不同的比賽賠率不盡相同,賠率從初賠到終賠變化多樣,而我們希望通過機(jī)器學(xué)習(xí)的方法讓模型代替人去理解這其中的含義,進(jìn)而預(yù)測(cè)足球比賽的結(jié)果。

             1.2 數(shù)據(jù)的準(zhǔn)備


          這里以歐洲五大聯(lián)賽的預(yù)測(cè)為示例,下面我們針對(duì)歐洲五大聯(lián)賽進(jìn)行數(shù)據(jù)折挖掘和準(zhǔn)備。

          針對(duì)杯賽,如歐洲杯、美洲杯、世界杯等的預(yù)測(cè)方法類似,但面臨的數(shù)據(jù)問題有些許的不同,該問題將在本節(jié)最后部分做簡(jiǎn)單的討論。

          需要的數(shù)據(jù)主要有:
          1. 比賽的主要信息:聯(lián)賽、主隊(duì)、客隊(duì)、比分。
          2. 賠率信息:各博彩公司對(duì)比賽給出的歐洲賠率(勝、平、負(fù))。

          通過抓取,現(xiàn)已獲得從2010年至2015年歐洲五大聯(lián)賽比賽的信息,以及17家主流博彩公司公開的賠率信息。各個(gè)聯(lián)賽具體數(shù)據(jù)情況如下:


          球隊(duì)基本面信息特征可以通過對(duì)歷史聯(lián)賽積分排名以及球隊(duì)參賽信息統(tǒng)計(jì)得到,共17維球隊(duì)特征。對(duì)于賠率而言,由于每家博彩公司在開賽前給出的最終賠率并沒有統(tǒng)一的時(shí)間標(biāo)準(zhǔn),故現(xiàn)版本只采用各主流博彩公司公開的初次勝、平、負(fù)賠率,17家博彩公司共51維賠率特征。

             1.3 預(yù)測(cè)模型


             1.3.1 非線性模型


          現(xiàn)有比賽數(shù)據(jù)從2010年7月27日開始累積,其中包含了五個(gè)完整的賽季以及2015年的賽季數(shù)據(jù)。以英超聯(lián)賽為例,我們從前五個(gè)賽季中各隨機(jī)選擇55場(chǎng)比賽以及最新賽季的90場(chǎng)比賽,共365場(chǎng)組成測(cè)試集合,其余數(shù)據(jù)作為訓(xùn)練集合。比賽數(shù)據(jù)中存在一些強(qiáng)弱對(duì)抗且爆冷的比賽,我們認(rèn)為這樣的數(shù)據(jù)為奇異的樣本在訓(xùn)練過程中進(jìn)行了剔除,得到1339場(chǎng)的訓(xùn)練集合。

          在線性 LR 模型下,英超聯(lián)賽的測(cè)試集的預(yù)測(cè)準(zhǔn)確率為38.18%,而在 SVM 模型下準(zhǔn)確率提升為51.23%。SVM 模型對(duì)比賽勝、平、負(fù)預(yù)測(cè)結(jié)果的預(yù)測(cè)的混淆矩陣如下:


          根據(jù)英超聯(lián)賽的預(yù)測(cè)結(jié)果來看,SVM 模型的預(yù)測(cè)準(zhǔn)確率比 LR 模型的預(yù)測(cè)準(zhǔn)確率提高了13.05%,我們猜測(cè)非線性模型在足球比賽結(jié)果的預(yù)測(cè)上具有更好的表現(xiàn)。我們采用同樣的訓(xùn)練集和測(cè)試集,嘗試了多個(gè)不同的非線性模型。


          由實(shí)驗(yàn)結(jié)果我們發(fā)現(xiàn),除了法甲聯(lián)賽,其他聯(lián)賽在非線性模型,尤其是隨機(jī)森林(RandomForest)模型上都具有較好的效果,預(yù)測(cè)準(zhǔn)確率達(dá)到了53%以上。但是為什么唯獨(dú)法甲聯(lián)賽的預(yù)測(cè)準(zhǔn)確率相對(duì)其他聯(lián)賽更低呢?

          從球迷的角度來看,相比其他四大聯(lián)賽法甲聯(lián)賽本身競(jìng)爭(zhēng)力較低,球員中以非洲為代表的第三世界外援比例高,比賽戰(zhàn)術(shù)性和紀(jì)律性都較弱,比賽常常依靠明星球員的個(gè)人表現(xiàn)。香農(nóng)理論證明了熵與信息內(nèi)容的不確定程度有等價(jià)關(guān)系,也就是物體的信息熵越大,混沌程度越高,其信息的不確定性就越大。對(duì)于足球比賽來說,對(duì)戰(zhàn)雙方實(shí)力越為接近,比賽結(jié)果的偶然性則越大,想要準(zhǔn)確地預(yù)測(cè)比賽結(jié)果也就越為困難。

          球隊(duì)在每場(chǎng)比賽中的真實(shí)實(shí)力是很難去人為衡量的,在這里我們簡(jiǎn)單地把球隊(duì)的聯(lián)賽積分排名作為球隊(duì)實(shí)力的一個(gè)衡量標(biāo)準(zhǔn)。在聯(lián)賽中,根據(jù)球隊(duì)積分排名的一個(gè)波動(dòng)情況衡量整個(gè)聯(lián)賽的混沌程度。計(jì)算方法如下:
          1. 根據(jù)聯(lián)賽積分排名,排名第1的球隊(duì)得20分,第2名的球隊(duì)得19分,以此類推,第20名的球隊(duì)得1分,降級(jí)球隊(duì)得0分;
          2. 計(jì)算每支球隊(duì)在近10個(gè)聯(lián)賽賽季的排名方差;
          3. 由每支球隊(duì)的排名方差的平均值計(jì)算得到聯(lián)賽的混沌程度得分。

          聯(lián)賽混沌程度得分


          由以上方法計(jì)算得到的結(jié)果可以看到,法甲的混沌程度得分遠(yuǎn)高于其他的四大聯(lián)賽,和球迷在感性上的認(rèn)識(shí)是一致的,這就導(dǎo)致了利用同樣的數(shù)據(jù)信息,對(duì)法甲的預(yù)測(cè)準(zhǔn)確率遠(yuǎn)低其它的四大聯(lián)賽。

          到此為止,我們?cè)诓捎秒S機(jī)森林模型對(duì)英超聯(lián)賽能取得53.42%的預(yù)測(cè)準(zhǔn)確率,除了進(jìn)一步挖掘更多的特征,還有沒有方法可以進(jìn)一步提高準(zhǔn)確率呢?下面我們先來看下現(xiàn)有的特征在隨機(jī)森林模型下對(duì)目標(biāo)值的作用權(quán)重。


          其中最后17維特征為球隊(duì)基本面特征,其余的為賠率特征。在隨機(jī)森林模型下,球隊(duì)基本面特征普遍的作用權(quán)重偏低,對(duì)目標(biāo)結(jié)果的影響有限,特征作用更大的主要存在于賠率特征向量中。

             1.3.2 DNN 模型


          特征是機(jī)器學(xué)習(xí)系統(tǒng)的原材料,對(duì)模型最終的效果影響是最大的。如果原始數(shù)據(jù)可以通過合適的特征更好地表達(dá)出來,哪怕是簡(jiǎn)單的模型也可以達(dá)到更高的精度。然而特征工程是一個(gè)枯燥而費(fèi)力的工作,同時(shí)要求需要有大量的經(jīng)驗(yàn)和專業(yè)知識(shí)。對(duì)于足球比賽而言,普通球迷與專業(yè)足球分析師觀察的點(diǎn)可能完全不一樣。手工選擇和處理特征很大程度上需要依靠專業(yè)經(jīng)驗(yàn),甚至是運(yùn)氣,同時(shí)需要耗費(fèi)大量的時(shí)間。近年來大熱的 Deep learning 恰好可以解決這樣的問題。Deep learning 的另一個(gè)名字叫做 unsupervised features learning,即非監(jiān)督的特征學(xué)習(xí)方法。它最為強(qiáng)大的地方就在于,在包含眾多隱含層的神經(jīng)網(wǎng)絡(luò)中,可以利用其中的某一層的輸出當(dāng)作是輸入數(shù)據(jù)的另一種表達(dá)形式,能夠更準(zhǔn)確地“表達(dá)”和“理解”事物的特征,從而有效地提升預(yù)測(cè)的準(zhǔn)確性。

          傳統(tǒng)的 Neural Network 在訓(xùn)練過程中采用 back propagation 的方式進(jìn)行,即根據(jù)當(dāng)前輸出和 label 之間的誤差,利用梯度下降法調(diào)整前面各層的參數(shù),直至模型收斂。但在實(shí)際工程中存在明顯的缺點(diǎn):
          1. 容易收斂到局部最小值,陷入局部最優(yōu)。
          2. 訓(xùn)練數(shù)據(jù)不足時(shí),容易過擬合。
          3. 要求訓(xùn)練數(shù)據(jù)為有標(biāo)簽的數(shù)據(jù)。
          4. 訓(xùn)練速度慢,計(jì)算性能要求高。


          為了解決多層神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中存在的問題,Hinton 提出了另一種訓(xùn)練方法,無監(jiān)督逐層訓(xùn)練 greedy layer-wise training。訓(xùn)練方法主要分為兩大步驟:
          1. 逐層訓(xùn)練構(gòu)建神經(jīng)元,使得每一層網(wǎng)絡(luò)的輸入和輸出所蘊(yùn)含的信息差別最小。這一步是無監(jiān)督的訓(xùn)練過程。
          2. 通過有標(biāo)簽的訓(xùn)練數(shù)據(jù),誤差自頂向下對(duì)各層網(wǎng)絡(luò)的參數(shù)進(jìn)行微調(diào)。


          利用深度神經(jīng)網(wǎng)絡(luò)的多重非線性變換,我們便可得到輸入數(shù)據(jù)特征的另一種更加有效的表示,實(shí)現(xiàn)了對(duì)足彩數(shù)據(jù)特征的有效學(xué)習(xí)。如此,我們可以利用深度學(xué)習(xí)網(wǎng)絡(luò)的隱層輸出作為新的輸入特征,結(jié)合其他的非線性統(tǒng)計(jì)模型訓(xùn)練得到最后的輸出結(jié)果。


          以英超聯(lián)賽為例,結(jié)合深度神經(jīng)網(wǎng)絡(luò)的 Ensemble 方法對(duì)比賽結(jié)果的預(yù)測(cè)準(zhǔn)確率有了明顯的提高。


             1.4 杯賽預(yù)測(cè)和比分預(yù)測(cè)


             1.4.1 杯賽預(yù)測(cè)


          以上的數(shù)據(jù)特征挖掘和預(yù)測(cè)均以歐洲五大聯(lián)賽為例,但杯賽或其他比賽的預(yù)測(cè)方法是相似的。不過杯賽相比聯(lián)賽的預(yù)測(cè)難度更大,主要有以下兩大原因:

          1. 比賽數(shù)量更少。
            英超聯(lián)賽有20支隊(duì)伍,正常賽季有380場(chǎng)比賽。而一屆杯賽的總場(chǎng)次是遠(yuǎn)遠(yuǎn)小于這個(gè)數(shù)量的。2016年擴(kuò)軍后,歐洲杯24支參賽隊(duì)伍,共51場(chǎng)比賽;世界杯32支參賽隊(duì)伍,共64場(chǎng)比賽。這使得杯賽相關(guān)數(shù)據(jù)的總量都遠(yuǎn)小于聯(lián)賽。
          2. 數(shù)據(jù)質(zhì)量更為波動(dòng)。
            由于杯賽往往4年舉辦一屆,參賽隊(duì)伍變動(dòng)大,隊(duì)伍的實(shí)力變化大。這就導(dǎo)致對(duì)戰(zhàn)隊(duì)伍的歷史對(duì)局相對(duì)較少,同時(shí)歷史對(duì)戰(zhàn)數(shù)據(jù)的指導(dǎo)性變?nèi)酢H缭谑澜绫希軌蚺c中國(guó)隊(duì)一戰(zhàn)的隊(duì)伍不過巴西、哥斯達(dá)黎加、土耳其,數(shù)據(jù)極少。綜上所述,杯賽的預(yù)測(cè)相對(duì)聯(lián)賽來說更難。結(jié)合上面對(duì)法甲聯(lián)賽的分析,杯賽相當(dāng)于一個(gè)混沌程度更高的“聯(lián)賽”,預(yù)測(cè)的結(jié)果具有更大的隨機(jī)性。

             1.4.2 比分預(yù)測(cè)

          比分預(yù)測(cè)的方法與賽果預(yù)測(cè)的方法相近,上游的數(shù)據(jù)獲取和特征抽象均可以復(fù)用,主要是把預(yù)測(cè)目標(biāo)轉(zhuǎn)換為對(duì)比賽結(jié)果比分的預(yù)測(cè),如下圖所示:


          比分預(yù)測(cè)在實(shí)際實(shí)現(xiàn)中,我們可以把它當(dāng)作一種回歸問題或分類問題。這里,我們舉兩種比較簡(jiǎn)單實(shí)用的方法作為示例。

          1.泊松分布方法

          泊松分布(Poisson distribution)是由法國(guó)數(shù)學(xué)家西莫恩·德尼·泊松在1838年提出來的,它描述的是單位時(shí)間內(nèi)隨機(jī)事件發(fā)生的次數(shù)的概率分布。這里,我們可以假設(shè)比賽雙方的進(jìn)球數(shù)符合泊松分布(這是很強(qiáng)、很樸素的假設(shè)),僅對(duì)其中的 lambda 參數(shù)進(jìn)行建模,得到最終比賽的最大概率進(jìn)球比分。


          2.多分類方法

          多分類方法則是把比分預(yù)測(cè)看作是一個(gè)多分類問題。經(jīng)過數(shù)據(jù)統(tǒng)計(jì)我們發(fā)現(xiàn),大多數(shù)比賽的單場(chǎng)進(jìn)球數(shù)小于或等于4,如歐洲杯中97%的場(chǎng)次進(jìn)球數(shù)小于5。如此,我們可以把比分預(yù)測(cè)看到是一個(gè)25(5*5)類別的分類問題,用 Softmax 函數(shù)對(duì)每種可能的比分進(jìn)行建模。


          PS:下表為2016年歐洲杯和2018年世界杯的賽果預(yù)測(cè)和比分預(yù)測(cè)情況(可以看到預(yù)測(cè)準(zhǔn)確率波動(dòng)特別大)




          02



          投注策略分析

          實(shí)際足彩中有多種彩種玩法,如競(jìng)彩足球中就包括勝平負(fù)游戲、比分游戲、總進(jìn)球游戲、半全場(chǎng)勝平負(fù)游戲、過關(guān)組合玩法等等。那基于前面得到的足彩預(yù)測(cè)系統(tǒng),能不能對(duì)我們的足彩投注有所指導(dǎo)。好吧,就是能不能賺錢。


             2.1 如何才能盈利

          足球彩票品種多得讓人剁手,這里只針對(duì)競(jìng)彩足球中最為簡(jiǎn)單的競(jìng)彩單場(chǎng)玩法進(jìn)行分析。單場(chǎng)固定單注獎(jiǎng)金計(jì)算公式為:所選場(chǎng)次的單場(chǎng)賠率×2元×倍數(shù)。

          假設(shè)大壯投注 n+m 場(chǎng)比賽,其中猜對(duì)了 n 場(chǎng)比賽,猜中的n場(chǎng)比賽賠率分別為,則大壯可以用來給小美買包的總利潤(rùn)計(jì)算如下:


          令總利潤(rùn) profit>0,對(duì)上式做一下簡(jiǎn)單的推導(dǎo):


          表明,若想最后總利潤(rùn)大于零,則要求投注比賽的預(yù)測(cè)準(zhǔn)確率的倒數(shù)小于猜中比賽的平均賠率,即要求滿足如下公式:


          對(duì)于我們現(xiàn)有表現(xiàn)最好的模型(NN+SVM)來說,在英超訓(xùn)練集(1339場(chǎng))和測(cè)試集(365場(chǎng))中,預(yù)測(cè)結(jié)果如下:


          結(jié)果仍然不滿足公式(1)的要求,也就是說當(dāng)我們完全根據(jù)模型預(yù)測(cè)結(jié)果進(jìn)行投注時(shí),從長(zhǎng)遠(yuǎn)來看必定是虧本買賣。

             2.2 分析模型的預(yù)測(cè)概率區(qū)間

          模型預(yù)測(cè)的比賽結(jié)果給出了對(duì)應(yīng)的概率,是否存在在一定的區(qū)間內(nèi),預(yù)測(cè)結(jié)果的概率值滿足公式(1),如此只需要根據(jù)預(yù)測(cè)概率調(diào)整投注策略就可以了。

          除了原來的測(cè)試集(365場(chǎng)),另隨機(jī)產(chǎn)生了100場(chǎng)、200場(chǎng)、300場(chǎng)以及2015新賽季的100場(chǎng)英超比賽作為測(cè)試集進(jìn)行測(cè)試,結(jié)果展示如下:

          1/precise 為預(yù)測(cè)比賽準(zhǔn)確率的倒數(shù)。

          Bet_odds_avg 為預(yù)測(cè)正確的比賽對(duì)應(yīng)的賠率平均值。

          Odds_avg 為各區(qū)間比賽結(jié)果對(duì)應(yīng)的賠率平均值。


          可以看到當(dāng)前訓(xùn)練集(1339場(chǎng),無爆冷比賽)訓(xùn)練得到的 SVM 模型,對(duì)于英超比賽的預(yù)測(cè),在概率 p<0.4和p>=0.9 的區(qū)間是滿足公式(1)的,即足彩預(yù)測(cè)系統(tǒng)預(yù)測(cè)概率在此類區(qū)間時(shí),如果進(jìn)行投注能夠盈利。根據(jù)這樣的投注策略進(jìn)行模擬投注,符合概率要求的均只投一注,可以得到以下數(shù)據(jù):


          推而廣之,這樣的投注策略在其他四大聯(lián)賽中是否適用呢。同樣的,我們隨機(jī)地產(chǎn)生100場(chǎng)、200場(chǎng)和300場(chǎng)訓(xùn)練集分別對(duì)西甲、意甲、德甲和法甲進(jìn)行測(cè)試。


          可以看到其它聯(lián)賽也存在類似的滿足盈利公式(1)的概率區(qū)間,統(tǒng)計(jì)如下:


             2.3 存在的問題

          1. 現(xiàn)在得到的盈利投注區(qū)間規(guī)律只在各個(gè)聯(lián)賽300場(chǎng)左右的測(cè)試集進(jìn)行過測(cè)試,是否具有更加普適性的可能,還需要有更多的比賽數(shù)據(jù)進(jìn)行測(cè)試和驗(yàn)證。
          2. 現(xiàn)有的投注策略受限于預(yù)測(cè)概率區(qū)間,投注場(chǎng)次與總場(chǎng)次之比還不夠高,如英超為20%,而法甲由于準(zhǔn)確率較低的緣故,投注比例只有7%。
          3. 由于投注場(chǎng)次的賠率會(huì)有波動(dòng),導(dǎo)致盈利率在不同的訓(xùn)練集上變化較大,難以確保一個(gè)高而穩(wěn)定的盈利率。



          03



          One more thing

          看到這里,胸懷大志又好學(xué)的同(du)學(xué)(gou)已經(jīng)躍躍欲試,準(zhǔn)備在這屆歐洲杯大展拳腳了。更有學(xué)有余力的同學(xué)開始舉一反三,準(zhǔn)備投身更大的應(yīng)用場(chǎng)景上,如股票預(yù)測(cè)。股票預(yù)測(cè),或者專業(yè)點(diǎn)叫金融量化,是利用大數(shù)據(jù)和專業(yè)數(shù)理模型代替人為主觀判斷進(jìn)行選股、擇時(shí),以期獲得穩(wěn)定、持續(xù)的超額回報(bào)。與足彩的預(yù)測(cè)相似,金融量化同樣的需要有數(shù)據(jù)獲取、特征挖掘、預(yù)測(cè)模型模塊。但同時(shí)還需要更為復(fù)雜的選股器和交易系統(tǒng)。下圖為一簡(jiǎn)單的金融量化交易系統(tǒng)示意圖。


          隨著近20年 AI 技術(shù)的蓬勃發(fā)展,大力推動(dòng)了量化交易的自動(dòng)化、數(shù)據(jù)化和智能化發(fā)展。但量化交易作為一個(gè)涉及到多領(lǐng)域、大量數(shù)理知識(shí)、金融知識(shí)以及系統(tǒng)工程的問題,在實(shí)際運(yùn)用中更為復(fù)雜,相比理論假設(shè)有更多的非理性因素和消息不透明等情況,還涉及到交易策略等股票實(shí)操問題。量化交易的完整講述甚至只是簡(jiǎn)單介紹都值得另開一篇拙文,這里只是拋磚引玉,對(duì)前文足彩預(yù)測(cè)中的方法簡(jiǎn)單擴(kuò)展。下面主要從信號(hào)挖掘和預(yù)測(cè)模塊兩個(gè)方面,簡(jiǎn)要介紹如何與股票預(yù)測(cè)作結(jié)合應(yīng)用。


             3.1 信號(hào)挖掘

          相比足球預(yù)測(cè)的數(shù)據(jù)信息,股票相關(guān)的信號(hào)眾多,不管是從數(shù)量上,還是特征維度上都是爆炸式的增長(zhǎng)。從最基本的開盤價(jià)收盤價(jià),到股票技術(shù)性指標(biāo),如 MACD,KDJ 等,再到股票基本面信息的抽象。信號(hào)和特征維度眾多,關(guān)鍵在于:一是如何挖掘更多具有股票相關(guān)性的信號(hào);二是相關(guān)性量化和特征分析。

          1.挖掘有效的相關(guān)信號(hào)

          除了常見的公開股票信息,如何挖掘到更多有效的相關(guān)信號(hào),將很大程度上決定預(yù)測(cè)效果的好壞。如事件驅(qū)動(dòng)、社交媒體熱點(diǎn)等等。這就要求需要構(gòu)建一個(gè)完整且成體系的數(shù)據(jù)信號(hào)收集系統(tǒng),擴(kuò)大信息來源的基數(shù)。

          • 大量的熱度指數(shù)
            媒體熱度。
            搜索熱度。
            社交熱度。

          • 意想不到的數(shù)據(jù)關(guān)聯(lián)性
            啤酒vs尿布。
            股市大盤vs社交網(wǎng)絡(luò)恐慌指數(shù)。
            流感疫情vs搜索熱詞。

          2.量化特征相關(guān)性

          有了大量的數(shù)據(jù)信號(hào)之后,需要建立特征相關(guān)性的評(píng)估體系,去粗取精,盡可能地減少干擾噪聲,選擇預(yù)測(cè)能力強(qiáng)的解釋變量,提高信息來源的質(zhì)量。

          常用的有以下幾種方法:

          1.相關(guān)系數(shù)分析法:


          2.KL 信息量分析法:


          3.假設(shè)檢驗(yàn):P-Value.
          4.利用深度學(xué)習(xí)網(wǎng)絡(luò)的 embedding 信息提取。

             3.2 預(yù)測(cè)模型

          量化投資的類型有量化選股、量化擇時(shí)、統(tǒng)計(jì)套利等等,這里僅以預(yù)測(cè)股票漲跌為例考慮預(yù)測(cè)模型。預(yù)測(cè)漲跌,除了能夠使用與上文足彩預(yù)測(cè)相同的機(jī)器學(xué)習(xí)傳統(tǒng)模型外,股票數(shù)據(jù)的特點(diǎn)非常適合采用深度學(xué)習(xí)模型和時(shí)序相關(guān)的復(fù)雜模型,如 DNN、LSTM,還有當(dāng)前大熱的 transformer 模型。

          • 股票信息足夠“大數(shù)據(jù)”


          • 股票信息具備天然的“時(shí)序”特點(diǎn)



          從下面的測(cè)試集合收益回測(cè)對(duì)比實(shí)驗(yàn)可以看到,結(jié)合 LSTM 的深度神經(jīng)網(wǎng)絡(luò)模型具有更高的預(yù)測(cè)準(zhǔn)確率,超額收益 Alpha 和交易收益率也顯著提高。

          簡(jiǎn)單模型 vs LSTM 模
          預(yù)測(cè)準(zhǔn)確率平均提升3%

          不同板塊均有穩(wěn)定的超額 alpha



          04



          結(jié)語(yǔ)

          大劉在《三體》后記中寫道“在體育場(chǎng)的最后一排看足球,球員本身的復(fù)雜技術(shù)動(dòng)作已經(jīng)被距離隱去,球場(chǎng)上出現(xiàn)的只是由二十三個(gè)點(diǎn)和一個(gè)特殊的點(diǎn)足球構(gòu)成的不斷變化的矩陣。球類運(yùn)動(dòng)中只有足球比賽呈現(xiàn)出如此清晰的數(shù)學(xué)結(jié)構(gòu),這也可能是這門運(yùn)動(dòng)的魅力之一。”在90分鐘的時(shí)間里,充滿精彩懸念的綠茵場(chǎng)是足球最攝人的魅力,而不斷探索未知,渴望預(yù)測(cè)未來則是人類本能的追求。本文介紹的足彩預(yù)測(cè)模型方法基于賠率和球隊(duì)基本面特征,實(shí)現(xiàn)了對(duì)歐洲五大聯(lián)賽比賽結(jié)果的預(yù)測(cè),對(duì)英超聯(lián)賽的預(yù)測(cè)準(zhǔn)確率達(dá)到了54.55%。基于本文提出的足彩預(yù)測(cè)模型,可以根據(jù)預(yù)測(cè)概率值實(shí)行有效的足彩單場(chǎng)勝平負(fù)競(jìng)猜和比分預(yù)測(cè)。

          但是當(dāng)前版本的預(yù)測(cè)系統(tǒng)還存在著許多不足的地方:

          1. 數(shù)據(jù)樣本仍然需要進(jìn)一步積累,進(jìn)一步擴(kuò)充比賽數(shù)據(jù)樣本,增加中超聯(lián)賽以及歐冠、亞冠等杯賽數(shù)據(jù);
          2. 特征挖掘。對(duì)于 DNN 模型來說,現(xiàn)在的特征維度仍然偏少,有效的特征不多。有效特征的進(jìn)一步挖掘是接下來重要的工作之一。如賠率變化值,對(duì)戰(zhàn)陣形、球員疲勞程度、比賽重要度,球隊(duì)重大新聞等等,進(jìn)一步挖掘和分析對(duì)比賽有影響的因子。
          3. 當(dāng)前利用足彩預(yù)測(cè)概率進(jìn)行投注的策略仍然比較簡(jiǎn)單,其穩(wěn)定性和適用性仍然需要在更大量的數(shù)據(jù)集上進(jìn)行測(cè)試和調(diào)整。
          4. 增加對(duì)比賽其他結(jié)果的預(yù)測(cè),如進(jìn)球數(shù),強(qiáng)弱隊(duì)比賽爆冷概率等等。

          本文方法并不是一個(gè)完美的“拉普拉斯妖”,結(jié)合更新更全的數(shù)據(jù),以及當(dāng)前最新的大模型 AI 方法,大家可以發(fā)揮自己想象力和領(lǐng)域知識(shí)構(gòu)建一個(gè)更加完善的足球預(yù)測(cè)系統(tǒng)。在欣賞綠茵場(chǎng)上激情對(duì)抗的同時(shí),體驗(yàn)數(shù)據(jù)和機(jī)器學(xué)習(xí)的無窮魅力。

             參考文獻(xiàn)

          [1] Dixon, M., & Pope, P. (2004). The value of statistical forecasts in the UK associationfootball betting market. International Journal of Forecasting, 20, 697-711
          [2] Goddard J, Asimakopoulos I. Forecasting football results and the efficiency of fixed‐odds betting[J]. Journal of Forecasting, 2004, 23(1): 51-66.
          [3] Constantinou A C, Fenton N E, Neil M. pi-football: A Bayesian network model for forecasting Association Football match outcomes[J]. Knowledge-Based Systems, 2012, 36: 322-339.
          [4] Mittal A, Goel A. Stock prediction using twitter sentiment analysis[J]. Standford University, CS229 (2011 http://cs229. stanford. edu/proj2011/GoelMittal-StockMarketPredictionUsingTwitterSentimentAnalysis. pdf), 2012, 15: 2352.
          [5] Ding X, Zhang Y, Liu T, et al. Deep learning for event-driven stock prediction[C]//Twenty-fourth international joint conference on artificial intelligence. 2015.

          注:本文為技術(shù)分享,請(qǐng)大家以?shī)蕵沸膽B(tài)參與,快樂購(gòu)彩、理性投注。

          -End-
          原創(chuàng)作者|邱福浩


          你覺得本屆歐洲杯哪支隊(duì)伍能奪冠?歡迎評(píng)論留言。我們將在決賽結(jié)果出來以后給預(yù)測(cè)正確且點(diǎn)贊最高的評(píng)論送出騰訊云開發(fā)者單肩包1個(gè)(見下圖)。

          ????歡迎加入騰訊云開發(fā)者社群,享前沿資訊、大咖干貨,找興趣搭子,交同城好友,更有鵝廠招聘機(jī)會(huì)、限量周邊好禮等你來~


          (長(zhǎng)按圖片立即掃碼)




          瀏覽 232
          2點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          2點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  www.国产在线 | A片视频网站| 午夜福利电影在线免费观看 | 俺去也俺来啦 | 97人妻精品 |