世界杯预测算法

探索一个预测世界杯冠军队的算法

晚上俄罗斯世界杯就要开赛了,大家伙们又要开始预测比分了,我想了一个预测世界杯冠军队算法的数学模型,有兴趣的同学可以试试看,说不定能赢足彩大奖。

预测一场比赛的胜负,若不做任何数据收集和分析,那么我们猜测胜负的概率,跟抛硬币没有太大分别(差别就是小组赛有胜、负、平三种可能,只有淘汰赛才真正跟抛硬币只有正、反两种可能相似),所以我们需要通过球员、教练、裁判的历史大数据训练出一个概率模型。

假设世界杯某球队A,按规定有球员23名,主教练员1名,那么球队A的基础赢球概率为:

模型1:P(A)=W(A).(∑P’/23.).P”      (球队常数W(A)=32/世界排名,P’为单个球员赢球概率,P”为教练员赢球概率,均可从单个球员跟教练员的历史比赛数据中得出)

这个模型符合我们常见的大牌球星与大牌教练的组合胜率高于普通球队的认识,但是,这很不够精确。

因为上面的模型我们没有考虑的是每个球员比赛数据中对手的数据,假设两个球员a和b,各有50场比赛经历,经计算胜率均为0.55,但a参加的是西甲联赛,而b参加的是中超,很显然,这个人胜率没有意义了。所以,我们对上面的数学模型进行改造:

模型2:P(A)=W(A).(∑P’R’/23.).P”        (R’为单个 球员历史对手常数,由历史对手在各国家联赛/国家队中的排名所决定)
R’=  k log ∏R(a)   (R(a)为A球队单一球员a的一场历史比赛对手的当时得分,k为常数)

目前这一版的模型已经比第一版要精确一大点了。但是………….还不够精确。

通过大数我们可以发现一些好玩的事情:假如世界杯某小组的A,B,C,D四支球队,A对B高胜率,B对C高胜率,C对D高胜率,但D却对A有高胜率,按照逻辑传递性,矛盾出现了,若B队碰上D队,到底是高胜率,还是低胜率?哥德尔不完备定理似乎出现了。

出现这种情况的原因是,我们的数据模型还不够完备,所以只单纯分析队员,或是单纯的分析球队,或是简单的组合分析都不行,因为球队是个动态数据,球队出现的队员是每年甚至每场都在变化的,所以我们还需要更复杂的数学模式和更多的数据。

我们要具体到B,D两支同组球队的对比数据,而降低那些无用历史数据的权重。

具体方法是:找出所有B球队队员参与的比赛对手中包含了D队队员的比赛数据,进行建模。(这句话很重要,请再读一遍)

模型3:  P(B|D)=W(A).(∑P'(B|D)R'(D|B)/23).P”

P'(B|D)      是B队单一球员在有D队球员为对手的比赛中的胜率
R'(D|B) =k log ∏R(D|B)       R(D)是D队球员在以B队球员为队手的球队的所有比赛中的个人打分

目前这一个模型算是比较接近真实了,但是,还不够精准,我们一直忽略了P”这个主教练的胜率,还有裁判员F的执法偏好。。。还有,上场真正踢的是11个人,他们今天用的队型是不是各个队员胜率中覆盖的队形。。。

还有一种情况就是新晋的球队,或新队员比较多的球队,其对阵数据不足的时候,那可能就要回到第二个数据模型了。

好复杂,要不说足彩500W,不是那么好挣的,就瞎掰到这儿吧, 所以说,现实是复杂的,但至少世界杯是快乐的。

晚上看球了。

爱因万江斯坦
最动听

发表评论

电子邮件地址不会被公开。 必填项已用*标注