知乎日报
引言
足球是世界上最受欢迎的体育运动,每四年举行一次的国际足联俱乐部(FIFA)世界杯足球赛更是吸引了全世界无数球迷观看。一场足球比赛中最激动人心的时刻莫过于射门和进球,而射门和进球也是一支球队能否获胜的关键。一记射门能否进球得分取决于多种因素,这些因素不仅包括运动员本身的球技,也包括射门所在位置。
图 1: 波兰超级联赛波多尔斯基中场吊射进球
射门位置离球门越远,越不容易进球。因此,一记超远吊射也常常为人津津乐道。2022 年波兰足球联赛扎布热对战坡根的比赛中,足球老将波多尔斯在中场线附近以一记超远吊射破门得分(图 1)。著名球星贝克汉姆和鲁尼也用中场吊射的方式进过球。
图 2: 世界杯小组赛麦孔几乎零度角射门得分
此外,射门位置的球门视角也极大影响着进球的难易程度,正对着球门方向的射门进球的几率要大于两边。虽然小视角射门得分的难度很大,但在足球比赛中也是出现过的。例如,在 2010 年世界杯巴西对战朝鲜的小组赛中,麦孔在底线附近接近零度视角的情况下射门得分(图 2)。
图 3: 西班牙超级杯半决赛克罗斯角球破门
甚至球门视角为零的角球直接射门得分的情况也是存在的。例如,在 2019/20 赛季西班牙超级杯半决赛皇家马德里对战克瓦伦西亚的比赛中,克罗斯就用角球直接射门得分(图 3)。著名球星贝克汉姆和亨利也完成过角球得分的名场面。
图 4: 不同球门距离和不同球门视角的位置
相同球门距离的位置可能有着不同的球门视角,而相同球门视角的位置也可能有着不同的球门距离(图 4)。不同的射门位置对进球的影响有多大?或者说如果在某个特定的位置射门,进球的预期概率是多少?本文将从理论和统计两个角度分别建立模型回答这个问题。
模型理论模型
射门位置到球门距离和射门位置的球门视角是影响射门能否得分的两个重要因素。为研究球门距离和球门视角对能否进球的影响,本文建立了如图 5 所示的坐标系。球门宽度为
m,射门位置 (
) 到球门(线中点)的距离为
,到两根球门柱的距离分别为
和
,球门视角为
。
图 5: 射门位置的球门距离和球门视角
射门位置到球门的距离可以很容易地由射门位置的坐标 (
) 表示
射门位置的球门视角
也可以由射门位置的坐标 (
) 表示[1]。由正弦定理可知
由上式及余弦定理可得
如果假定
/2,则上式中的
和
均可表示为
和
的函数
因此有
根据三角函数关系容易解得
接下来,本文定义得分势函数来表示一记射门得分的难易程度。如上所述,得分势函数中的主要参数应该是球门距离
和球门视角
。直观上很容易理解,射门位置离球门越近,进球就越容易。因为球在飞行的过程中速度会降低,球在空中飞行的距离越长,球到达球门的速度和力量就越小,就越容易被守门员守住。此外,射门位置离球门越远,球在空中飞行的时间就越长,留给守门员的反应时间也就越长。另一方面,球门视角越大也就越容易得分。因为球门视角越小,越不容易瞄准。因此,得分势函数
可以定义为与球门距离
成反比,与球门视角
成正比[1]:
根据上式可以绘制出图 6 所示的得分势函数及其等势线。得分势函数反映了在不同位置射门时进球的相对难易程度。
图 6: 得分势函数及等势线
在同一条等势线上的位置射门进球的难易程度相当,而势越大的位置射门进球越容易。例如,在图 6 中的绿线上各位置射门进球的难易程度相当,在绿色等势线上各位置射门进球的难度要高于红色等势线。
统计模型
需要注意的是,理论模型给出的得分势函数反映的是得分相对难易程度,并不是一记射门能否得分的直接概率。为了验证理论模型的合理性,以及计算球场上不同位置射门的得分概率,需要统计大量真实的足球比赛数据。本文接下来的分析使用了由 Wyscout 收集的足球比赛事件数据集[2]。该数据集记录了七个赛事(西甲、意甲、德甲、英超、法甲、2018 年 FIFA 世界杯、2016 年欧洲杯)整个赛季的所有比赛事件(传球、射门、犯规等)的时空数据(包含事件的有关位置、时间、结果、球员和特征等信息)。数据集中各事件的位置都由一对坐标 (
) 表示,
和
是
范围内的整数。
坐标表示事件发生点到对方球门底线边界的距离(以百分比表示),而
坐标表示事件发生点到场地右侧边界的距离(以百分比表示)。
图 7: 各位置的射门次数
由于本文主要关注于射门的位置和射门的结果(是否得分),因此将球场在长度和宽度方向等间距地划分为 50
50 个格子,并统计了每个格子中发生射门事件的次数
,结果如图 7。然而,一个格子射门的次数多并不意味着进球的次数多。为此,本文还统计了每个格子中发生射门事件且得分的次数
,结果如图 8。
图 8: 各位置的进球次数
由此,可以计算出每个格子中射门的得分频率
结果如图 9,如果统计的射门事件足够多,那么每个格子中射门的得分频率
将趋于得分概率
。显然,由于有限的数据,本文获得的得分频率图并不光滑连续。
图 9: 各位置的进球频率
但从空间得分频率图不难发现,离球门越近,越正对着球门的位置越容易得分。需要注意的是,图 9 中靠近边界的少量格子存在一些高频率的异常格子。这实际上是由于发生在这些格子中的射门次数很少,不具有统计意义。例如某个格子中只发生一次射门,并且这次射门进球了,那么该格子的进球频率就会为 1。
为了估计空间上每个位置射门的得分概率,需要对得分频率进行拟合[3,4]。根据前文理论模型的分析,某个位置射门得分的难易程度与该位置到球门距离
和球门视角
有关。为此,本文由各格子的坐标
计算出了各格子的球门距离
和球门视角
。并在此基础上拟合进球概率
对
和
的依赖关系。这个问题中,进球与否是离散的二分类因变量,而球门距离
和球门视角
则是连续的自变量。对于因变量为二分类或多分类时,逻辑回归[5]是非常重要的模型。逻辑回归模型的表达形式为
逻辑回归是通过极大似然估计求解常数项
和偏回归系数
(
=1, 2,
),基本思想是当从总体中随机抽取
个样本后,最合理的参数估计量应该使得这
个样本观测值的概率最大。逻辑回归模型的概率表达式为
逻辑回归可以很容易由 MATLAB 函数
glmfit
[6]实现。因此,本文选用逻辑回归模型对进球概率与球门视角
和球门距离
进行分析。首先,本文单独考虑进球概率对两个因素的各自依赖关系。利用逻辑回归,可以得到进球概率与球门视角
的依赖关系:
相应的拟合结果如图 10 所示。从图中不难看出,当球门视角逐渐由 0
增大到 120
时,进球概率也从几乎为 0 增加到接近 1。
图 10: 球门视角与进球频率的逻辑回归
类似地,可以得到进球概率与球门距离
的依赖关系:
相应的拟合结果如图 11 所示。从图中不难看出,进球概率随着球门距离的增大,逐渐趋于 0。距离球门超过 20 米的位置射门进球就比较困难了。
图 11: 球门距离与进球频率的逻辑回归
接下来,本文考虑进球概率同时对球门视角
和球门距离
的依赖关系。利用逻辑回归,可以得到:
相应的空间概率分布如图 12 所示。从概率图中不难看出,球门距离越近、球门视角越大的位置越容易射门进球。对比图 12 和图 6 不难发现,逻辑回归得到的空间概率分布与理论模型给出的得分势函数具有很大的相似性。图 12 中
= 30% 等概率曲线与图 6 中
= 1 等势线与几乎一致。但两图也有一些区别,图 6 中的等势线都通过两个球门柱,但图 12 中较小概率(7%)的等概率曲线与底线的交点并不在门柱位置。
图 12: 考虑 θ 和 d 的进球概率
在此基础上,本文还综合考虑了射门位置到底线的距离
、到侧边的距离
、球门距离与球门视角的积
等多种因素对得分概率的影响。通过对各拟合结果的比较分析,本文最终得到并选择如下模型作为射门得分概率的最优模型:
相应的空间概率分布如图 13 所示。从图中不难看出,最优模型的等概率曲线都经过门柱。这与角球直接射门得分事实并不矛盾,因为本文所统计的射门都是发生在正常进攻过程中的,并不包括角球射门的情况。实际上,动态攻守过程中,在底线附近直接射门进球是极为困难的。
图 13: 考虑 y、θ 和 d 的进球概率
通过等概率曲线可以看出,把球盘带到绿线以内射门,进球的概率就能超过 7%。而把球盘带到红线以内再射门,进球的概率就能超过 15%。
结论
不同的射门位置有着不同的球门距离和球门视角,射门位置很大程度地影响着能否进球。基于射门位置的球门距离和球门视角,本文分别从理论和统计两种角度建立模型研究了在不同位置射门的进球预期概率。在理论模型中,本文构造了得分势函数。得分势函数能给出不同位置射门时进球的相对难易程度。为了得到不同位置射门得分的概率,本文对足球比赛事件数据进行了统计分析,应用逻辑回归模型对进球概率与球门视角、球门距离等因素的依赖关系进行了拟合,并最终给出了空间概率图和等概率曲线。
本文的结果给出了球场各位置射门得分的预期概率,这可以告诉球员更应该在哪些位置射门。总体而言,与我们的直觉是一致的:射门位置到球门距离越近、越正对着球门,射门进球的机会越大。当然,这个概率并不适用于所有球员,但得分概率图可以让所有球员了解到不同位置射门得分的难易程度,以便球员权衡自身能力和对方防守情况做出合理的决策。此外,得分概率图的梯度方向还为球员指明了进攻方向。例如,图 13 中绿线附近射门得分的机会是 7%,而沿梯度方向跑几步到达红线附近再射门就可以使得分机会翻倍。
参考资料
[1] César A Morales. A mathematics-based new penalty area in football: tackling diving. Journal of sports sciences, 34(24):2233–2237, 2016.
[2] Luca Pappalardo and et al. A public data set of spatio-temporal match events in soccer competitions. Scientific data, 6(1):1–15, 2019.: /10.6084/m9.figshare.c.4415000
[3] David Sumpter. Mathematical modelling of football, 2020.: /courses/28112
[4] David Sumpter. Soccermatics: Mathematical Adventures in the Beautiful Game Pro-Edition. Bloomsbury Publishing, 2017. 238–241.
[5] Wikipedia contributors. Logistic regression — Wikipedia, the free encyclopedia, 2022.: /wiki/Logistic_regression
[6] MathWorks. glmfit: Fit generalized linear regression model. 2022.: /help/stats/glmfit.html
查看知乎讨论