点球成金:棒球队的统计数据和洞察力
吉姆·艾伯特是一个数学及统计学教授,我们在第六章中提到过他。他向大家展示了自己对安打率(在棒球比赛中最常用的统计数据之一,用来评估击球手的比赛表现)的相关分析成果。他首先分析了击球手在场上时可能发生的各种情况(详情见表7-1)。安打率是击中次数(包括一垒安打、二垒安打、三垒安打及全垒打四种)与出场击球次数之间的比率。但是我们还可以拿其他统计数据来评估一个击球手的表现。其中一个评估数据是“上垒率”,计算公式为击球手的(安打+四坏保送+触身球)/(打数+四坏保送+触身球+高飞牺牲打)。另外一个评估数据是“三振率”,计算公式为击球手三击不中而出局的次数/打席数。艾伯特想知道,哪些统计数据能够反映出击球手的实力水准,哪些则代表着比赛中的运气好坏程度。[6]简言之,他想知道哪些统计数据具有稳定性。
表7-1
棒球运动中的击球分析
来源:作者分析,基于吉姆·艾伯特的研究。
他坚信,要解除心中的疑惑,最好的办法就是对连续两年的击球数据进行比对分析。如果一个统计数据准确地反映了击球手的实力水平,那么我们就可以确信,该选手在不同赛季里的表现应该不相上下。另外,如果不同年份里的统计数据有很大的悬殊,那我们就可以据此推测,运气在比赛中发挥了不小的作用。
图7-2显示了三个击球统计数据的散点图:安打率、上垒率以及三振率。很明显,2010年的安打率(r=0.37)与2011的安打率有不错的的关联性,而2010年的上垒率(r=0.44)与2011年的上垒率的相关程度也不算低。但是运气在很大程度上左右了这两年里安打率与上垒率的高低。
图7-2中最右边部分显示了三振率的相关信息。可以看到,三振率(r=0.77)在两年的赛事中差别不大,因此可以很好地反映一个选手的个人实力。在散点图中可以看出,最右边的数据点分布更为集中紧凑,最左边的数据点分布的相对分散。这表明安打率具有不稳定性和随机性,而三振率的高低则在很大程度上由一个击球手的技术水准决定。这些统计数据显示出的相关性给我们留下了一些直观印象。当一个击球手把球打在比赛场内时,许多因素都可以决定这个球是否会被其他球员击中。这些因素包括球被击中的位置、击球力度、防守能力、场地环境以及天气条件。三振率体现了投手与击球手之间的较量,在这一情况下,裁判是另一个重要的可变因素,因为由他来评判比赛的结果。
图7-2
三个击球数据散布图(2010年及2011年赛季里出场击球次数均达到100以上的选手)
来源:作者分析
图7-3显示了八个击球统计数据的相关系数。这些统计信息来源于美国职业棒球大联盟在2010年及2011年赛季里的比赛情况。我把出场击球次数在100及以上的选手的情况都包括在内,总共包括340名选手。经过分析,我发现,在这些统计数据中,只有少数几个可以作为判定选手个人实力的可靠依据。这些可靠数据包括三振率、本垒打率、四坏球自由上垒率(一个球员被保送上一垒的频率)。诸如安打率、一垒安打次数、二垒安打次数这些数据都在很大程度上受制于外部因素——运气的影响。
在这里我需要重申一个观点,这个观点我在许多场合都提到过。如果一件事情能否最终成功在很大程度上要看个人运气如何而不是看个人的实力,那么你选取的样本量必须要大一点才能获得更为可靠的数据信息。比如,如果要知道某个击球手在三振率上的情况,你可以记录他一百次的出场击球情况。如果你要测试某位运动员的BABIP(球进入场内后被安打的概率),你就需要记录他1100次出场击球的情况(这个数据是一个击球手能够击中一次处于比赛状态的棒球所需要的平均次数,不包括本垒打的情况)。[7]
图7-3
以相关系数为依据而得出的击球统计数据排名(2010年和2011年各个赛季里,选手击球次数在100及以上的情况)
来源:作者分析
定义:三振率:三击不中出局次数/打席数;场上本垒打率:本垒打/(打数-三击不中出局次数);四坏球自由上垒率:四坏球自由上垒/打席数;上垒率+长打:上垒率+长打率;上垒率:(安打+四坏球自由上垒+触身球)/打数+四坏球自由上垒+触身球+高飞牺牲打;击打率:安打/打数;场内一垒安打率:一垒安打/(打数-三击不中出局);场内平均击打率:安打/(打数-三击不中出局);场内二垒安打和三垒安打率:二垒安打+三垒安打/(打数-三击不中出局)。
大卫·拜里和马丁·施密特在二人合著的《艰难成功》一书中,统计了足球、篮球和冰球在稳定性方面的统计数据。拿冰球来说,各年份每分钟射门的相关系数都很高(r=0.89),而射门得分的比率却并不突出(r=0.63),同样正负数也相对很低(r=0.32)。[8]正负数反映比赛中一个球队的射门得分以及虽然球队有一个选手在冰上,却依然自动放弃射门进球的次数。简言之,统计数据受团队成员之间相互协作能力的影响越大,系数的相关性也就越低。
既然我们已经掌握了棒球运动中稳定性的相关数据信息,那就让我们一起来看一看这些数据在预测比赛结果上的功能吧。既然我们在这里的目标是测试球队的进攻能力,那我们就把重点放在球队的得分上。球队的最根本目标是在比赛中获胜。为此,球队必须不断地进球得分(进攻),而不是放弃射门进球(防守)。一个球队放弃射门进球而失掉的分值完全可以拿来分析他们的防守状况。
图7-4反映了图7-2中三个统计数据(安打率、上垒率及三振率)各自与球队的总得分之间的关联程度。每个图表只有30个数据点,因为这些图表反映的是球队而不是单个选手的情况。相关系数表明上垒率与每场比赛的得分之间有很强的关联性(r=0.92)。安打率与比赛得分之间的关联性相对较低(r=0.81),而三振率的反数(数字越大代表三击不中出局的次数越少)与每场比赛的得分之间的关联性最低(r=0.51)。从表中可以看出,最右边的数据点分布最为松散,因此随机性也就最为明显。
图7-4
三个统计数据与每场比赛得分之间的相互关系(团队状况,2011年赛季)
来源:作者分析
看过稳定性与预测价值的统计数据后,我们可以做一个图表,把运气—实力连续体作为图表的横轴,把预测价值作为纵轴(详见图7-5)。最有力的统计数据位于图表中的右上象限,代表这些统计数据不仅具有相对稳定性,而且也可以用来预测一个球队在未来比赛中的总得分情况。而那些位于左下象限的统计数据的实用性是最低的,因为这些数据在每个时期的波动都很大,与比赛胜负或输赢的相关度较低。
这一分析证实了《点球成金》一书中强调的一个重要主题。这本畅销书由迈克尔·刘易斯编著,描写了奥克兰运动家棒球队的总经理比利·比恩物色了一批不被人看好但却极有潜力的棒球运动员,并且在资金实力相对低下的情况下,成功地打造出了一支具有强大战斗力的球队。路易斯在书中提到,一般评估棒球运动员的实力,要看这些运动员是否具备如下五种能力:跑垒能力、传球能力、防守能力、安打能力及长打能力。当各大球队管理者“谈论球赛得分时,他们总是关注球队的安打率”。但是奥克兰运动家棒球队的总经理却意识到,棒球运动员的上垒率是预测该球员在比赛中的得分情况的更为可靠的途径。同时,“与其他能力相比,一个球员能够上垒的能力——特别是当他上垒表现没那么突出时,很容易被人低估。”[9]
图7-5
三组统计数据的散点图(2010年及2011年赛季,棒球选手的打数在100及以上)
图7-5的信息显示了奥克兰运动家棒球队采取独特的管理方法的原因。上垒率的相关系数(r=0.44)比安打率的相关关系系数(r=0.37)要高许多。高稳定性告诉我们,与安打率相比,一个棒球运动员的上垒次数能更好地反映该运动员的球技。这个统计数据在预测未来比赛情况方面的价值,也让我们从中了解到一个很重要的信息。选手的上垒率与球队的得分之间有很强的关联性(r=0.92),这也就意味着,相对而言,安打率与球队总得分之间的关联性较低。
奥克兰运动家棒球队并不是单纯地分析安打率及上垒率与比赛得分的相关程度。事实上,他们的分析方式相对复杂缜密。在其他所有的统计数据中,该球队运用了上垒加长打,或者说用OPS来代替上垒率进行数据分析。OPS是上垒率与长打率的总和。长打率是上垒的总次数/打数。比如,一垒安打表示成功上一垒,二垒安打表示成功上二垒,依此类推。与上垒率相比,上垒加长打率(OPS)有更高的稳定性和预测价值。然而,要知道,奥克兰运动家棒球队倒没有那么在乎大家普遍关注的统计数据,相反,该球队开阔思路,独辟蹊径,只有一个目的,就是寻找那些最实用的统计数据,以便以小博大,用更少的开支力胜那些资金雄厚的大球队。
近些年来,人们逐渐认识到,上垒率对棒球比赛的结果有很大的影响。布兰奇·里基是一位极富创新精神的体育经纪人,在20世纪40年代,他签约了黑人棒球选手杰基·罗宾森,使其成为美国职棒大联盟史上第一位非裔美国黑人。此举打破了棒球运动中一贯的种族歧视状况,里基也因此事而广为人知。他在1954年曾经写过一篇关于上垒率的文章,发表在当时的美国《生活》杂志上。[10]比尔·詹姆斯在20世纪70年代晚期开始撰写跟棒球相关的文章,他意识到上垒对球队得分的重要性。问题是,绝大多数的棒球经纪人根本不用数据分析的方式来理清实力和运气对比赛得分的影响程度。相反,人们更宁愿相信自己的直觉。詹姆斯写道:“棒球经纪人日复一日地受制于那些偶发事件的影响,他们把假想的几个原因联系起来,并据此来解释场上的情况。而实际上,场上发生的一些事件可能带有极大的偶然性。”[11]
一直以来,体育界及其他一些领域的决策者在评估选手能力、制定比赛策略这些方面都积累了很多宝贵的经验。在很多时候,这些决策者的经验判断与数据分析显示的结果不谋而合——两种评估方法都能找出优秀的击球手和投球手。问题是,长期以来,绝大多数的体育经纪人都不重视数据分析的作用,尽管数据分析关注的恰恰是稳定性及预测价值。因此可以说,这些经纪人在很长的一段时间内,都没有搞清楚比赛获胜的真正原因。这种情况也发生在其他一些领域,我们接下来会讲到。