通过背景变量解释关联性
对于现象X和现象Y之间的关联度经常可以更好地通过另一个变量Z(“背景变量”)来解释或搞清楚。我现在把我在大学讲课时用的普通案例拿出来,下面我们看看这些关联性。
·有人发现,在人的鞋子尺码和收入之间:鞋子尺码越大,挣的钱越多。
·在食用巧克力脆皮冰激凌和皮肤上出现的晒斑之间:两者的数据有密切关系。
·德国的出生率和德国的鹳的数量之间:两者的数量呈正相关。
媒体又马上拿来写文章。
·脚大的人有优势,挣钱多!
·食用巧克力脆皮冰激凌伤害皮肤!
·大多数孩子在鹳到来的春夏季节的月份里出生!
解释这些“谜语”很简单。
·孩子的脚尺码小,挣钱很少,女性比脚大的男性挣钱少。
·吃脆皮冰激凌和出现晒斑都发生在夏天,在寒冬腊月时很少。
·大多数孩子在春夏季节出生,而这正好是鹳出现的季节。
收入和鞋子尺码之间的关联性不是直接关系,而是性别和年龄的关系。如果我们单独观察40岁以上的男性,那么在鞋子大小和收入多少之间就找不到关联性了。吃冰激凌和皮肤上的晒斑是与气候有关,如果我们仅仅在夏天观察冰激凌销量和晒斑,那么就没有关联了。生孩子和鹳的出现同样与气候有关,冬天里孩子出生得少、鹳也少,夏天两者都多!
气候和性别在上述案例里是背景变量(干预变量),同时影响着两个参数。所观察到的关联性仅仅是表面上的,不是直接存在的。我们可以通过背景变量的解释来否定关联度的存在。三个案例中所提到的是伪相关或虚假关系。
数学上我们观察X与Y两个变量之间存在某种关系,但是在上面选出的几个例子中还存在一个Z变量(性别、气候),这个变量将部分或全部影响其他变量的相互关系。若Z变量发生变化,那么X与Y同样发生变化。如果表示“夏天气候”的Z增加,那么表示冰激凌消费的X与表示晒斑数量的Y上升,在冬天两者都下降。从外表看来,似乎两个变量同时上升或下降,但是事实上它们之间却不存在一种因果关系。谁的皮肤上出现了晒斑,不是由于吃了冰激凌造成的。
在这些例子中,背景变量是“问题的关键”是“核心变量”,核心变量影响并决定着单个变量。利用背景变量或核心变量这个概念可以更好地理解和分析生活中的现象。变量X与Y之间的关系,经常可以通过核心变量Z来解释。
还有一个非常重要的背景变量,即整体的活力,通过它可以搞清楚许多东西。我们在下面一节中介绍。