流行病学中的统计模型无法直接考虑因果关系,但另一方面有时可以根据先验知识预设因果关系。所以我们在研究时要区分,哪些讨论是单纯对统计模型而言的,哪些讨论是掺有专业上的先验知识,而哪些讨论是仅在理论上对哲学里因果关系的向往。
1.Covariate
在流行病学研究中,我们经常通过统计学的线性模型研究因变量Y和自变量X之间的关联。多元线性模型可以一次研究多个自变量(X1,X2,X3,X4…Xi)对Y的影响,筛选出有意义的自变量。假设X1是已知的对Y有作用的自变量,是最主要的原因变量,同时X2也对Y有影响,一般称X2为协变量(Covariate)
Covariate既可以是独立的,也可以与其它因变量存在交互作用。探讨交互作用(Interaction)时,只需要在多元线性模型中加上个交互项即可。covarite的两种效应:对Y的独立作用和与其它变量的交互作用,也是独立的。
X1和X2对Y的作用不独立时,我们会怀疑X2是否是“第三者”,或者想知道它是怎样的第三者。这便引出了中介变量(Mediator)和调节变量(Moderator)的概念。
2.Moderator
因变量Y与自变量X的关系受到第三个变量M的影响,则称M为调节变量(如果变量Y与变量X的关系是变量M的函数)。它影响因变量和自变量之间关系的方向(正或负)和强弱。Moderator可以是定性的,也可以是定量的。在做调节效应分析时,通常要将自变量和调节变量做中心化变换,以便比较X和M效应的大小。
统计模型可以表示为线性模型:
Y与X 的关系由回归系数a + cM 来刻画,它是M 的线性函数, c衡量了调节效应(moderating effect)的大小。如果c显著,说明M 的调节效应显著。
具体分析时,分为四种情况讨论:
- X和M都是分类变量:用两因素交互效应的方差分析,交互效应即调节效应;
- X和M都是连续变量: 将自变量和调节变量中心化,做Y=aX+bM+cXM+e 的层次回归:
- 1.做Y对X和M的回归,得测定系数R1。
- 2.做Y对X、M和XM的回归得R2,若R2显著高于R1,则调节效应显著。
- 或者,作XM的回归系数检验,若显著,则调节效应显著;
- 自变量=分类变量,调节变量=连续变量: 同上做Y=aX+bM+cXM+e的层次回归分析
- 将自变量重新编码成为伪变量( dummy variable) ,用带有乘积项的回归模型,做层次回归分析
- 自变量=连续变量,调节变量=分类变量: 分组回归:
- 按 M的取值分组,做Y对X的回归。若回归系数的差异显著,则调节效应显著
潜变量的调节效应分析,分两种情形:
- 一是调节变量是类别变量,自变量是潜变量;
- 二是调节变量和自变量都是潜变量。
- 当调节变量是类别变量时,做分组结构方程分析。做法是,先将两组的结构方程回归系数限制为相等,得到一个χ2值和相应的自由度。然后去掉这个限制,重新估计模型,又得到一个χ2值和相应的自由度。前面的χ2减去后面的χ2得到一个新的χ2,其自由度就是两个模型的自由度之差。如果χ2检验结果是统计显著的,则调节效应显著;当调节变量和自变量都是潜变量时,有许多不同的分析方法,最方便的是Marsh,Wen和Hau提出的无约束的模型。
调节效应(Moderation)与交互效应(Interaction):
- 从统计分析的角度看可以说是一样的。然而,这两个概念不完全一样。交互效应中,两者平起平坐,谁都可以是调节变量;也可以不对称,只要有一个是调节变量就存在交互效应。调节变量中地位明确,不可互换。
3.Mediator
如果X通过影响变量M来影响Y,则称M为中介变量。这里暗含有时间上的”先后”,便有了哲学的味道,细细品味品味起来,很有嚼头。
用统计线性模型表示起来:
|
|
其中,c是X对Y的总效应,ab是经过中介变量M的中介效应,c’是X对Y直接效应。当只有一个中介变量时, 效应之间有c=c’+ab,中介效应的大小用Δc=c-c’=ab来衡量,标准化后为ab/c
下面详细讨论中介效应分析,具体方法可以参考:Kashdam和Breen(见Kashdam T.B. & Breen W.B.Materialism and diminished well-being:Experimential avoidance as a mediating mechanism[J].Journal ofSocial and Clinical Psychology,2007,26(5):521-539.)
中介效应分析(Medidation analysis)的四个条件分别是:
- 预测变量必须与因变量相关;
- 预测变量要与潜在的中介变量相关;
- 潜在的中介变量要与因变量相关;
- 当潜在的中介变量被控制后,预测变量和因变量之间的相关消失或显著减弱
步骤:
- 首先用x对y做回归, 显著则继续, 不显著则终止;
- 然后做x对m的回归, m对y的回归之后分两种情况:
- 若都显著, 则用m和x对y进行回归, 检查此时的x的系数是否显著, 显著则是部分中介作用, 不显著则是完全中介作用;
- 若两个之中有不显著, 则做sobel检验
详细流程为:
4.Moderator or Mediator
一个变量与自变量或因变量相关不大,不可能是中介变量,但有可能成为调节变量(理想上与DV、IV相关不大)。不受自变量影响的变量不能成为中介变量,但可考虑成为调节变量,如性别。如果一个变量做调节变量和中介变量都是合适的,且从理论上有合理的解释,看实验目的。
5.Mediator的重要延伸:Necessary and sufficient condition (日后细讲)
当一个变量被判定为中介变量后,可以进一步探讨为什么中介效应不是100%。这涉及到必要条件和充分条件。这部分讨论在分子生物学研究中很重要,毕竟流行病研究的统计学模型不是实证的研究,无法进一步探讨。真正的因果关系研究,还是需要实证的实验。
例如用CoIP研究蛋白互作时,A and B direct contact (maybe B is just reflection after A knockdown)。证明A对C的作用是B-dependent,partly dependent 或者independent pathways,那就有一定的意义。如果是partly dependent 或者independent pathways ,还最好证实A对C作用的其它机制。