将k个因子的二水平的全因子试验记为2^k试验。这是整个全因子试验的记号,而不仅仅是试验次数。当然2^k数值本身也恰好是k个因子的二水平的全因子试验所需的最少试验次数。
(1)2^k析因设计
有k个因子,每个因子仅有两个水平。这些因子可以是定量的,如温度、压力;也可以是定性的,例如机器的类型、不同的操作员。这类设计的一个完全重复需要2×2×...×2=2^k个观测值,因此称为2^k析因设计。
假定:
(1)因子是固定的;
(2)设计是完全随机化的;
(3)满足通常的输出为正态性的假定。
2^k析因设计只需最少的试验次数就可以研究完全析因设计的k个因子,因此,可以广泛地用于因子筛选试验(factor screening experiment)。
因为每一个因子仅有两个水平,所以假定响应在所选因子水平范围内是线性的。在许多因子筛选试验中,当开始研究过程或系统时,这通常是一个合理的假定。
(2)试验的安排、中心点的选取及随机化排序
现在公认较好的重复试验是只在中心点处安排重复试验,通常在中心点重复做3次或4次试验。
如果所有因子都是连续变量时,中心点就是各因子皆取其高水平与低水平的平均值。如果因子全部是离散变量,可以选取它们各种搭配中的某一组合作为“伪中心点”;如果 因子中既有连续变量又有离散变量,则可以对连续变量选取其平均值,离散变量选取某一个组合作为“伪中心点”(这时不必要求试验的平衡,强调的是确实要有重复)。
选取中心点并在此处安排重复试验的好处,主要是进行完全相同条件下重复,可以估计出试验误差。另外,由于每个连续因子的取值原来只有两个值(高水平及低水平),现在增加到了三个值,因而增加了对于响应变量可能存在的弯曲趋势估计的能力,这也是简单全面重复所不能达到的效果。而且,在把因子点试验的顺序随机化后,如果再把中心点处所进行的3次或4次试验安排在全部试验的开头、中间和结尾,那么这几个点的试验结果间只应存在随机误差,如果这几个试验结果呈现非常明显的上升、下降或其他不正常的趋势,则可能有助于发现在试验过程中出现的不正常状况。
总之,安排每个因子取二水平,再加上中心点,则可以构成较好的全因子试验安排。
(3)代码化及其计算
代码化(coding)就是将该因子所取的低水平设定代码值为-1,高水平设定代码值为1,中心水平定为0。经过理论上的分析后发现,将自变量代码化后有很多好处,即应该对代码化的数据进行回归分析。
1)代码化后的回归方程中,自变量及变互作用项的各系数可以直接比较,系数绝对值大者的效应比系数绝对值小者的效应更重要。大家知道,对自变量原始数据所进行的回归方程中的回归系数是有单位的。在Y=a+bX中,b的单位是[Y]/[X],显然,X更换单位后,其系数也会更换。如果自变量不止一个,多个自变量间含义不同,量纲也不同,其回归系数之间显然是不可比的。如果代码化后,每个自变量都化为无量纲的[-1,1]上的数据,这时,各自变量间具有相同的“尺度”,各系数之间就可以比较了。
2)代码化后的回归方程中各项系数的估计量间是不相关的。很明显,X1与X1X2之间是相关的,它们的回归系数的估计量之间也是相关的。比如,在回归方程中,保留X1X2项及删除此项时,X1的回归系数肯定要发生变化,这点不仅造成作用中的诸多不便,而且由于变量间可能存在相关关系,对各变量前的系数直接进行显著性检验容易漏掉一些变量,因而结果并不可信。一旦将自变量全部代码化,就没有这个问题了,删除或增加某项,对于其他的回归系数将不会产生任何影响。各变量前的系数就可以直接进行显著性检验了。
3)在自变量代码化后,回归方程中的常数项(或称“截距”)就有了具体的物理意义。代码“-1”与“1”的中点恰好为“0”,而将全部自变量以“0”代入方程得到的响应变量预测值则恰好是截距值。因此,截距值是全部试验结果的平均值,也是全部试验范围中心点上的预测值。
用代码数据得到的回归方程是重要的,但用原始数据得到的回归方程有时也是有意义的。因此应该熟悉真实值与代码值间的换算。
例如将真实值与代码值进行换算如下表:
值 | 低水平 | 中心 | 高水平 |
---|---|---|---|
真实值(度) | 100 | 150 | 200 |
代码值 | -1 | 0 | 1 |
记中心值:M =( 低水平 + 高水平 )÷ 2
半间距: D = (高水平-低水平)÷ 2
则有: 代码值 = (真实值 - M)÷ D
或:真实值 = M + D × 代码值
本例中,代码值 = (真实值 - 150)÷ 50,真实值 = 150 + 50 × 代码值
若实际温度为160度,则代码值为(160 - 150)÷ 50 = 0.2。