第三节 多元线性回归分析
影响粉喷桩的物理力学性能指标的因素甚多:软土性质、工程设计、施工机械、施工工艺、养护条件及施工者素质对水泥土强度都有强烈的影响,现排除设计、施工等诸多因素,在本章分析中,主要研究水泥土抗压强度这一主要指标,考察水泥掺入比、含水量、孔隙率、干容重、声波传播速度等因素的作用。通过回归分析,试图将各影响因素对目标的影响量化,同时希望进行各因素之间的共线性诊断以及模型的适合性检验,从而建立只包含主要影响因素与抗压强度的新模型,在工程中以更少的参数来较好的控制粉喷桩水泥土的抗压强度。将波速这一物理量放入分析,并不是说它对室内配比试验的试样强度的形成有直接影响,目的是试图通过建立波速与强度之间的关系,从而为反射波法应用于粉喷桩质量检测的可行性进行论证。对本此试验结果,主要采取了多元线性回归的分析方法,但是由于模型本身存在一些自身不能解决的问题,因此,在本章的最后,文章引入了BP神经网络的新方法,试图解决非线性回归中不能或难以解决的问题,希望探索一条处理数据的新途径。
分析根据数理统计中的回归理论,以水泥土的抗压强度为因变量y,考虑的自变量为掺入比x1、龄期x2、含水量x3、孔隙率x4、饱和度x5、干密度x6、和波速x7,此模型是多维回归变量{xi}空间中的一张超平面。设y和x1,···x7的n次观测数据满足线性回归模型
yj=β0+β1x1j+···+β7x7j+εjcj (j=1···n)
用距阵符号表示为: Y=Xβ+ε
其中Y=(Y1,···YN),为因变量的观测向量,β=(β1,···βm),是未知参数向量,x=
因考察n个自变量对抗压强度y的作用有大有小,且自变量之间一般存在相关性,为了从y和x1,···x7中所有可能的回归模型中选出拟合这组数据的最优回归子集,本文主要采用了全回归模型的分析方法,并利用大型系统统计分析软件SYS进行数据拟合。
全回归模型是指没有对回归变量进行筛选,建立全回归变量的全回归模型。这是很多回归分析常用的方法。
附:SYS 软件数据输入文件
Input
抗压强度 掺入比 含水量 孔隙度 饱和度 干密度 波速 龄期;
Cards;
1.49 0.08 0.234 0.620 0.926 1.61 1414 30
· · · · · · · ·
· · · · · · · ·
· · · · · · · ·
2.36 0.12 0.222 0.588 0.945 1.69 1645 30
Proc reg;
Model 抗压强度=掺入比 含水量 孔隙度 饱和度 干密度 波速 龄期
/ selection=none r collin tol vif;
Run;
输出结果为当前选择模型的方差分析表及参数估计等有关统计量(全回归变量分析)。具体结果如下:
表2—2 检验回归显著性的方差分析
| 变差来源 | 自由度 | 平方和 | 均方误差 | F0检验量 | 显著性概率Prob>F0 |
| 回归模型 | 7 | 12.4080 | 1.77257 | 9.729 | 0.0221 |
| 残差的误差 | 4 | 0.72881 | 0.18220 | ||
| 偏差总和 | 11 | 13.13683 |
|
表2—3 参数估计
| 自变量 | 自由度 | 回归系数 | 标准差 | T检验 | Prob>|T| |
| 常数 | 1 | 1.318102 | 19.33452 | 0.068 | 0.9489 |
| 掺入比 | 1 | 2.957310 | 9.445609 | 0.313 | 0.7699 |
| 龄期 | 1 | 0.015373 | 0.010140 | 1.516 | 0.2041 |
| 含水量 | 1 | -59.570093 | 91.34560 | -0.652 | 0.5499 |
| 孔隙度 | 1 | 16.134035 | 32.66397 | 0.494 | 0.6472 |
| 饱和度 | 1 | 7.021657 | 14.85835 | 0.473 | 0.6611 |
| 干密度 | 1 | 4.094876 | 8.303568 | 0.493 | 0.6478 |
| 波速 | 1 | 0.002596 | 0.001856 | 1.398 | 0.2346 |
则抗压强度
Y=1.318+2.957x1+0.015x2-59.570x3+16.134x4+7.022x5+4.095x6+0.003x7
表2—4 模型显著性检验及偏相关分析
| 标准差估计量 | 0.42685 | 复相关系数 | 0.9445 | ||||||
| 样本均值 | 2.74250 | 修正的平方复相关系数 | 0.8474 | ||||||
| 变异系数 | 15.56437 | ||||||||
| 使用类型I平方和(SS)的平方偏相关系数,用SS/(SS+SSE)计算 | |||||||||
| 波速 | 掺入比 | 含水量 | 龄期 | 孔隙度 | 饱和度 | 干密度 | |||
| 0.6487031 | 0.5030367 | 0.3663140 | 0.3283369 | 0.1697898 | 0.1043044 | 0.0967931 | |||
我们常用判定系数R-square来衡量回归模型的适合性。显然0<R2<1,常粗略将R2看成作为数据的变异性中被该回归模型说明的或涉及的部分所占的比例。也就是说,本次水泥土抗压强度的变异性中94.45%是由全回归模型引起的,这也说明了采用全回归模型的分析过程能在很大程度上反映出各因数的作用,模型的合理性得到了检验。
由偏相关分析得知,抗压强度对波速、掺入比、含水量、龄期的敏感性是比较强的,其中波速的平方偏相关系数最大,说明声波与水泥土抗压强度之间有很强的相关性,此结论告诉我们以波速揭示和评价粉喷桩加固效果,不仅切实可行而且有较高精度。强度和波速的单因素分析将在后面继续进行讨论。
各因素对抗压强度的影响大小次序为:
波速>掺入比>含水量>龄期>孔隙度>饱和度>干密度
水泥掺入比的大小,对桩的质量至关重要,水泥掺入量的多寡将大大改变软土的加固效果。从分析结果看,掺入比与抗压强度的相关性仅次于波速,掺入比与抗压强度的关系和波速与抗压强度的关系相比,两者的性质是不同的:波速可以作为反应抗压强度大小的一个指标,对抗压强度的形成并没有直接的影响作用,通过波速仅仅是达到检测水泥土抗压强度的目的,它与强度之间不存在直接的因果关系;根据本章第一节中水泥土的加固机理可知,提高软弱土强度的水解水化反应、硬凝反应和碳酸化作用,都离不开水泥的参与,并且水泥的多寡对强度而言至关重要,它将直接影响水泥土的抗压强度,分析结果揭示了能够通过控制掺入比这一因素来经济而且有效的提高水泥土的抗压强度,这一点在工程应用中具有十分重要的实践意义。
孔隙度、饱和度和干密度对土样强度的贡献在同一水平,这一结果可以从土力学知识得到验证。干密度
和饱和度
(其中Gs为土粒比重,e为孔隙度,w为含水量,
为水的密度),表明它们是可以互相推导,互相表示的。回归分析结果表明干密度、孔隙度和饱和度对抗压强度的影响作用较小,笔者对此进行了认真研究,认为回归分析并没有正确反应干密度对抗压强度的贡献情况。就模型本身反应的情况而言,对干密度的分析就存在一些问题:图2—1充分表现出干密度的变异性较大,离群现象突出,回归趋势相当不明显,对这种情况,通过回归分析的手段很难正确描述其影响规律;由图2—2的干密度残差图可以看出,干密度残差的散点分布集中于坐标轴两端,违背了残差的无定形分布规律,唯一的解释应该是对回归模型而言,干密度的引入是不恰当的,也就是说,对此次试验结果,用回归分析并没有很好的回归出干密度的影响趋势。根据水泥土加固机理的分析可知,虽然硫酸钙在水泥中的含量仅占3~5%,但它能和约占水泥50%的铝酸三钙生成一种被称为“水泥杆菌”的化合物的同时,结合32倍于自己的水分子。此过程反应很快,最后把大量自由水以结晶水的形式固定下来,这种水泥杆菌针状结晶在深层搅拌的特定条件下,完全可以利用这种膨胀势通过膨胀、挤密作用增加地基加固效果。加固效果的提高,从另外一个角度来看,就表现为干密度的增大。对本次含水量高的软粘土而言,硫酸钙的结晶过程对强度的提高有特殊意义,回归分析不能很好反应这种情况,要进行进一步的分析,只能采取其它分析方法。本文主要利用神经网络模型做了初步的探索,详细分析见下文。
一. 共线性分析:
当模型被表示为线性模型结构时,假设检验就表示为各参数的线性函数。而当某个回归变量近似是其余变量的线性组合时,得到的参数估计往往是不准确的,而且估计量的方差很大,这就产生了共线性或复共线性。本文试图通过以下途径对全回归模型的共线性进行诊断。
1.特征值法
我们首先把
表2—5 相关数计算结果表
| 特征值 | 常数 | 掺入比 | 龄期 | 含水量 | 孔隙度 | 饱和度 | 干密度 | 波速 |
| 常数 | 1.0000 | 0.2668 | -0.3029 | 0.3479 | -0.5766 | -0.2907 | -0.7306 | -0.4677 |
| 掺入比 | 0.2668 | 1.0000 | -0.0073 | 0.4907 | -0.4930 | -0.4630 | 0.1294 | -0.7060 |
| 龄期 | -0.3029 | -0.0073 | 1.0000 | 0.2877 | -0.2139 | -0.1360 | 0.2963 | 0.5315 |
| 含水量 | 0.3479 | 0.4907 | 0.2877 | 1.0000 | -0.9641 | -0.9729 | 0.3397 | -0.1283 |
| 孔隙度 | -0.5766 | -0.4930 | -0.2139 | -0.9641 | 1.0000 | 0.9112 | -0.0804 | 0.2093 |
| 饱和度 | -0.2907 | -0.4630 | -0.1360 | -0.9729 | 0.9112 | 1.0000 | -0.4272 | 0.1721 |
| 干密度 | -0.7306 | 0.1294 | 0.2963 | 0.3397 | -0.0804 | -0.4272 | 1.0000 | 0.2063 |
| 波速 | -0.4677 | -0.7060 | 0.5315 | -0.1283 | 0.2093 | 0.1721 | 0.2063 | 1.0000 |
2.条件指数法
条件指数定义为最大特征值和每个特征值之比的平方根。最大条件指数称为矩阵x的条件数,当条件数较大时,这组数据被认为是病态数据,当条件数很大时,认为有严重共线性。我们的分析过程输出有每个主分量解释的估计方差比例,当条件指数高的主分量对两个或几个变量的方差有很大贡献时,共线性问题就发生了。
计算结果见表2—6:
表2—6 条件指数计算结果表
| 个数 | 特征值 | 条件数 | 常数 | 掺入比 | 龄期 | 含水量 | 孔隙度 | 饱和度 | 干密度 | 波速 |
| 1 | 7.66952 | 1.00000 | 0.0000 | 0.0002 | 0.0005 | 0.0000 | 0.0000 | 0.0000 | 0.0000 | 0.0000 |
| 2 | 0.21320 | 5.99785 | 0.0000 | 0.0000 | 0.1290 | 0.0000 | 0.0000 | 0.0000 | 0.0000 | 0.0001 |
| 3 | 0.08077 | 9.74426 | 0.0000 | 0.0673 | 0.0135 | 0.0001 | 0.0001 | 0.0000 | 0.0000 | 0.0020 |
| 4 | 0.03271 | 15.31310 | 0.0001 | 0.1032 | 0.0018 | 0.0001 | 0.0001 | 0.0004 | 0.0008 | 0.0004 |
| 5 | 0.00289 | 51.50004 | 0.0002 | 0.4923 | 0.0422 | 0.0001 | 0.0005 | 0.0095 | 0.0001 | 0.3230 |
| 6 | 0.00087 | 93.86821 | 0.0073 | 0.0864 | 0.6236 | 0.0009 | 0.0038 | 0.0264 | 0.0214 | 0.5008 |
| 7 | 0.00003 | 479.9185 | 0.6711 | 0.0012 | 0.1606 | 0.0590 | 0.0004 | 0.0952 | 0.9658 | 0.1188 |
| 8 | 0.0000 | 796.5479 | 0.3213 | 0.2492 | 0.0289 | 0.9399 | 0.9952 | 0.8685 | 0.0119 | 0.0550 |
3.方差膨胀因子法
共线性严重程度的另一种度量是方差膨胀因子(Vif),记C=(Cij)=
,Ri为变量xi对其余m-1个自变量的复相关系数,有cii=(1-R2(i))-1(i=1,2,
,bm),则Var(bi)=
表2—7 各影响因素的膨胀因子表
| 变量 | 膨胀因子 |
| 常数 | 0.00000000 |
| 掺入比 | 4.83141296 |
| 龄期 | 6.09474784 |
| 含水量 | 1291.4638047 |
| 孔隙度 | 882.76581486 |
| 饱和度 | 113.93348703 |
| 干密度 | 62.52432310 |
| 波速 | 5.71286559 |
从以上三种方法都可以看出,含水量、孔隙度和饱和度三者之间由相当强的共线性。由特征值法可知,它们的相关数达到了0.9以上;由条件指数法可以看出,在条件数为796.5479时,这三者之间方差的贡献达到0.8~0.9;膨胀因子表也表明,它们的膨胀因子与其他的因素相比也有相当大的数量级。由相关数矩阵还可知,波速除与龄期和掺入比的相关性较强之外(相关数分别为0.5315和0.7010),与其他因素也有相当的相关性,且偏相关程度大致相同,相关数大约为0.2左右。由相关数计算结果表2—5知,干密度与含水量、饱和度的相关程度较强,而掺入比与龄期和干密度基本上不相关。以上结论从表2—6和表2—7中也可以得到反应。由抗压强度预测值与干密度的散点图图2—1(一组数据)可以看出,干密度离散程度相当大,离群现象突出,回归趋势不明。这是一个潜在的和难以矫正的问题,只要有可能,就要在收集数据时防止同类问题的发生。

图2—1 抗压强度预测值—干密度散点图
二.残差分析:
回归模型的残差分析对于确定最小二乘拟合的适合性是必须的。如果模型正确并且满足假定条件,则残差应该是无定性的,它们应该与任一其他变量没有关系,自然也与用来预测响应的变量无关。根据本次残差分析的结果,笔者人为,回归模型对干密度的描述是不恰当的。图2—2为残差—干密度散点图,散点主要分布在图形两端,位置集中,而非无定形的平均分布,由此可知,对本模型而言,干密度这一因素的引入是不合适的,应排除之。

图2—2 残差—干密度散点图
图2—3是除去干密度影响因素后土样抗压强度数据的残差对拟合值的图形,没有出现异常结构。这说明模型是适合的。

图2—3 抗压强度数据的残差对拟合值的图
