薄盘样条函数插值方法最早是Wahba于1979年提出,Hutchinson等于1984年对其改进能够适用于更大的数据集,Bates等于1987年将其进一步拓展为局部薄盘光滑样条法
[19-20]。为了方便薄盘样条函数法的使用,Hutchinson等基于普通薄盘和局部薄盘样条函数的插值理论,开发了专业气候数据空间插值软件ANUSPLIN,它除了可以引入自变量外,还允许引入协变量(海拔、海岸线等)
[21]。ANUSPLIN软件的核心是局部薄盘光滑样条算法,其理论统计模型公式为:
\({Z}_{i}=f\left({x}_{i}\right)+{b}^{T}{y}_{i}+{e}_{i}\) (\(i=1,2,\dots ,N\)) (1)
其中,\({Z}_{i}\)为位于空间点\(i\)的因变量;\(f\left({x}_{i}\right)\)为关于\({x}_{i}\)的未知光滑函数;\({x}_{i}\)为独立变量;\({b}^{T}\)为\({y}_{i}\)的\(p\)维系数;\({y}_{i}\)为\(p\)维独立协变量;\({e}_{i}\)为随机误差;\(N\)为观测值数量。当式(1)缺少第一项\(f\left({x}_{i}\right)\)时,该统计模型简化为简单多元线性回归模型,但是在ANUSPLIN软件的实际使用中不允许出现这种情况;当式(1)缺少第二项\({b}^{T}{y}_{i}\)时,即不存在协变量(\(p=0\)),该统计模型就简化为普通的薄盘光滑样条模型。式(1)中,函数\(f\)和系数\({b}^{T}\)通过最小二乘估计来确定:
\(\sum _{i=1}^{N}{\left[\frac{{Z}_{i}-f\left({x}_{i}\right)-{b}^{T}{y}_{i}}{{w}_{i}}\right]}^{2}+\rho {J}_{m}\left(f\right)\) (2)
其中,\({J}_{m}\left(f\right)\)是函数\(f\left({x}_{i}\right)\)的粗糙度测度函数,为函数\(f\)的\(m\)阶偏导(也称为样条次数);\(\rho \)为正的光滑参数,主要用来平衡插值数据的保真度以及拟合曲面的粗糙度。当\(\rho \to 0\)时,函数\(f\)为精确内插式;当\(\rho \to +\infty \)时,函数\(f\)为最小二乘多项式。在ANUSPLIN软件中通常以广义交叉验证GCV和最大似然法GML的最小化来确定。GCV的计算原理主要为逐个移除数据点,在同样的\(\rho \)下利用其他数据点来估算该点的残差,并且在ANUSPLIN软件中的\(log\)日志文件(Log file and List file)中有记录。
ANUSPLIN软件的\(log\)日志文件中提供了一系列用于判别误差来源和插值质量的参数:观测数据统计量(均值、方差、标准差等)、广义交叉验证(GCV)、最大似然法误差(GML)、拟合曲面参数的信号自由度(Signal)和剩余自由度(Error)、均方残差(MSR)、光滑参数(RHO)、期望真实均方误差(MSE)等。\(log\)日志文件中的统计结果还给出了均方根残差(RMSR,Root mean square residual)的数据点序列,可以用来控制数据质量,检验并消除原始数据在位置和数值上的错误。
对于
\(log\)日志文件中数据拟合表面的结果,RHO过小和Signal大于观测站点的一半或RHO过大都表明在拟合过程中找不到最优的光滑参数,说明数据点过于稀疏、存在短相关或拟合函数过于复杂,所选模型不适合用于插值,这些情况在ANUSPLIN软件的
\(log\)日志文件中以符号(∗)标出。ANUSPLIN软件插值过程中最佳模型的选择标准:
\(log\)日志文件中GCV或GML最小,模型残差比(MRR)或信噪比(SNR)最小,Signal小于站点的一半,文件中无∗号指示
[22]。