五种预测方法在退田还湖区血吸虫病发病的拟合效果评价(一)

作者:赛晓勇,邢秦菊,孟定茹,贾玉然,蔡凯平,李岳生,周晓农

【关键词】 统计预测;ARIMA模型;血吸虫病;退田还湖

  Comparison of predicting effect of schistosomiasis preva lence by 5 statistical models in the areas of "breaking dikes or opening sluice for water store" in Dongting Lake

  【Abstract】 AIM: To compare the predicting effect of schistosomiasis preva lence by 5 different statistical models including Moving Average, Exponential Smoothing, Autoregressive Model, Autoregressive integrated moving average model (ARIMA Model) and Grey Model in the areas of "breaking dikes or opening sluice for water store" in Dongting Lake and to provide a fitted model for local schistosomiasis preventive department. METHODS: The 5 different statistical models were applied to predict the schistosomiasis preva lence in some experimental sites and Error Sum of Square (ESS), Average Relative Errors (ARE), Average Errors (AR) of 5 models were compared. RESULTS: ESS, ARE and AR of Grey Model in Jicheng were smallest; ESS and AR of ARIMA Model in Haohou were smallest; ARE of Autoregressive Model was smallest. CONCLUSION: Different models fit different places. The predicting effects of Grey Model and ARIMA Model are best among the 5 models.

  【Keywords】 Statistical prediction;ARIMA Model; Schistosomiasis;Breaking dikes or opening sluice for water store

  【摘要】 目的: 比较移动平均法、指数平滑法、自回归法、ARIMA法和灰色预测法在退田还湖地区试点血吸虫病发病拟合效果的优劣,为当地血防部门提供较为适合的拟合方法. 方法: 应用五种方法对集成垸试点和濠口试点血吸虫病患病率建模预测并比较拟合值的绝对误差、相对误差和误差平方和. 结果: 集成垸试点灰色预测法拟合值的平均绝对误差、平均相对误差和误差平方和最小;濠口试点平均绝对误差、误差平方和以ARIMA法最小,平均相对误差以自回归法最小. 结论: 不同的拟合模型适用于不同的试点;两试点以灰色预测和ARIMA模型拟合效果较好.

  【关键词】 统计预测;ARIMA模型;血吸虫病;退田还湖

  0引言

  1998年我国开始退田还湖,使血吸虫病中间宿主钉螺孳生环境发生了变化. 在应用不同方法对血吸虫病病情预测研究的基础上,对移动平均法、指数平滑法、自回归法、ARIMA法和灰色预测法进行了比较与评价,为退田还湖区血防部门找到相对精确的定量拟合方法.

  1材料和方法

  1.1材料

  收集退田还湖地区华容县的集成垸试点(双退点,即退人又退田,该垸1998年完全废弃用于泄洪)和濠口试点(单退点,退人不退田即洪水期人转移、洪水过后返回种田)1990~2003年连续粪检阳性率的病情资料. 集成垸试点退田还湖后滞留人口2600人,面积为2200万平方米;濠口试点常住人口1176人,面积为297万平方米,均为湖南省血吸虫病重灾区监测试点. 全部病情资料由湖南省血防所及华容县洪山头镇血防站和澧县小渡口血防站提供.

  1.2方法

  1.2.1移动平均法是利用一组观察值的均值作为下一期的预测值,设时间序列为x1,x2,x3…,可以表示为Ft+1=1〖〗N∑t〖〗t-N+1,式中xt为最新观察值;Ft+1为下一期的预测值,N为一组观察值的个数. q阶移动平均模型的公式为:Yt=et-θ1et-1-θ2et-2-…-θqet-q,用自相关系数识别,它的自相关系数为:rk=-θk+θ1θk+1+…+θq-kθq〖〗1+θ21+θ22+…+θ2q〖〗1≤k≤q
0〖〗k>q. 时间序列相差k个时期两项数据序列之间的依赖程度可用自相关系数rk表示为∑n〖〗t=k+1(Yt-Y)(Yt-k-Y)/∑n〖〗t=1(Yt-Y)2. 式中:n是时间序列Yt的数据的个数;Yt-k是其滞后k期数据形成的序列. Y=1〖〗n∑n〖〗t=1Yt,是时间序列的平均值. rk取值范围在正负1之间,|rk|与1越接近,说明时间序列的自相关程度越高.

  1.2.2指数平滑法用序列过去值的加权均数来预测将来的值,并给近期的更大的权数,远期的给以较小的权数. 表达式为z^t+1=αzt+(1-α)z^t,α为平滑指数,z^t+1为下一年预测值,zt为当年真实值,z^t为当年预测值. 到时期t时,只需知道实际数值和本期预测两个数据值就可预测下一个时间的数值.

  1.2.3自回归分析自回归分析主要是对时间序列求其本期与不同滞后期的一系列自相关系数和偏自相关系数以识别其特性,主要用偏自相关系数来判定模型的阶数. P阶自回归AR(P)模型的公式为:Yt=1Yt-1+2Yt-2+…+…pYt-p+et,它的偏自相关系数满足:ki=i〖〗1≤i≤p
0〖〗p+1≤i≤k. 偏自相关是时间序列Yt在给定了Yt-1,Yt-2,…Yt-k+1的条件下,Yt与滞后k期时间序列之间的条件相关. 它用来度量当其他滞后1,2,3,…,k-1期时间序列的作用已知的条件下Yt与Yt-k之间的相关程度,用Φkk度量. Φkk=(rk-∑k-1〖〗i=1Φk-1,i×rk-i)/(1-∑k-1〖〗i=1Φk-1,i×ri). k=2,3,…式中:Φk,i=Φk-1,i-Φkk×Φk-1,k-I,i=1,2, …,k-1.

  1.2.4ARIMA模型首先判定数据有无随机性、平稳性、季节性,然后要在预测之前实现最优拟合、建模,最后进行预测及评价. 模型为ARIMA(p,d,q),它将移动平均、自回归分析及差分结合起来. 确定3个参数,即自回归阶数(p)、差分次数(d)、移动平均阶数(q),它首先通过差分把时间序列的季节性消除之后(达到数据平稳),然后建模,最后估计参数. 对非季节数据,一般求一阶差分即可. 若时间序列的季节性的变动周期为T,时间序列Yt的一阶季节差分序列TYt为TYt=Yt-Yt-T(t>T). 自相关分析图将自相关系数和偏自相关系数绘制成图,并标出了置信区间,利用它可分析时间序列的随机性、平稳性和季节性. 随机性是指时间序列各项之间没有相关关系的特性. 判定准则:自相关系数基本上落在置信区间内. 平稳性是指时间序列的统计特征不随时间推移而变化. 判定准则:自相关系数rk在k>3时都落入置信区间内并逐渐趋于零. 季节性是指在某一固定时间间隔上,重复出现的某种特性. 判定准则:某一时间序列在k=2或3以后的自相关系数rk值存在着周期性的显著不为零的值,则有季节性〔5〕.