请使用最新版本浏览器访问此演示文稿以获得更好体验。
预测是利用可供检测的科学方法,研究和预估未来将会发生的事件及结果。
工程上的预测主要包括两种:一种是根据实验、科学理论等进行的严格的、甚至是定量的陈述,即预测特定条件下会观察到什么;另一种是基于统计学理论,基于已有样本数据推断总体或未来的特征。这里讲的预测主要是第二种,即基于统计学进行的预测。
统计学有一个专门的分支叫统计推断学,它研究如何根据样本数据去推断总体数量特征的方法。预测推断是一种统计推断方法,它强调根据过去的观察结果预测未来的观察结果。当信息跨时间传递时,预测分为两种:一种是将局部样本的知识转移到总体或其他相关的事物上,即预测是在截面数据上进行的;另一种是基于时间序列方法,预测信息传递到某一时间点的特征。
用于预测的统计技术包括回归分析及其各种子类,如线性回归、广义线性模型(逻辑回归、泊松回归、概率回归)等。在基于时间序列进行预测时,可以利用自回归移动平均模型和向量自回归模型。当这些相关的广义回归或机器学习方法被部署在商业用途中时,该领域被称为预测分析。
注:中文的预测对应英文的两个词,分别是 prediction 和 forecasting。在科学上,这两个词的意思是很不相同的,其中 prediction 表示以局部样本数据推断整体,即在截面数据上对整体已经发生的数据特征进行推断;而 forecasting 则表示以当前预测未来,即使用时间序列方法进行预测。Prediction 要更加通用。
回归分析应用广泛,既可以建立输出模型、预测趋势,又可以用来探索影响因素,同时又是最基础、最常见的数据分析方法。
在进行回归分析时,需要先选定一个回归模型,然后使用特定的方法(如普通最小二乘法)来估计模型的参数。其中回归模型包含以下 4 部分:
大多数回归模型认为 $y$ 是 $\boldsymbol{x}$ 和 $\boldsymbol{\beta}$ 的函数,而 $\varepsilon_i$ 是一个附加的误差项,它代表 $y$ 的未出现在模型中的决定因素或随机统计噪声。对于特定的第 i 次观测,该函数可表示为:
$$y_i = f \left(x_i, \boldsymbol{\beta}\right) + \varepsilon_i$$
进行回归分析的目标就是估计得出与数据拟合度最好的函数 $f \left(x_i, \boldsymbol{\beta}\right)$。要进行回归分析,必须先给定函数 f 的形式。如一元线性回归时,使用的函数形式为 $f \left(x_i, \boldsymbol{\beta}\right) = \beta_0 + \beta_1 x_i$,这时自变量和因变量的函数关系为 $y_i = \beta_0 + \beta_1 x_i + \varepsilon_i$。
在构建了回归模型之后,可以采用不同的方法来估计未知参数 $\boldsymbol{\beta}$。例如,最小二乘法(包括其最常用的变体普通最小二乘法)所找到的参数 $\boldsymbol{\beta}$ 可使误差平方和 $\sum_i \left(y_i - f \left(x_i, \boldsymbol{\beta}\right)\right)^2$ 取最小值。
除了最小二乘法,还可以使用其他方法进行参数估计,如最小绝对偏差、分位数回归方法,但由于最小二乘法所得的估计函数接近条件期望,因此其最常用。
线性回归:在回归模型中,因变量 $y_i$ 是参数 $\boldsymbol{\beta}$ 的线性组合(但并不需要是自变量的线性组合)。如以下回归方程均为线性回归:
$$y_i=\beta_0 +\beta_1 x_i +\varepsilon_i,\quad i=1,\dots,n$$
$$y_i=\beta_0 +\beta_1 x_i +\beta_2 x_i^2+\varepsilon_i,\ i=1,\dots,n$$
简单线性回归的模型相当于
平面直角坐标系内的一条直线
尽管多项式回归将非线性模型与数据进行拟合,但在统计估计中,其是线性的。图中 Truth 表示真实曲线,Estimate 表示回归所得曲线,CB 表示置信区间边界。
简单线性回归(一元线性回归)研究一个自变量和一个因变量之间的线性关系,其回归模型为:
$$y=\beta_0 +\beta_1 x +\varepsilon$$
式中,y 和 x 的关系用两部分描述:由于 x 的变化引起 y 的线性变化 $\beta_0 +\beta_1 x$;由其他一切随机因素引起的误差 $\varepsilon$。其中 $\beta_0$ 和 $\beta_1$ 是待求的未知参数。
一般假定 $\varepsilon$ 服从正态分布,即 $\varepsilon \sim N\left( 0, \sigma ^2 \right)$,从而有
$$ \begin{cases} E\left( \varepsilon _i \right) =0\\ var\left( \varepsilon _i \right) =\sigma ^2\\ \end{cases} $$
式中,$E\left( \varepsilon _i \right)$ 表示 $\varepsilon$ 的数学期望;$var\left( \varepsilon _i \right)$ 表示$\varepsilon$ 的方差。
对于每一个样本观测值 $\left(x_i, y_i\right)$,最小二乘法考虑观测值 $y_i$ 与其回归值 $E\left( y_i \right) =\beta _0+\beta _1 x_i$ 的离差越小越好。实际操作中,就是寻找参数 $\beta_0$, $\beta_1$ 的最小二乘估计 $\widehat{\beta}_0$, $\widehat{\beta}_1$,使 n 个观测对应的离差平方和达到极小,即
$$\begin{aligned} Q\left( \widehat{\beta _0},\widehat{\beta _1} \right) &=\sum_{i=1}^n{\left( y_i-\widehat{\beta _0}-\widehat{\beta _1}x_i \right) ^2}\\ &=\min_{\beta _0,\beta _1} \sum_{i=1}^n{\left( y_i-\beta _0-\beta _1x_i \right) ^2}\\ \end{aligned}$$
这时 $\widehat{y_i}=\widehat{\beta _0}+\widehat{\beta _1}x_i$ 为 $y_i$ 的回归拟合值,简称回归值或拟合值。
而 $e_i=y_i-\widehat{y_i}$ 称为 $y_i$ 的残差。
从上式中求出 $\widehat{\beta}_0$, $\widehat{\beta}_1$ 是一个求极值问题。由于 Q 是关于 $\widehat{\beta}_0$, $\widehat{\beta}_1$ 的非负二次函数,因而它的最小值总是存在。根据微积分中求极值的原理,$\widehat{\beta}_0$, $\widehat{\beta}_1$ 应满足下例方程组
$$\begin{cases} \left. \frac{\partial Q}{\partial \beta _0} \right|_{\beta _0=\widehat{\beta _0}}=-2\sum_{i=1}^n{\left( y_i-\widehat{\beta _0}-\widehat{\beta _1}x_i \right)}=0\\ \left. \frac{\partial Q}{\partial \beta _1} \right|_{\beta _1=\widehat{\beta _1}}=-2\sum_{i=1}^n{\left( y_i-\widehat{\beta _0}-\widehat{\beta _1}x_i \right) x_i}=0\\ \end{cases}$$
经整理后,得正规方程
$$\begin{cases} n\widehat{\beta _0}+\left( \sum_{i=1}^n{x_i} \right) \widehat{\beta _1}=\sum_{i=1}^n{y_i}\\ \left( \sum_{i=1}^n{x_i} \right) \widehat{\beta _0}+\left( \sum_{i=1}^n{x_{i}^{2}} \right) \widehat{\beta _1}=\sum_{i=1}^n{x_iy_i}\\ \end{cases}$$
求解以上正规方程得 $\beta_0$, $\beta_1$ 的最小二乘估计为
$$\begin{cases} \widehat{\beta _0}=\overline{y}-\widehat{\beta _1}\overline{x}\\ \widehat{\beta _1}=\frac{\sum_{i=1}^n{\left( x_i-\overline{x} \right) \left( y_i-\overline{y} \right)}}{\sum_{i=1}^n{\left( x_i-\overline{x} \right) ^2}}\\ \end{cases}$$
式中
$$\overline{x}=\frac{1}{n}\sum_{i=1}^n{x_i}, \overline{y}=\frac{1}{n}\sum_{i=1}^n{y_i}$$
一般用残差平方和来描述因变量观测值 $y_i$ 与回归直线的偏离程度
$$\sum_{i=1}^n{e_{i}^{2}}=\sum_{i=1}^n{\left( y_i-\widehat{\beta _0}-\widehat{\beta _1}x_i \right) ^2}$$
红色点为样本点,蓝色直线为最佳拟合直线,绿色短线为残差
从几何关系上看,用普通最小二乘法拟合 n 个样本观测点 $\left(x_i, y_i\right)$,就是要求回归直线 $\widehat{y_i}=\widehat{\beta _0}+\widehat{\beta _1}x_i$ 位于这 n 个样本点中间,或者说这 n 个样本点最靠近这条回归直线。
回归直线是通过点 $\left( \overline{x}, \overline{y} \right)$ 的,该点是 n 个样本值 $\left(x_i, y_i\right)$ 的重心。
在得出回归方程后,还需要检验回归方程对观测点的拟合程度好不好。可以使用统计学的检验理论检验回归模型的可靠性,具体又可以分为拟合优度检验、相关系数检验、模型的显著性检验(F-检验)和模型参数的显著性检验(t-检验)。
对于简单线性回归,F-检验、t-检验和相关系数检验的结果是完全一致的,而多元回归则不然。一般在简单线性回归时常使用相关系数检验,相关系数 r 的取值范围为 [-1, 1],且其绝对值越接近 1,表明拟合程度越好。但应注意,当样本数量 n 越小时,相关系数 r 越容易接近 1,这时并不能说 x 和 y 直接有密切的线性关系;另外,对相关系数的解释是依赖于具体的应用背景和目的的,假如你被告知地应力水平和发生煤与瓦斯突出灾害的之间的相关系数只有 0.3,也不能在预测突出时不考虑地应力水平指标。
确定煤层瓦斯含量与埋深的关系
问题描述:某煤矿对同一煤层,在不同埋深 h 测定其瓦斯含量 X 如右表所示,试分析该煤层埋深和瓦斯含量之间的关系,并预测在 750m 埋深处的瓦斯含量。
i | hi (m) | Xi (m3/t) |
1 | 232.5 | 1.58 |
2 | 315.6 | 3.43 |
3 | 387.1 | 4.55 |
4 | 388.3 | 5.60 |
5 | 405.2 | 4.34 |
6 | 530.6 | 7.34 |
7 | 555.9 | 6.43 |
8 | 571.8 | 6.13 |
9 | 623.5 | 7.32 |
10 | 634.9 | 6.49 |
11 | 693.5 | 9.54 |
根据煤矿瓦斯地质学可知,煤层埋深和瓦斯含量之间基本呈线性关系,因此借助数值计算软件,使用简单线性回归得出两者之间的关系,如左图所示。埋深 h 和瓦斯含量 X 间的回归方程为
$$X = 0.0136h - 0.9066$$
回归所得的相关系数的平方 r2(该值又称样本决定系数)为 0.864,相关系数 r = 0.930(相关系数的正负总是和回归所得直线斜率的正负相同),拟合程度较好,即 h 和 X 高度线性相关。
当埋深 h = 750m 时,根据回归方程,预测其瓦斯含量为
$$X = 0.0136h - 0.9066 = 0.0136×750 - 0.9066 = 9.29\text{m}^3\text{t}$$
示例 1 相对非常简单,为了进一步揭示回归分析时可能使用到的一些技巧,这里将给出一个要复杂得多的示例。这里涉及的主要技巧是,将一个看似非线性的、复杂的回归模型,通过数据变换,变为简单线性回归。
问题描述:在煤矿煤与瓦斯突出时,经常会产生大量的各种粒径的碎煤,为了表征煤与瓦斯突出的剧烈程度,并研究其发生机理,需要通过对煤与瓦斯突出后产生的部分碎煤煤样进行筛分,得出这些碎煤的粒径分布规律。
下表为某次煤与瓦斯突出事故发生后,通过现场取样并筛分所得的数据,请进一步分析这些碎煤的粒径分布规律。
粒径范围/mm | 筛孔尺寸/mm | 碎煤质量/g | 质量占比% | 累计质量比 (筛下率)/% |
累计质量比 (筛上率)/% |
<3 | 3 | 347.0 | 7.669 | 7.669 | 92.331 |
3~6 | 6 | 171.5 | 3.790 | 11.459 | 88.541 |
6~9 | 9 | 123.3 | 2.725 | 14.183 | 85.817 |
9~12 | 12 | 151.6 | 3.350 | 17.534 | 82.466 |
12~15 | 15 | 144.3 | 3.189 | 20.723 | 79.277 |
15~18 | 18 | 242.1 | 5.350 | 26.073 | 73.927 |
18~21 | 21 | 277.4 | 6.130 | 32.203 | 67.797 |
>21 | 3067.8 | 67.797 | 100.000 | 0.000 |
通过查阅文献资料得知,一般粉尘、碎煤的粒径都服从威布尔分布(Weibull distribution)。因此,这里基于质量分布表示方法,首先尝试选用威布尔模型及其分布函数来分析煤与瓦斯突出后产生碎煤的分布特征。威布尔分布的累计概率积分函数为
$$F\left( d \right) =1-e^{-\left( d/d_e \right) ^k}$$
式中,d 为颗粒的粒径尺寸,mm;k 为形状参数,表征粒径分布范围大小,k值越大,粒径分布越窄,它不仅影响粒径累积概率分布曲线的形状,还影响概率密度曲线的形状;de 尺度参数,de 越大,说明粒径从总体上会偏向较大的一端,反之,总体粒径较小,mm。
在该问题中,d 是自变量,F 是因变量,k 和 de 是未知参数。
以上累计概率积分函数虽然并非线性的,但可以通过一定的变换将其变为线性的。将上式进行移项并取两次对数,得
$$\ln \left\{ -\ln \left[ 1-F\left( d \right) \right] \right\} =k\ln d-k\ln d_e$$
令 $x=\ln d$, $y=\ln \left\{ -\ln \left[ 1-F\left( d \right) \right] \right\}$,代入上式得
$$y=kx-k\ln d_e$$
这是一个线性方程,可根据筛分数据用最小二乘法回归得出其参数,进而求得 k 和 de。
右图所示为根据前面表中实验筛分数据回归得到的曲线及方程。所得线性回归方程为 y = 0.9122x – 3.795,其相关系数的平方r2 = 0.993,非常接近 1。这说明碎煤粒径分布能很好地符合威布尔分布。将所得回归方程的参数代入上页最后一式,可进一步解得
k = 0.912,de = 64.089
最后,根据累计概率积分函数得出不同粒径对应的筛下率如下图所示