西安科技大学

安全工程专业课程

安全仿真与模拟基础


金洪伟 & 闫振国 & 王延平


西安科技大学安全科学与工程学院

返回目录⇡

如何浏览?

  1. 从浏览器地址栏打开 https://zimo.net/aqmn/
  2. 点击链接打开演示文稿,使用空格键或方向键导航;
  3. f键进入全屏播放,再按Esc键退出全屏;
  4. s键打开演讲者视图(在多屏播放时有用);
  5. Alt键同时点击鼠标左键进行局部缩放;
  6. Esco键进入幻灯片浏览视图。

请使用最新版本浏览器访问此演示文稿以获得更好体验。

第 3 章
一些基础的安全问题模拟

目 录

  1. 预测问题数学建模
  2. 分类问题数学建模
  3. 优化问题数学建模
  4. 评价问题数学建模

1. 预测问题数学建模

预测是利用可供检测的科学方法,研究和预估未来将会发生的事件及结果。

工程上的预测主要包括两种:一种是根据实验、科学理论等进行的严格的、甚至是定量的陈述,即预测特定条件下会观察到什么;另一种是基于统计学理论,基于已有样本数据推断总体或未来的特征。这里讲的预测主要是第二种,即基于统计学进行的预测。

统计学有一个专门的分支叫统计推断学,它研究如何根据样本数据去推断总体数量特征的方法。预测推断是一种统计推断方法,它强调根据过去的观察结果预测未来的观察结果。当信息跨时间传递时,预测分为两种:一种是将局部样本的知识转移到总体或其他相关的事物上,即预测是在截面数据上进行的;另一种是基于时间序列方法,预测信息传递到某一时间点的特征。

2. 预测问题数学建模

用于预测的统计技术包括回归分析及其各种子类,如线性回归、广义线性模型(逻辑回归、泊松回归、概率回归)等。在基于时间序列进行预测时,可以利用自回归移动平均模型和向量自回归模型。当这些相关的广义回归或机器学习方法被部署在商业用途中时,该领域被称为预测分析

注:中文的预测对应英文的两个词,分别是 prediction 和 forecasting。在科学上,这两个词的意思是很不相同的,其中 prediction 表示以局部样本数据推断整体,即在截面数据上对整体已经发生的数据特征进行推断;而 forecasting 则表示以当前预测未来,即使用时间序列方法进行预测。Prediction 要更加通用。

2. 预测问题数学建模

2.1 回归分析

回归分析
在统计建模中,回归分析是一组统计过程,用于估计因变量(通常称为结果变量响应变量,或机器学习术语中的标签)与一个或多个自变量(通常称为预测值协变量解释变量特征)之间的关系。

回归分析应用广泛,既可以建立输出模型、预测趋势,又可以用来探索影响因素,同时又是最基础、最常见的数据分析方法。

2.1 回归分析

(1)回归模型

在进行回归分析时,需要先选定一个回归模型,然后使用特定的方法(如普通最小二乘法)来估计模型的参数。其中回归模型包含以下 4 部分:

  • 未知参数:经常用标量或向量 $\boldsymbol{\beta}$ 表示;
  • 自变量:从数据中观察到的量,通常表示为向量 $\boldsymbol{x}$。
  • 因变量:从数据中观察到的量,通常表示为标量 $y$。
  • 误差项:无法直接从数据中观察到的量,通常表示为标量 $\varepsilon$。

(1)回归模型

大多数回归模型认为 $y$ 是 $\boldsymbol{x}$ 和 $\boldsymbol{\beta}$ 的函数,而 $\varepsilon_i$ 是一个附加的误差项,它代表 $y$ 的未出现在模型中的决定因素或随机统计噪声。对于特定的第 i 次观测,该函数可表示为:

$$y_i = f \left(x_i, \boldsymbol{\beta}\right) + \varepsilon_i$$

进行回归分析的目标就是估计得出与数据拟合度最好的函数 $f \left(x_i, \boldsymbol{\beta}\right)$。要进行回归分析,必须先给定函数 f 的形式。如一元线性回归时,使用的函数形式为 $f \left(x_i, \boldsymbol{\beta}\right) = \beta_0 + \beta_1 x_i$,这时自变量和因变量的函数关系为 $y_i = \beta_0 + \beta_1 x_i + \varepsilon_i$。

(2)参数估计的方法

在构建了回归模型之后,可以采用不同的方法来估计未知参数 $\boldsymbol{\beta}$。例如,最小二乘法(包括其最常用的变体普通最小二乘法)所找到的参数 $\boldsymbol{\beta}$ 可使误差平方和 $\sum_i \left(y_i - f \left(x_i, \boldsymbol{\beta}\right)\right)^2$ 取最小值。

除了最小二乘法,还可以使用其他方法进行参数估计,如最小绝对偏差分位数回归方法,但由于最小二乘法所得的估计函数接近条件期望,因此其最常用。

(3)回归分析的分类

  • 线性回归:在回归模型中,因变量 $y_i$ 是参数 $\boldsymbol{\beta}$ 的线性组合(但并不需要是自变量的线性组合)。如以下回归方程均为线性回归:

    $$y_i=\beta_0 +\beta_1 x_i +\varepsilon_i,\quad i=1,\dots,n$$

    $$y_i=\beta_0 +\beta_1 x_i +\beta_2 x_i^2+\varepsilon_i,\ i=1,\dots,n$$

    • 简单线性回归:只有单个自变量和单个因变量的线性回归。
    • 多元线性回归:具有两个或更多自变量和单个因变量的线性回归。
    • 一般线性模型:具有多个因变量(即因变量不是标量,而是向量)的线性回归模型。
  • 非线性回归:在回归模型中,因变量 $y_i$ 是参数 $\boldsymbol{\beta}$ 的非线性组合(但并不需要是自变量的线性组合)。非线性回归要比线性回归复杂很多。
简单线性回归示意图

简单线性回归的模型相当于
平面直角坐标系内的一条直线

三次多项式线性回归示意图

尽管多项式回归将非线性模型与数据进行拟合,但在统计估计中,其是线性的。图中 Truth 表示真实曲线,Estimate 表示回归所得曲线,CB 表示置信区间边界。

2. 预测问题数学建模

2.2 简单线性回归

(1)模型

简单线性回归(一元线性回归)研究一个自变量和一个因变量之间的线性关系,其回归模型为:

$$y=\beta_0 +\beta_1 x +\varepsilon$$

式中,yx 的关系用两部分描述:由于 x 的变化引起 y 的线性变化 $\beta_0 +\beta_1 x$;由其他一切随机因素引起的误差 $\varepsilon$。其中 $\beta_0$ 和 $\beta_1$ 是待求的未知参数。

2.2 简单线性回归

(1)模型

一般假定 $\varepsilon$ 服从正态分布,即 $\varepsilon \sim N\left( 0, \sigma ^2 \right)$,从而有

$$ \begin{cases} E\left( \varepsilon _i \right) =0\\ var\left( \varepsilon _i \right) =\sigma ^2\\ \end{cases} $$

式中,$E\left( \varepsilon _i \right)$ 表示 $\varepsilon$ 的数学期望;$var\left( \varepsilon _i \right)$ 表示$\varepsilon$ 的方差。

2.2 简单线性回归

(2)普通最小二乘估计

对于每一个样本观测值 $\left(x_i, y_i\right)$,最小二乘法考虑观测值 $y_i$ 与其回归值 $E\left( y_i \right) =\beta _0+\beta _1 x_i$ 的离差越小越好。实际操作中,就是寻找参数 $\beta_0$, $\beta_1$ 的最小二乘估计 $\widehat{\beta}_0$, $\widehat{\beta}_1$,使 n 个观测对应的离差平方和达到极小,即

$$\begin{aligned} Q\left( \widehat{\beta _0},\widehat{\beta _1} \right) &=\sum_{i=1}^n{\left( y_i-\widehat{\beta _0}-\widehat{\beta _1}x_i \right) ^2}\\ &=\min_{\beta _0,\beta _1} \sum_{i=1}^n{\left( y_i-\beta _0-\beta _1x_i \right) ^2}\\ \end{aligned}$$

这时 $\widehat{y_i}=\widehat{\beta _0}+\widehat{\beta _1}x_i$ 为 $y_i$ 的回归拟合值,简称回归值拟合值

而 $e_i=y_i-\widehat{y_i}$ 称为 $y_i$ 的残差

(2)普通最小二乘估计

从上式中求出 $\widehat{\beta}_0$, $\widehat{\beta}_1$ 是一个求极值问题。由于 Q 是关于 $\widehat{\beta}_0$, $\widehat{\beta}_1$ 的非负二次函数,因而它的最小值总是存在。根据微积分中求极值的原理,$\widehat{\beta}_0$, $\widehat{\beta}_1$ 应满足下例方程组

$$\begin{cases} \left. \frac{\partial Q}{\partial \beta _0} \right|_{\beta _0=\widehat{\beta _0}}=-2\sum_{i=1}^n{\left( y_i-\widehat{\beta _0}-\widehat{\beta _1}x_i \right)}=0\\ \left. \frac{\partial Q}{\partial \beta _1} \right|_{\beta _1=\widehat{\beta _1}}=-2\sum_{i=1}^n{\left( y_i-\widehat{\beta _0}-\widehat{\beta _1}x_i \right) x_i}=0\\ \end{cases}$$

经整理后,得正规方程

$$\begin{cases} n\widehat{\beta _0}+\left( \sum_{i=1}^n{x_i} \right) \widehat{\beta _1}=\sum_{i=1}^n{y_i}\\ \left( \sum_{i=1}^n{x_i} \right) \widehat{\beta _0}+\left( \sum_{i=1}^n{x_{i}^{2}} \right) \widehat{\beta _1}=\sum_{i=1}^n{x_iy_i}\\ \end{cases}$$

(2)普通最小二乘估计

求解以上正规方程得 $\beta_0$, $\beta_1$ 的最小二乘估计为

$$\begin{cases} \widehat{\beta _0}=\overline{y}-\widehat{\beta _1}\overline{x}\\ \widehat{\beta _1}=\frac{\sum_{i=1}^n{\left( x_i-\overline{x} \right) \left( y_i-\overline{y} \right)}}{\sum_{i=1}^n{\left( x_i-\overline{x} \right) ^2}}\\ \end{cases}$$

式中

$$\overline{x}=\frac{1}{n}\sum_{i=1}^n{x_i}, \overline{y}=\frac{1}{n}\sum_{i=1}^n{y_i}$$

一般用残差平方和来描述因变量观测值 $y_i$ 与回归直线的偏离程度

$$\sum_{i=1}^n{e_{i}^{2}}=\sum_{i=1}^n{\left( y_i-\widehat{\beta _0}-\widehat{\beta _1}x_i \right) ^2}$$

最小二乘法原理图

红色点为样本点,蓝色直线为最佳拟合直线,绿色短线为残差

(2)普通最小二乘估计

从几何关系上看,用普通最小二乘法拟合 n 个样本观测点 $\left(x_i, y_i\right)$,就是要求回归直线 $\widehat{y_i}=\widehat{\beta _0}+\widehat{\beta _1}x_i$ 位于这 n 个样本点中间,或者说这 n 个样本点最靠近这条回归直线。

回归直线是通过点 $\left( \overline{x}, \overline{y} \right)$ 的,该点是 n 个样本值 $\left(x_i, y_i\right)$ 的重心。

2.2 简单线性回归

(3)显著性检验

在得出回归方程后,还需要检验回归方程对观测点的拟合程度好不好。可以使用统计学的检验理论检验回归模型的可靠性,具体又可以分为拟合优度检验、相关系数检验、模型的显著性检验(F-检验)和模型参数的显著性检验(t-检验)。

对于简单线性回归,F-检验、t-检验和相关系数检验的结果是完全一致的,而多元回归则不然。一般在简单线性回归时常使用相关系数检验,相关系数 r 的取值范围为 [-1, 1],且其绝对值越接近 1,表明拟合程度越好。但应注意,当样本数量 n 越小时,相关系数 r 越容易接近 1,这时并不能说 xy 直接有密切的线性关系;另外,对相关系数的解释是依赖于具体的应用背景和目的的,假如你被告知地应力水平和发生煤与瓦斯突出灾害的之间的相关系数只有 0.3,也不能在预测突出时不考虑地应力水平指标。

2.2 简单线性回归

(4)示例 1:

确定煤层瓦斯含量与埋深的关系

问题描述:某煤矿对同一煤层,在不同埋深 h 测定其瓦斯含量 X 如右表所示,试分析该煤层埋深和瓦斯含量之间的关系,并预测在 750m 埋深处的瓦斯含量。

i hi (m) Xi (m3/t)
1 232.5 1.58
2 315.6 3.43
3 387.1 4.55
4 388.3 5.60
5 405.2 4.34
6 530.6 7.34
7 555.9 6.43
8 571.8 6.13
9 623.5 7.32
10 634.9 6.49
11 693.5 9.54

(4)示例 1:确定煤层瓦斯含量与埋深的关系

煤层埋深和瓦斯含量关系的回归分析

根据煤矿瓦斯地质学可知,煤层埋深和瓦斯含量之间基本呈线性关系,因此借助数值计算软件,使用简单线性回归得出两者之间的关系,如左图所示。埋深 h 和瓦斯含量 X 间的回归方程为

$$X = 0.0136h - 0.9066$$

(4)示例 1:确定煤层瓦斯含量与埋深的关系

回归所得的相关系数的平方 r2(该值又称样本决定系数)为 0.864,相关系数 r = 0.930(相关系数的正负总是和回归所得直线斜率的正负相同),拟合程度较好,即 hX 高度线性相关。

当埋深 h = 750m 时,根据回归方程,预测其瓦斯含量为

$$X = 0.0136h - 0.9066 = 0.0136×750 - 0.9066 = 9.29\text{m}^3\text{t}$$

2.2 简单线性回归

(4)示例 2:根据筛分数据分析粒径分布特征

示例 1 相对非常简单,为了进一步揭示回归分析时可能使用到的一些技巧,这里将给出一个要复杂得多的示例。这里涉及的主要技巧是,将一个看似非线性的、复杂的回归模型,通过数据变换,变为简单线性回归。

问题描述:在煤矿煤与瓦斯突出时,经常会产生大量的各种粒径的碎煤,为了表征煤与瓦斯突出的剧烈程度,并研究其发生机理,需要通过对煤与瓦斯突出后产生的部分碎煤煤样进行筛分,得出这些碎煤的粒径分布规律。

下表为某次煤与瓦斯突出事故发生后,通过现场取样并筛分所得的数据,请进一步分析这些碎煤的粒径分布规律。

煤与瓦斯突出后产生碎煤的筛分数据
粒径范围/mm 筛孔尺寸/mm 碎煤质量/g 质量占比% 累计质量比
(筛下率)/%
累计质量比
(筛上率)/%
<3 3 347.0 7.669 7.669 92.331
3~6 6 171.5 3.790 11.459 88.541
6~9 9 123.3 2.725 14.183 85.817
9~12 12 151.6 3.350 17.534 82.466
12~15 15 144.3 3.189 20.723 79.277
15~18 18 242.1 5.350 26.073 73.927
18~21 21 277.4 6.130 32.203 67.797
>21   3067.8 67.797 100.000 0.000

(4)示例 2:根据筛分数据分析粒径分布特征

通过查阅文献资料得知,一般粉尘、碎煤的粒径都服从威布尔分布(Weibull distribution)。因此,这里基于质量分布表示方法,首先尝试选用威布尔模型及其分布函数来分析煤与瓦斯突出后产生碎煤的分布特征。威布尔分布的累计概率积分函数为

$$F\left( d \right) =1-e^{-\left( d/d_e \right) ^k}$$

式中,d 为颗粒的粒径尺寸,mm;k 为形状参数,表征粒径分布范围大小,k值越大,粒径分布越窄,它不仅影响粒径累积概率分布曲线的形状,还影响概率密度曲线的形状;de 尺度参数,de 越大,说明粒径从总体上会偏向较大的一端,反之,总体粒径较小,mm。

在该问题中,d 是自变量,F 是因变量,kde 是未知参数。

(4)示例 2:根据筛分数据分析粒径分布特征

以上累计概率积分函数虽然并非线性的,但可以通过一定的变换将其变为线性的。将上式进行移项并取两次对数,得

$$\ln \left\{ -\ln \left[ 1-F\left( d \right) \right] \right\} =k\ln d-k\ln d_e$$

令 $x=\ln d$, $y=\ln \left\{ -\ln \left[ 1-F\left( d \right) \right] \right\}$,代入上式得

$$y=kx-k\ln d_e$$

这是一个线性方程,可根据筛分数据用最小二乘法回归得出其参数,进而求得 kde

(4)示例 2:根据筛分数据分析粒径分布特征

碎煤粒径分布回归分析

右图所示为根据前面表中实验筛分数据回归得到的曲线及方程。所得线性回归方程为 y = 0.9122x – 3.795,其相关系数的平方r2 = 0.993,非常接近 1。这说明碎煤粒径分布能很好地符合威布尔分布。将所得回归方程的参数代入上页最后一式,可进一步解得

k = 0.912,de = 64.089

(4)示例 2:根据筛分数据分析粒径分布特征

最后,根据累计概率积分函数得出不同粒径对应的筛下率如下图所示

碎煤粒径累计概率分布

2. 预测问题数学建模

2.3 时间序列分析

时间序列
一组按照时间发生先后顺序进行排列的数据点序列。通常一组时间序列的时间间隔为一恒定值(如1秒,5分钟,12小时,7天,1年),因此时间序列可以作为离散时间数据进行分析处理。
时间序列分析
用于分析时间序列数据的方法,以便提取有意义的统计数据和数据的其他特征。
时间序列预测
使用模型根据以前观察到的值来预测未来值。

2. 预测问题数学建模

2.3 时间序列分析

时间序列分析示例

  谢谢!

返回目录
返回首页