1. Getting Started with Regression#

1.1. 什么是线性回归#

线性样本回归分析:

\[ \hat{y_0} = a_i + b_ix \]

原则:残差平方和最小

怎么算 \(a_i\)\(b_i\)

\[\begin{split} \begin{cases} b=\frac {\sum_{i=1}^{n}(x-x_i)(y-y_i)} {\sum_{i=1}^{n}(x-\bar{x})^2} \\ a=\bar{y}-b\bar{x} \end{cases} \end{split}\]

1.2. 线性回归的残差与模型误差分析#

残差表示预测值与真实值的差值,有正负号,一般使用 \(\varepsilon\) 表示。

\[ y_i = ax_i + b + \varepsilon \]

\(\varepsilon\) 的值符合正态分布:\(\varepsilon \sim N(0, \sigma^2)\)

误差:

\[\begin{split} \begin{split} Y - \hat{Y} &= Y - \bar{Y} - \hat{Y} + \bar{Y} \\ &= (Y - \bar{Y}) - (\hat{Y} - \bar{Y}) \\ Y - \bar{Y} &= (Y-\hat{Y}) + (\hat{Y} - \bar{Y}) \end{split} \end{split}\]

其中 \(Y - \bar{Y}\) 称为总体差异,\(Y-\hat{Y}\) 称为随机变量,\(\hat{Y} - \bar{Y}\) 称为可以用自变量 x 进行解释的差异。

于是,我们有:

\[\begin{split} \begin{split} \sum{Y - \bar{Y}} &= \sum{Y-\hat{Y}} + \sum{\hat{Y}-\bar{Y}} \\ SST &= \ \ \ \ \ SSE \ \ \ \ \ + \ \ \ \ \ SSR \\ df = n-1 & \ \ \ \ \ df=n-2 \ \ \ \ \ \ \ \ df = 1 \end{split} \end{split}\]

并且有:

\[\begin{split} \begin{cases} MST &= \frac{SST}{df} \\ MSE &= \frac{SSE}{df} \\ MSR &= \frac{SSR}{df} \end{cases} \end{split}\]