Powered by GitBook

一元线性回归

1. 模型定义

设观察样本: $(x_1,y_1),(x_2,y_2),...,(x_n,y_n)$

设模型，由两部分组成，一部分是线性变换部分： $\beta_0+\beta_1x_1$ ,一部分是随机变量影响部分 $\varepsilon$ ，其中 $\varepsilon$ 是不可以观察的随机变量，满足正态分布: $\varepsilon_i -N(0,\sigma^2)$

$y_i=\beta_0+\beta_1 x_i+\varepsilon_i$

其中： $\varepsilon_i$ 是随机误差，满足：正态分布: $\varepsilon_i -N(0,\sigma^2)$

$\varepsilon_i$ 独立同分布

$E(y_i)=\beta_0+\beta_1 x_i$

从平均意义上。描述了 $(x_i,y_i)$ 的关系

2. 损失函数的定义

观察样本： $(x_i,y_i)$
线性模型： $h_{\theta}(x)=\sum\limits_{i=0}^m \theta_i x_i=\theta^T x$
观察值： $y_i=\beta_0+\beta_1 x_i+\varepsilon_i$
特征预测值和观察值有误差 $\varepsilon_i \ \$ ， $y_i=\theta^T x_i+\varepsilon_i$

目标函数： $J(\theta)=\frac{1}{2}\sum\limits_{i=0}^m (h_{\theta}(x^{(i)}-y^{(i)}))^2$

3. 为什么线性回归的损失函数是平方损失函数

使用了最小二乘的思想：使用平方来度量观察点和估计点的距离，然后其和最小。
线性回归中最小二乘使用平方误差损失函数，在误差 $\ \varepsilon$

* 进一步的解释

设观察值和实际值的误差

$\varepsilon_i=y_i-\hat{y}_i$

设 $\varepsilon$ 服从正态分布

* 求解参数 $(u,\sigma^2)$ 的最大似然估计

4. 最小二乘法

最小二乘法是数据拟合方法；
最小二乘解不是统计推断方法
在误差随机变量满足高斯-马尔科夫，最小二乘解释统计解，且和最大似然解等价

* 高斯-马尔科夫

$E(\varepsilon_i) = 0$
$cov(\varepsilon_i,\varepsilon_j)=\left\{ \begin{aligned} \sigma^2 & & i=j \\ 0 & & i \neq j \\ \end{aligned} \right.$
高斯-马尔科夫条件：误差向量的各个独立同分布的高斯随机变量均具有零均值和相同方差

当 $\varepsilon$ 满足高斯-马尔科夫条件； $\hat{\beta_0},\hat{\beta_1}$ 是 $\beta_0,beta_1$ 的最佳线性无偏估计(blue)-统计解

* 最小二乘

最大似然解是统计解
在随机误差满足（高斯-马尔克夫条件）下，即误差向量是零均值的高斯随机向量，且元素具有相同的方差，
此时，最小二乘解和最大似然解，等价
最小二乘解是最优解

* 公式

http://blog.csdn.net/mijian1207mijian/article/details/49964873

* 白话解释

对于给定的数据集，
我们假设 $y_i$ 满足，设模型由两部分组成，一部分是线性变换部分： $\beta_0+\beta_1x_1$ ,一部分是随机变量影响部分 $\varepsilon$ ，
其中 $\varepsilon$ 是不可以观察的随机变量
假设随机误差变量满足，满足正态分布: $\varepsilon_i -N(0,\sigma^2)$
上述假设，在平均意义下是满足线性关系：* $E(y_i)=\beta_0+\beta_1 x_i$

* 进一步解释

我们假设线性模型： $h_{\theta}(x)=\sum\limits_{i=0}^m \theta_i x_i=\theta^T x$
我们使用上述的线性部分，来近似 $y_i$ 的真实值，也就是求解系数来近似真实值

* 目标函数
如何近似？使用目标函数 $J(\theta)=\frac{1}{2}\sum\limits_{i=0}^m (h_{\theta}(x^{(i)}-y^{(i)}))^2$
使用目标函数来度量，近似的程度

* 如何计算

使用最小二乘的方法来学习
注意无法直接使用解析解来求解，因为有矩阵的逆，计算太复杂
使用最优化的方向，使用一系统的优化序列，来寻找最优的解

results matching ""

No results matching ""