pluaron
2024-05-30

回归模型评价

回归模型评价

回归模型的评价指标:MSE、RMSE、RMSLE、$R^2$。

MSE (Mean Square Error)均方误差

MSE是真实值和预测值的差值平方后求平均值,常被用作线性回归的损失函数。

$$
MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
$$

RMSE (Root Mean Square Error) 均方根误差

RMSE是MSE值的开方,衡量观察值和真实值之间的偏差,常用作机器学习模型预测结果的衡量标准。

$$
RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}
$$

RMSE值的阈值:

- RMSE值越小,预测模型准确度越高
- RMSE值低于数据标准差10%,则可被认为是一种较好的预测模型
- RMSE在数据集是正态分布的情况下,则是一个合适的评价标准;RMSE在数据集中离群点较多或者存在其他异常情况下,则不太合适

MAE (Mean Absolute Error) 平均绝对误差

MAE是绝对误差的平均值,反映预测值误差的实际情况。

$$
MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|
$$

RMSLE (Root Mean Squared Logarithmic Error) 均方根对数误差

RMSLE关注相对误差:

- 对数误差能降低数值较大的目标变量的影响,使得评估过程更关注相对误差
- 平方根误差可以放大小误差,更有助于模型拟合数据
- 对数均方根误差不适用于目标变量存在负值的情况

$$
RMSLE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} \left( \log(\hat{y}_i + 1) - \log(y_i + 1) \right)^2}
$$

$R^2$ 可决系数

$R^2$是拟合优度,反映的是自变量X对因变量y的变动的解释程度,越接近于1,说明模型拟合越好。

$$
R^2 = 1 - \frac{SS_{res}}{SS_{tot}}
$$

$SS_{res}$是残差平方和,衡量了观测值与模型预测值之间的偏差

$$
SS_{res} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
$$

$SS_{tot}$是总平方和,衡量了因变量的总方差。

$$
SS_{tot} = \sum_{i=1}^{n} (y_i - \bar{y})^2
$$