认识

2025年02月06日

柏拉文

越努力，越幸运

一、认识

线性回归（Linear Regression） 是一种监督学习（Supervised Learning）的回归算法，主要用于预测数值型变量。它假设输入变量（自变量）和输出变量（因变量）之间是线性关系，并找到一条最优直线，使误差最小。

线性回归（Linear Regression） 公式直观，易于解释；适用于小型数据集；适用于线性关系的数据。无法拟合非线性关系，如果数据不是线性的，效果不好；对异常值敏感，极端值可能会影响回归线；特征工程要求高，需要手动选择和转换特征。

线性回归（Linear Regression） 是一种简单但强大的方法，适用于线性相关的数据建模。它的核心目标是找到最优的权重 $W$ 和偏置 $b$ ，使误差最小。当数据是非线性的，线性回归无法很好地拟合，需要使用神经网络、决策树等更复杂的模型。梯度下降是训练线性回归的重要方法，也用于更复杂的深度学习模型。

1.1 分类

一元线性回归（Simple Linear Regression）: 只有一个输入变量 $X$ ，如:

y = WX + b

示例：

预测房价（仅考虑房屋面积）: $房价=w×面积+𝑏$
预测考试分数（仅考虑学习时间）: $分数=w×学习时间+b$

多元线性回归（Multiple Linear Regression）: 有多个输入变量, 如:

y = w_1 x_1 + w_2 x_2 + \dots + w_n x_n + b

示例：

预测房价（考虑面积、房龄、地段等多个因素）： $房价=w_1×面积+w_2×房龄+w_3×地段+b$
预测销售额（考虑广告投放、季节、价格等因素）

1.2 数学公式

线性回归的目标是建立一个线性方程，表示输入 $X$ 与输出 $y$ 之间的关系：

y = WX + b

其中:

$X$ : 输入特征（可以是单个变量或多个变量）
$W$ : 权重（Weight），表示输入特征的影响程度
$b$ : 偏置（Bias），调整整体预测值的偏移
$y$ : 模型的预测输出

如果有多个输入变量（即 多元线性回归 ），公式扩展为：

y = w_1 x_1 + w_2 x_2 + \dots + w_n x_n + b

其中：

$x_1, x_2, \dots, x_n$ 是 $n$ 个输入变量
$w_1, w_2, \dots, w_n$ 是对应的权重
$b$ 是偏置项

1.3 核心思想

目标: 找到最优参数 $W$ 和 $b$ 。让预测值 $y$ 尽可能接近真实值 $y_{\text{true}}$ 。通过最小化 损失函数（Loss Function） 来优化参数

损失函数: 常用的损失函数是均方误差（MSE, Mean Squared Error）：

\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2

$y_i$ 是真实值
$\hat{y}_i$ 是预测值
$n$ 是样本数量

MSE 衡量预测值与真实值的偏差，值越小表示模型效果越好。

如何找到最优 $W$ 和 $b$ ?

正规方程（Normal Equation）：直接求解最优参数（适用于小规模数据）。在线性回归中，可以用正规方程直接计算最优解, 这种方法不需要梯度下降，但计算复杂度较高，适用于小规模数据集。
$W = (X^T X)^{-1} X^T y$
梯度下降（Gradient Descent）：通过计算损失函数对参数的梯度，不断调整 $W$ 和 $b$ 以最小化误差。梯度下降用于更新参数 $W$ 和 $b$ ，最小化误差：
$W := W - \alpha \frac{\partial}{\partial W} J(W)$ $b := b - \alpha \frac{\partial}{\partial b} J(W)$
其中：
- $\alpha$ 是 学习率（learning rate）
- $J(W)$ 是 损失函数

一、认识​

1.1 分类​

1.2 数学公式​

1.3 核心思想​

二、应用​

一、认识

1.1 分类

1.2 数学公式

1.3 核心思想

二、应用