认识
一、认识
线性回归(Linear Regression
) 是一种监督学习(Supervised Learning
)的回归算法,主要用于预测数值型变量。它假设输入变量(自变量)和输出变量(因变量)之间是线性关系,并找到一条最优直线,使误差最小。
线性回归(Linear Regression
) 公式直观,易于解释;适用于小型数据集;适用于线性关系的数据。无法拟合非线性关系,如果数据不是线性的,效果不好;对异常值敏感,极端值可能会影响回归线;特征工程要求高,需要手动选择和转换特征。
线性回归(Linear Regression
) 是一种简单但强大的方法,适用于线性相关的数据建模。它的核心目标是找到最优的权重 和偏置 ,使误差最小。当数据是非线性的,线性回归无法很好地拟合,需要使用神经网络、决策树等更复杂的模型。梯度下降是训练线性回归的重要方法,也用于更复杂的深度学习模型。
1.1 分类
一元线性回归(Simple Linear Regression
): 只有一个输入变量 , 如:
示例:
-
预测房价(仅考虑房屋面积):
-
预测考试分数(仅考虑学习时间):
多元线性回归(Multiple Linear Regression
): 有多个输入变量, 如:
示例:
-
预测房价(考虑面积、房龄、地段等多个因素):
-
预测销售额(考虑广告投放、季节、价格等因素)
1.2 数学公式
线性回归的目标是建立一个线性方程,表示输入 与输出 之间的关系:
其中:
-
: 输入特征(可以是单个变量或多个变量)
-
: 权重(
Weight
),表示输入特征的影响程度 -
: 偏置(
Bias
),调整整体预测值的偏移 -
: 模型的预测输出
如果有多个输入变量(即 多元线性回归 ),公式扩展为:
其中:
- 是 个输入变量
- 是对应的权重
- 是偏置项
1.3 核心思想
目标: 找到最优参数 和 。让预测值 尽可能接近真实值 。通过最小化 损失函数(Loss Function
) 来优化参数
损失函数: 常用的损失函数是均方误差(MSE
, Mean Squared Error
):
- 是真实值
- 是预测值
- 是样本数量
MSE
衡量预测值与真实值的偏差,值越小表示模型效果越好。
如何找到最优和?
-
正规方程(
Normal Equation
):直接求解最优参数(适用于小规模数据)。在线性回归中,可以用正规方程直接计算最优解, 这种方法不需要梯度下降,但计算复杂度较高,适用于小规模数据集。 -
梯度下降(
Gradient Descent
):通过计算损失函数对参数的梯度,不断调整 和 以最小化误差。梯度下降用于更新参数 和 ,最小化误差:其中:
-
是 学习率(
learning rate
) -
是 损失函数
-