机器学习ML：Exp1-Linear-Regression

一、实验过程中，是否对输入数据进行了归一化或标准化处理？试说明这两种方法的区别，并分析为什么线性回归模型可能对特征的尺度敏感。

对输入数据的 X_train 和 X_test 使用 StandardScaler 进行标准化。

归一化（MinMaxScaler）：是将数据缩放到一个固定范围（通常是或[-1,1]），公式为。因为依赖最大值和最小值，所以对异常值敏感，适用于数据分布不固定或需要严格限定范围的场景如图像处理。
标准化（StandardScaler）：是将数据转换为均值为0、标准差为1的分布，公式为。保留了异常值的影响但减弱其主导作用，适用于大多数机器学习模型。

线性回归模型的目标是找到特征权重，使得预测值和真实值之间的误差最小化。

因此，使用标准化统一特征尺度，使模型训练更加高效可靠。

线性回归模型的目标函数是最小化平方误差损失：

表示为矩阵形式：

其中是的设计矩阵（为特征维度），是的目标向量，是的待求参数向量。

展开目标函数：

对w求导：利用矩阵微分规则，求导并令导数为零

解得解析解：整理方程为

若可逆，则参数解为

优势：
- 直接通过矩阵运算得到全局最优解，是一个精确解，无需迭代。
- 不需要调参（学习率、迭代次数等超参数）。
- 特征维度较小时（如本实验D=3，时间、历史收盘价、波动），计算速度快。
劣势：
- 如果接近奇异矩阵（特征之间存在强相关性），会求逆失败或结果不正确。
- 如果特征维度极大，计算复杂度很高，效率急剧下降。

优势：
- 每次迭代仅需部分数据（小批量梯度下降），内存占用低。
- 无需矩阵求逆，适合存在共线性的场景。
- 可逐步更新参数，适应数据动态变化（实时股票数据流）。
劣势：
- 需要调参，参数选择不当会导致收敛慢或震荡。
- 需要迭代足够次数才能逼近最优解，是一个近似解，对初始值敏感。
- 对高维小样本数据效率低于解析解。

模型拟合极差：如果时间序列数据没有合理划分数据集，可能会过拟合/欠拟合。
数据预处理错误：测试集的信息（未来股价）泄漏到训练集会导致模型在测试集上表现差；如果没有对训练集和测试集统一使用训练集的均值和标准差，可能会破坏数据分布的一致性。
基准模型选择问题：定义混淆，计算时公式写错。