BaconToast's Shop

机器学习ML：Exp4-cluster-dr-el

机器学习ML：Exp4-cluster-dr-el

BaconToast Lv3

2025-11-18 16:48:13 2025-11-18 16:48:13 Created 2025-11-18 16:50:30 2025-11-18 16:50:30 Updated

ML

ML

一、在K-means聚类实验中，初始聚类中心的选择对算法收敛性和聚类结果有重要影响。请说明K-means算法的基本原理和收敛条件，并分析随机初始化、K-means++初始化方法的优缺点。如何确定最优的聚类数量K？

（1）K-means算法的基本原理

目标：将数据集划分为K个簇，使得簇内样本的相似度最大，簇间样本的相似度最小。

算法流程：

初始化：选择K个初始聚类中心。
分配样本：将每个样本分配给最近的中心点。
更新中心：对每个簇，计算所有成员的均值作为新的中心。
重复：重复步骤2和3，直到聚类结果不再变化。

（2）K-means算法的收敛条件

K-means总是单调收敛于一个局部最优解，收敛条件如下：

聚类标签不再发生变化。
所有中心点的位置不再更新（或更新幅度小于某个阈值）。

从数学角度看，K-means等价于最小化目标函数：

其中表示第k个簇，是该簇的中心。

（3）初始化方法分析

随机初始化：随机从数据中选取K个点作为初始中心。
- 优点：简单，速度快。
- 缺点：对初始点敏感，容易陷入局部最优；不稳定，多次运行结构差异可能较大。
K-means++初始化：
- 从数据集中随机选一个点作为第一个中心。
- 对于每个剩余点，计算其与现有中心最小距离的平方，作为概率加权。
- 根据这些概率选择下一个中心。
- 重复直到选出K个初始中心。
- 优点：初始中心分布更合理，减少局部最优问题，提高收敛速度和最终聚类质量。
- 缺点：相比随机初始化稍慢。

（4）确定最优聚类数K

肘部法：绘制K值与总聚类误差（SSE）曲线；选择SSE开始减缓处的K。直观、常用。
轮廓系数：取值范围，越接近1，聚类越合理；对比多个K选择轮廓系数最大的那个。兼顾簇内紧凑型和簇间分离性。
间隙统计量：与随机数据集的聚类结果进行比较；当Gap值最大时，对应的K被认为是最优。理论支持更强，但计算复杂。

二、PCA（主成分分析）在数据降维中起到重要作用。请结合协方差矩阵和特征值分解，说明PCA的数学原理。在图像数据处理中，PCA降维后如何选择合适的主成分数量？

（1）PCA的数学原理

目标是通过线性变换，找出数据中最有代表性的方向（主成分），并在保留尽量多信息的同时降低维度。

数据中心化
设原始数据矩阵为，其中是样本数，是特征维度。首先对每一维特征做中心化处理（减去均值）：
构造协方差矩阵
协方差矩阵描述了各特征间的线性相关性：

它是一个对称正定矩阵。
特征值分解
对协方差矩阵进行特征值分解：

其中是由特征向量组成的正交矩阵，表示主成分方向；是特征值，对应每个主成分的方差大小（即信息量）。
投影变换
选取前k个最大特征值对应的特征向量，组成矩阵，则降维后的数据为：

此时原始d维数据变为k维，同时最大限度保留了原始数据的方差信息。

（2）图像数据中主成分数量的选择

累积方差贡献率
每个主成分解释的数据方差比例为：

累计贡献率：

选择使累计贡献率超过某个阈值（如95%）的最小k，即可达到较好压缩效果并保留足够信息。

三、请比较AdaBoost和随机森林两种集成学习方法的核心思想和实现机制。说明AdaBoost中样本权重更新的数学公式，以及随机森林中”随机”体现在哪些方面？两种方法分别如何解决过拟合问题？

（1）AdaBoost与随机森林核心思想对比

特点	AdaBoost	随机森林
集成方式	顺序加法模型	并行训练多个决策树
核心思想	关注难以分类的样本，不断调整样本权重	通过特征和样本的随机性，构建多样性模型
弱学习器	通常是浅层决策树	完整的决策树
投票机制	加权投票	多数投票/平均

（2）AdaBoost的样本权重更新公式

在第轮训练中：

给定样本权重。
训练弱分类器，计算加权错误率：
计算该分类器的权重（可信度）：
更新样本权重：

其中，是归一化因子，保证是概率分布；正确分类的样本权重减小，错误分类的样本权重增大。

（3）随机森林的随机性

样本随机性：对原始训练集采用有放回抽样（Bootstrap），每棵树训练集略有不同。
特征随机性：每个节点分裂时，不是考虑所有特征，而是从特征集中随机选取个特征寻找最佳分裂点。

（4）如何解决过拟合问题

AdaBoost：逐步聚焦难分类样本，可能对噪声敏感，但通过使用浅树（低方差）、较强的正则化可缓解。剪枝或控制迭代次数也有效。
随机森林：通过“投票/平均”减少单棵树的高方差。树的独立性由Bagging和特征子集增强，有效避免过拟合。

四、在聚类任务评估中，由于缺乏真实标签，需要使用无监督评估指标。请说明轮廓系数（Silhouette Coefficient）和Davies-Bouldin指数的定义和计算方法，并解释它们如何衡量聚类质量。当这两个指标出现冲突时（一个高一个低），应该如何判断聚类效果？

（1）轮廓系数

定义：衡量单个样本的聚类合理性，综合考虑簇内紧密度和簇间分离度。对于每个样本：
- ：样本到本簇内其他样本的平均距离（簇内距离）。
- ：样本到最近的其他簇的平均距离（最近邻簇间距）。
  轮廓系数公式：
- ：聚类合理，样本距离本簇近，离其他簇远。
- ：样本位于边界附近。
- ：样本可能被错误分簇。
全体轮廓系数：全体数据集的轮廓系数（所有样本的均值）。越大越好，接近1表示较好聚类质量。

（2）DB指数

定义：衡量聚类结果中每个簇的“紧密度”与“分离度”，即簇内方差与簇间距离的比值。
设有k个簇，每个簇的：
- ：簇内样本到簇中心的平均距离。
- ：簇和簇之间的距离（两个中心点的欧氏距离）。
  对任意两个不同簇，定义：
  
  每个簇对应一个最大值：
  
  最终DB指数为：
  
  越小越好，表示簇之间分离更清晰、簇内更紧凑。

（3）冲突情况分析

可能原因：

数据分布不均匀/簇形状不规则：轮廓系数更关注样本本地结构，DB更全局。
某些小簇非常紧密但靠得很近：轮廓系数好，DB由于小而偏高。
部分簇内部较松但远离其他簇：DB好，轮廓系数可能较低。

五、在本次实验中涉及了监督学习（AdaBoost、随机森林）和无监督学习（K-means、PCA）方法。请选择其中一种监督学习和一种无监督学习方法，分析它们在处理高维数据时面临的挑战（如维度灾难），并说明如何通过特征选择、特征工程或算法改进来解决这些问题。

（1）监督学习法：AdaBoost

面临的挑战：维度灾难
- 噪声特征干扰强：高维数据中可能包含大量无关或冗余特征，容易使弱学习器学到错误模式。
- 计算复杂度增加：随着特征数增加，训练时间和模型复杂度迅速上升。
- 过拟合风险上升：反复拟合残差，高维下容易对噪声点过度学习。
应对策略：
- 特征选择：使用过滤法、包装法或嵌入式方法剔除无关特征。
- 特征提取：使用PCA或LDA将高维空间压缩为低维特征子空间。

（2）无监督学习法：PCA

面临的挑战：
- 计算复杂度高：需要对的协方差矩阵进行特征值分解，当很大时计算量巨大。
- 样本数量不足：高维小样本情况下（），协方差矩阵不稳定，主成分方向可能不准确，导致降维效果差。
- 信息损失风险：若特征空间中重要信息在多维上分散，PCA线性降维可能丢失非线性关系中的有用信息。
应对策略：
- 样本预处理：对数据进行归一化或标准化，消除尺度影响。
- 采用算法变体：
  - 稀疏PCA：引入稀疏性约束，使主成分只与少数原始特征相关。
  - 核PCA (Kernel PCA)：通过核技巧处理非线性数据。
- 选择合理的主成分数量：通过累积方差贡献率等方法，平衡降维程度和信息保留量。

Title: 机器学习ML：Exp4-cluster-dr-el
Author: BaconToast
Created at : 2025-11-18 16:48:13
Updated at : 2025-11-18 16:50:30
Link: https://bacontoast-pro.github.io/2025/11/18/ml/exp4/
License: This work is licensed under CC BY-NC-SA 4.0.

#ML

Comments

On this page

机器学习ML：Exp4-cluster-dr-el

一、在K-means聚类实验中，初始聚类中心的选择对算法收敛性和聚类结果有重要影响。请说明K-means算法的基本原理和收敛条件，并分析随机初始化、K-means++初始化方法的优缺点。如何确定最优的聚类数量K？
二、PCA（主成分分析）在数据降维中起到重要作用。请结合协方差矩阵和特征值分解，说明PCA的数学原理。在图像数据处理中，PCA降维后如何选择合适的主成分数量？
1. （1）PCA的数学原理
2. （2）图像数据中主成分数量的选择
三、请比较AdaBoost和随机森林两种集成学习方法的核心思想和实现机制。说明AdaBoost中样本权重更新的数学公式，以及随机森林中”随机”体现在哪些方面？两种方法分别如何解决过拟合问题？
四、在聚类任务评估中，由于缺乏真实标签，需要使用无监督评估指标。请说明轮廓系数（Silhouette Coefficient）和Davies-Bouldin指数的定义和计算方法，并解释它们如何衡量聚类质量。当这两个指标出现冲突时（一个高一个低），应该如何判断聚类效果？
五、在本次实验中涉及了监督学习（AdaBoost、随机森林）和无监督学习（K-means、PCA）方法。请选择其中一种监督学习和一种无监督学习方法，分析它们在处理高维数据时面临的挑战（如维度灾难），并说明如何通过特征选择、特征工程或算法改进来解决这些问题。
1. （1）监督学习法：AdaBoost
2. （2）无监督学习法：PCA