Skip to content

一、什么是降维?

数据降维是指通过线性或非线性映射将高维空间中的原始数据投影到低维空间,并且这种低维表示对原始数据密切相关,仍能能反映高维数据的规律。

二、为什么要降维?

直观的好处就是维度降低了,便于计算和可视化。其本质就是 对有效信息的提取综合 以及 对无效信息的摒弃,并且数据降维保留了原始数据的信息,我们可以利用降维后的数据进行机器学习模型的训练和预测,有效地提高了模型训练和预测的效率

三、常用的降维方法

分类:根据数据的特性可以划分为线性降维和非线性降维;根据是否考虑和利用数据的监督信息可以划分为无监督降维、有监督降维和半监督降维;根据保持数据的结构可以分为全局保持降维、局部保持降维和全局与局部保持一致降维等。需要根据特定的问题选择合适的数据降维方法。

对于线性和非线性降维,非线性降维又可以分为基于核函数基于特征值的方法(流形学习),代表算法:

  • 线性降维算法:PCA、ICA、LDA、LFA
  • 基于核函数的非线性降维算法:KPCA、KFDA
  • 流形学习:ISOMAP、LLE、LE、LPP