在第4章中,我们介绍了几种通过不同的特征选择技术对数据集进行降维的方法。另一种常用于降维的特征选择方法就是特征抽取。在本章中,读者将学习三种可以帮助我们归纳总结数据集内所蕴含信息的技术,它们都可以将原始数据集变换到一个维度更低的新的特征子空间。数据压缩也是机器学习领域中的一个重要内容,随着现代技术的发展,将会产生越来越多的数据,数据压缩技术可以帮助我们对数据进行存储和分析。本章将涵盖如下主题:
·无监督数据压缩——主成分分析(Principal Component Analysis,PCA)
·基于类别可分最大化的监督降维技术——线性判别分析(Linear Discriminant Analysis,LDA)
·通过核主成分分析(kernel principal component analysis)进行非线性降维