首页 » python机器学习 » python机器学习全文在线阅读

《python机器学习》1.3.1 数据预处理

关灯直达底部

为了尽可能发挥机器学习算法的性能,往往对原始数据的格式等有一些特定的要求,但原始数据很少能达到此标准。因此,数据预处理是机器学习应用过程中必不可少的重要步骤之一。以前面提及的鸢尾花数据集为例,我们可以将花朵的图像看作原始数据,从中提取有用的特征。有效的特征可以是花的颜色、饱和度、色彩强度,花朵的整体长度,以及花冠的长度和宽度等。许多机器学习算法为达到性能最优的目的,将属性值映射到[0,1]区间,或者使其满足方差为1、为值为0的标准正态分布,从而使得提取出的特征具有相同的度量标准。我们将在后续章节中对此做进一步的讨论。

某些属性间可能存在较高的关联,因此存在一定的数据冗余。在此情况下,使用数据降维技术将数据压缩到相对低维度的子空间是非常有用的。数据降维不仅能够使得所需的存储空间更小,而且还能够使学习算法运行得更快。

为了保证算法不仅在训练数据集上有效,同时还能很好地应用于新数据,我们通常会随机地将数据集划分为训练数据集和测试数据集。我们使用训练数据集来训练及优化我们的机器学习模型,在完成后,使用测试数据集对最终的模型进行评估。