本章开始,我们学习了如何使用简单回归模型对单个解释变量和连续目标变量之间的关系进行建模。进而,我们讨论了一种用于了解数据中模式与异常点的解释性数据分析技术,这是预测模型构建中重要的一步。
基于梯度优化的方法,我们构建并实现了第1个线性回归模型。我们学习了如何使用scikit-learn中的线性回归模型,并且针对异常值的处理实现了一个鲁棒的线性回归模型(RANSAC)。为了更深入了解回归模型的预测性能,我们计算了误差平方和的平均值,以及R2等衡量标准。此外,我们还讨论了一种诊断回归模型中所存在问题的图像化方法:残差图。
之后,我们讨论了如何将正则化方法应用于回归模型,以降低模型复杂度及避免过拟合,此外还介绍了非线性关系建模的几种方法,包括多项式特征转换和随机森林回归。
在前面的章节中,我们详细介绍了监督学习、分类以及回归分析的相关内容。下一章中,我们将讨论机器学习的另一个有趣的子领域:无监督学习。届时,读者将学到如何使用聚类分析在无目标变量的情况下挖掘数据中的潜在结构。