在本章中,我们学到了许多不同的机器学习算法,可用于处理线性或者非线性问题。如果关注算法的可解释性,那么决策树是一种特别具有吸引力的算法。逻辑斯谛回归不仅是可以通过梯度下降进行优化的一种有用的在线学习方法,而且可以给出待预测问题可能发生的概率。虽然支持向量机是一种强大的线性模型,而且可以通过核技巧扩展到非线性问题,但是为了达到好的预测效果,它需要调整众多的参数。而集成方法(如随机森林)不需要调整众多的参数且不像决策树那样容易产生过拟合现象,因此在解决实际问题中成为常用的一个模型。作为惰性学习算法,k-近邻算法使得我们在分类领域可以尝试另外一种方式,它不是通过训练模型来进行预测,而更多的是通过计算来完成。
但是,比选择合适的学习算法更重要的是:训练数据集中有什么样的可用数据。任何算法都无法使用缺乏翔实、无歧义的特征而获得好的预测结果。
在下一章,我们将讨论数据预处理、特征选择,以及降维等相关的重要内容,这些都是构建优秀的机器学习模型所必需的。在后续的第6章中,我们将学到如何评估及比较模型的性能,并学习一些有用的、微调不同算法的技巧。