机器学习和预测分析正在改变商业和其他组织的运作模式。由塞巴斯蒂安拉什卡著的《Python机器学习》将带你进入预测分析的世界,通过演示告诉你为什么Python是世界顶尖的数据科学语言之一。如果你想询问更深入的数据问题,或是想增进、拓展机器学习系统的能力,这本实用的书籍可谓是无价之宝。书中涵盖了包括scikit-learn、Theano和Keras在内的大量功能强大的Python库、操作指南以及从情感分析到神经网络的各色小技巧,很快你就能够解答你个人及组织所面对的那些最重要的问题。
塞巴斯蒂安·拉什卡《python机器学习》全部章节列表
- 前言
- 第1章 赋予计算机学习数据的能力
- 1.1 构建智能机器将数据转化为知识
- 1.2 机器学习的三种不同方法
- 1.2.1 通过监督学习对未来事件进行预测
- 1.2.2 通过强化学习解决交互式问题
- 1.2.3 通过无监督学习发现数据本身潜在的结构
- 1.2.4 基本术语及符号介绍
- 1.3 构建机器学习系统的蓝图
- 1.3.1 数据预处理
- 1.3.2 选择预测模型类型并进行训练
- 1.3.3 模型验证与使用未知数据进行预测
- 1.4 Python在机器学习中的应用
- 本章小结
- 第2章 机器学习分类算法
- 2.1 人造神经元早期机器学习概览
- 2.2 使用Python实现感知器学习算法
- 2.3 自适应线性神经元及其学习的收敛性
- 2.3.1 通过梯度下降最小化代价函数
- 2.3.2 使用Python实现自适应线性神经元
- 2.3.3 大规模机器学习与随机梯度下降
- 本章小结
- 第3章 使用scikit-learn实现机器学习分类算法
- 3.1 分类算法的选择
- 3.2 初涉scikit-learn的使用
- 3.3 逻辑斯谛回归中的类别概率
- 3.3.1 初识逻辑斯谛回归与条件概率
- 3.3.2 通过逻辑斯谛回归模型的代价函数获得权重
- 3.3.3 使用scikit-learn训练逻辑斯谛回归模型
- 3.3.4 通过正则化解决过拟合问题
- 3.4 使用支持向量机最大化分类间隔
- 3.4.1 对分类间隔最大化的直观认识
- 3.4.2 使用松弛变量解决非线性可分问题
- 3.4.3 使用scikit-learn实现SVM
- 3.5 使用核SVM解决非线性问题
- 3.6 决策树
- 3.6.1 最大化信息增益获知尽可能准确的结果
- 3.6.2 构建决策树
- 3.6.3 通过随机森林将弱分类器集成为强分类器
- 3.7 惰性学习算法k-近邻算法
- 本章小结
- 第4章 数据预处理构建好的训练数据集
- 4.1 缺失数据的处理
- 4.1.1 将存在缺失值的特征或样本删除
- 4.1.2 缺失数据填充
- 4.1.3 理解scikit-learn预估器的API
- 4.2 处理类别数据
- 4.2.1 有序特征的映射
- 4.2.2 类标的编码
- 4.2.3 标称特征上的独热编码
- 4.3 将数据集划分为训练数据集和测试数据集
- 4.4 将特征的值缩放到相同的区间
- 4.5 选择有意义的特征
- 4.5.1 使用L1正则化满足数据稀疏化
- 4.5.2 序列特征选择算法
- 4.6 通过随机森林判定特征的重要性
- 本章小结
- 第5章 通过降维压缩数据
- 5.1 无监督数据降维技术主成分分析
- 5.1.1 总体方差与贡献方差
- 5.1.2 特征转换
- 5.1.3 使用scikit-learn进行主成分分析
- 5.2 通过线性判别分析压缩无监督数据
- 5.2.1 计算散布矩阵
- 5.2.2 在新特征子空间上选取线性判别算法
- 5.2.3 将样本映射到新的特征空间
- 5.2.4 使用scikit-learn进行LDA分析
- 5.3 使用核主成分分析进行非线性映射
- 5.3.1 核函数与核技巧
- 5.3.2 使用Python实现核主成分分析
- 5.3.3 映射新的数据点
- 5.3.4 scikit-learn中的核主成分分析
- 本章小结
- 第6章 模型评估与参数调优实战
- 6.1 基于流水线的工作流
- 6.1.1 加载威斯康星乳腺癌数据集
- 6.1.2 在流水线中集成数据转换及评估操作
- 6.2 使用k折交叉验证评估模型性能
- 6.2.1 holdout方法
- 6.2.2 k折交叉验证
- 6.3 通过学习及验证曲线来调试算法
- 6.3.1 使用学习曲线判定偏差和方差问题
- 6.3.2 通过验证曲线来判定过拟合与欠拟合
- 6.4 使用网格搜索调优机器学习模型
- 6.4.1 使用网络搜索调优超参
- 6.4.2 通过嵌套交叉验证选择算法
- 6.5 了解不同的性能评价指标
- 6.5.1 读取混淆矩阵
- 6.5.2 优化分类模型的准确率和召回率
- 6.5.3 绘制ROC曲线
- 6.5.4 多类别分类的评价标准
- 本章小结
- 第7章 集成学习组合不同的模型
- 7.1 集成学习
- 7.2 实现一个简单的多数投票分类器
- 7.3 评估与调优集成分类器
- 7.4 bagging通过bootstrap样本构建集成分类器
- 7.5 通过自适应boosting提高弱学习机的性能
- 本章小结
- 第8章 使用机器学习进行情感分析
- 8.1 获取IMDb电影评论数据集
- 8.2 词袋模型简介
- 8.2.1 将单词转换为特征向量
- 8.2.2 通过词频-逆文档频率计算单词关联度
- 8.2.3 清洗文本数据
- 8.2.4 标记文档
- 8.3 训练用于文档分类的逻辑斯谛回归模型
- 8.4 使用大数据在线算法与外存学习
- 本章小结
- 第9章 在Web应用中嵌入机器学习模型
- 9.1 序列化通过scikit-learn拟合的模型
- 9.2 使用SQLite数据库存储数据
- 9.3 使用Flask开发Web应用
- 9.3.1 第一个Flask Web应用
- 9.3.2 表单验证及渲染
- 9.4 将电影分类器嵌入Web应用
- 9.5 在公共服务器上部署Web应用
- 本章小结
- 第10章 使用回归分析预测连续型目标变量
- 10.1 简单线性回归模型初探
- 10.2 波士顿房屋数据集
- 10.3 基于最小二乘法构建线性回归模型
- 10.3.1 通过梯度下降计算回归参数
- 10.3.2 使用scikit-learn估计回归模型的系数
- 10.4 使用RANSAC拟合高鲁棒性回归模型
- 10.5 线性回归模型性能的评估
- 10.6 回归中的正则化方法
- 10.7 线性回归模型的曲线化-多项式回归
- 10.7.1 房屋数据集中的非线性关系建模
- 10.7.2 使用随机森林处理非线性关系
- 本章小结
- 第11章 聚类分析处理无类标数据
- 11.1 使用k-means算法对相似对象进行分组
- 11.1.1 k-means++
- 11.1.2 硬聚类与软聚类
- 11.1.3 使用肘方法确定簇的最佳数量
- 11.1.4 通过轮廓图定量分析聚类质量
- 11.2 层次聚类
- 11.2.1 基于距离矩阵进行层次聚类
- 11.2.2 树状图与热度图的关联
- 11.2.3 通过scikit-learn进行凝聚聚类
- 11.3 使用DBSCAN划分高密度区域
- 本章小结
- 第12章 使用人工神经网络识别图像
- 12.1 使用人工神经网络对复杂函数建模
- 12.1.1 单层神经网络回顾
- 12.1.2 多层神经网络架构简介
- 12.1.3 通过正向传播构造神经网络
- 12.2 手写数字的识别
- 12.2.1 获取MNIST数据集
- 12.2.2 实现一个多层感知器
- 12.3 人工神经网络的训练
- 12.3.1 计算逻辑斯谛代价函数
- 12.3.2 通过反向传播训练神经网络
- 12.4 建立对反向传播的直观认识
- 12.5 通过梯度检验调试神经网络
- 12.6 神经网络的收敛性
- 12.7 其他神经网络架构
- 12.7.1 卷积神经网络
- 12.7.2 循环神经网络
- 12.8 关于神经网络的实现
- 本章小结
- 第13章 使用Theano并行训练神经网络
- 13.1 使用Theano构建、编译并运行表达式
- 13.1.1 什么是Theano
- 13.1.2 初探Theano
- 13.1.3 配置Theano
- 13.1.4 使用数组结构
- 13.1.5 整理思路线性回归示例
- 13.2 为前馈神经网络选择激励函数
- 13.2.1 逻辑斯谛函数概述
- 13.2.2 通过softmax函数评估多类别分类任务中的类别概率
- 13.2.3 通过双曲正切函数增大输出范围
- 13.3 使用Keras提高训练神经网络的效率
- 本章小结