简单(单变量)线性回归的目标是:通过模型来描述某一特征(解释变量x)与连续输出(目标变量y)之间的关系。当只有一个解释变量时,线性模型的函数定义如下:
y=w0+w1x
其中,权值w0为函数在y轴上的截距,w1为解释变量的系数。我们的目标是通过学习得到线性方程的这两个权值,并用它们描述解释变量与目标变量之间的关系,当解释变量为非训练数据集中数据时,可用此线性关系来预测对应的输出。
基于前面所定义的线性方程,线性回归可看作是求解样本点的最佳拟合直线,如下图所示。
这条最佳拟合线也被称为回归线(regression line),回归线与样本点之间的垂直连线即所谓的偏移(offset)或残差(residual)——预测的误差。
在只有一个解释变量的特殊情况下,线性回归也称为简单线性回归(simple linear regression),当然,我们可以将线性回归模型扩展为多个解释变量。此时,即为所谓的多元线性回归(multiple linear regression):
其中,w0为x0=1时在y轴上的截距。