记得在第4章中,我们需要将文本或者单词等分类数据转换为数值格式,以方便在机器学习算法中使用。在本节,我们将介绍词袋模型(bag-of-words model),它将文本以数值特征向量的形式来表示。词袋模型的理念很简单,可描述如下:
1)我们在整个文档集上为每个词汇创建了唯一的标记,例如单词。
2)我们为每个文档构建一个特征向量,其中包含每个单词在此文档中出现的次数。
由于每个文档中出现的单词数量只是整个词袋中单词总量很小的一个子集,因此特征向量中的大多数元素为零,这也是我们称之为稀疏(sparse)的原因。这些内容听起来过于抽象,不过毋庸担心,下面我们将逐步讲解创建简单词袋模型的过程。