本节中讨论的评分标准都是基于二类别分类系统的。不过,scikit-learn实现了macro(宏)及micro(微)均值方法,旨在通过一对多(One vs All,OvA)的方式将评分标准扩展到了多类别分类问题。微均值是通过系统的真正、真负、假正,以及假负来计算的。例如,k类分类系统的准确率评分的微均值可按如下公式进行计算:
宏均值仅计算不同系统的平均分值:
当我们等同看待每个实例或每次预测时,微均值是有用的,而宏均值则是我们等同看待各个类别,将其用于评估分类器针对最频繁类标(即样本数量最多的类)的整体性能。
如果我们使用别二类别分类性能指标来衡量scikit-learn中的多类别分类模型,会默认使用一个归一化项或者是宏均值的一个加权变种。计算加权宏均值时,各类别以类内实例的数量作为评分的权值。当数据中类中样本分布不均衡时,也就是类标数量不一致时,采用加权宏均值比较有效。
由于加权宏均值是scikit-learn中多类别问题的默认值,我们可以通过sklearn.metrics模块导入其他不同的评分函数,如precision_score或make_scorer函数等,并利用函数内置的avarage参数定义平均方法: