集成学习_task4

分类是监督学习的一个核心问题,在机器学习中,最常见的问题就是分类(classification)问题,所谓的分类问题,就比如我们用机器学习算法,将病人的检查结果分为有病和健康,是一个医学方面的二分类问题(将要区分的数据分为两个类别)。再例如在电子邮箱中,收到邮件之后,电子邮箱会将我们的邮件分为广告邮件,垃圾邮件和正常邮件,这就是一个多分类的问题(将要区分的数据分为多个类别)。

为什么我们着重的介绍分类的问题呢?在机器学习中,分类问题是基础,其它很多的应用都可以从分类的问题演变而来,同时很多问题也可以转化为分类的问题,比如图像中的图像分割,最简单的实现方法就是对每一个像素进行分类,在自然场景的分割中,我们判断这个像素点是不是房子的一部分,如果是的话,那么其标签就是房子。

在机器学习中,我们把能完成分类任务的算法称之为分类器(classifier)。评价一个分类器的好坏,最常见的指标就是准确率(accuracy),准确率是指被分类器分类数据正确占所有分类数据的百分比。

对于二分类问题而言,最常用的评价指标是精确率(precision)与召回率(recall),通常以关注的类为正类,其他类为负类。以分类器在测试数据集上的预测或者不正确,我们分为下面4种情况:

TP——将正类预测为正类数;

FN——将正类预测为负类数;

FP——将负类预测为正类数;

TN——将负类预测为负类数

精确率和召回率都高时,F值也会高.

举一个分类的例子——文本分类,这里的文本可以是新闻文本、网页、论文、记事本等等,类别往往都是关于文本内容的,例如政治、体育、娱乐等;也有关于文本特点的,比如正面教材、反面教材。还可以根据应用确定,如垃圾邮件、重要邮件。文本分类是根据文本的特征将其划分到已有的类种,输入是文本的特征向量,输出是文本的类别。通常把文本中的单词定义为特征,每个单词对应一个特征。单词的特征可以是二值的,如果单词在文本中出现则我们把值定为1,否则就是0;当然也可以是多值的,表示单词在文本中出现的频率。直观地说,如果“球鞋”,“扣篮“,”走步“等单词出现的频率高,那么我们可以把这个文本划分为体育类,如果”货币“、”通货膨胀“等词语出现的多,那么这个文本可能就是属于经济类。