随机森林
随机森林
。k)定义:随机森林是一个分类器,它有一系列的单株树决策器{h(x,,;k=1,......}
来组成,其中{。k}是独立同分布的随机变量。再输入x时,每一棵树只投一票给它认为最合适的类。在机器学习中,随机森林是一个包含多个决策树的分类器,
并且其输出的类别是由个别树输出的类别的众数而定,构成随机森林的基础分类器称为决策树。leobreiman和adelecutler发展出推论出随机森林的算法。这个术语是1995年由贝尔实验室的tinkamho所提出的随机决策森林(randomdecisionforests)而来的。这个方法则是结合breimans的\想法和ho的\以建造决策树的集合。随机森林是一个组合分类器,构成随机森林的基础分类器是决策树。决策树算法
决策树可以视为一个树状预测模型,它是由结点和有向边组成的层次结构。树中包含3个节点:根节点。内部节点,终节点(叶子节点)。决策树只有一个根节点,是全体训练集的结合。树中的每个内部节点都是一个分裂问题,它将到达该节点的样本按某个特定的属性进行分割,可以将数据集合分割成2块或若干块。每个终结点(叶子节点)是带有分裂标签的数据集合,从决策树的根节点到叶子节点的每一条路径都形成一个类;决策树的算法很多,例如id3算法,cart算法等。这些算法均采用自上而下的贪婪的算法,每个内部节点选择分类效果最好的属性进行分裂节点,可以分为两个或若干个子节点,继续此过程到这可决策树能够将全部训练数据准确的分类,或所有属性都被用到为止。具体步骤如下:1)假设t为训练样本集。
2)选择一个最能区分t中样本的一个属性。
3)创建一个数的节点,它的值是所选择的属性,创建此节点的子节点,每个子链代表所选属性的唯一值,适用子链的值进一步将样本细分为子类。对于3)创建的三个子类
(1)如果子类的样本满足预定义的标准,或者树的这条路的剩余可选属性集为空,为沿此路径的新的样本指定类别。
(2)如果子类不满足于定义的标准,或者至少有一个属性能细分树的路径,设t为当前子类样本的集合,返回步骤2),以下简单的给出二分树的结构图示:根节点规则1中间节点叶节点规则2叶节点中间节点
建树算法在属性的选择标准非常重要。属性的选择的方法有很多种,例如信息增益(informationgain)、信息增益比(informationgainratio)gini指标(giniindex)等方法。
id3算法依据信息增益来选择属性。信息增益是在熵作为尺度的,是衡量属性对训练数据的分类的能力的标准。cart算法是利用gini指标作为尺度来分裂属性的。gini指标适用于二进制连续数值等类型的字段。为了防止决策树和训练样本集的过度拟合,需要对决策树进行剪枝。剪枝通常有事先剪枝法和事后剪枝法两种方法。事先剪枝法事建树过程中判断当前节点是否需要继续划分的简直方法。通常是通过重要性检测(。或信息增益等)判断是否停止分裂节点。事后
2剪枝方法是让树“充分成长”之后在判断是否进行停止分裂节点。常用到的方法是根据错误分类率(或决策树编码长度)进行决策树的事后剪枝。决策树具有以下四个优点:
决策树方法不需要假设先验概率的分布,这种非参数化的特点使其具有更好的灵活性和鲁棒性。
决策树方法不仅可以利用连续实数或离散的数值样本,而且可以利用“语义数据”比如离散的语义数据:东、南、西、北等。
决策树方法产生的决策树或产生式规则具有结构简单直观,容易理解以及计算效率高的特点。
(未完,全文共9170字,当前显示1439字)
(请认真阅读下面的提示信息)