决策树算法

时间：2024-11-25 22:10:18编辑：阿奇

什么是决策树算法？决策树算法常用的有哪些？各有何特点？

决策树分类算法有哪些

问题一：决策树算法是按什么来进行分类的决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。
决策树方法最早产生于上世纪60年代，到70年代末。由J Ross Quinlan提出了ID3算法，此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。C4.5算法在ID3算法的基础上进行了改进，对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大改进，既适合于分类问题，又适合于回归问题。
决策树算法构造决策树来发现数据中蕴涵的分类规则．如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两步进行。第一步，决策树的生成：由训练样本集生成决策树的过程。一般情况下，训练样本数据集是根据实际需要有历史的、有一定综合程度的，用于数据分析处理的数据集。第二步，决策树的剪枝：决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修下的过程，主要是用新的样本数据集（称为测试数据集）中的数据校验决策树生成过程中产生的初步规则，将那些影响预衡准确性的分枝剪除。

问题二：数据挖掘分类方法决策树可以分多类么数据挖掘,也称之为数据库中知识发现是一个可以从海量数据中智能地和自动地抽取一些有用的、可信的、有效的和可以理解的模式的过程.分类是数据挖掘的重要内容之一.目前,分类已广泛应用于许多领域,如医疗诊断、天气预测、信用证实、顾客区分、欺诈甄别. 现己有多种分类的方法,其中决策树分类法在海量数据环境中应用最为广泛.其原因如下：
1、决策树分类的直观的表示方法较容易转化为标准的数据库查询
2、决策树分类归纳的方法行之有效,尤其适合大型数据集.
3、决策树在分类过程中,除了数据集中已包括的信息外,不再需要额外的信息.
4、决策树分类模型的精确度较高. 该文首先研究了评估分类模型的方法.在此基础上着重研究了决策树分类方法,并对决策树算法的可伸缩性问题进行了具体分析,最后给出了基于OLE DB for DM开发决策树分类预测应用程序.

问题三：基于规则的分类器（比如用RIPPER算法）和决策树的区别在哪，使用场景有什么不同？决策树实际上是规则分类器。基于转换的错误驱动学习方法的提出者曾经在论文中论证过这个问题，他的学习方法是规则学习器，但和决策树等价。

问题四：决策树的优缺点是什么啊决策树(Decision Tree)是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。
决策树的优缺点：
优点：

1) 可以生成可以理解的规则。

2) 计算量相对来说不是很大。

3) 可以处理连续和种类字穿。

4) 决策树可以清晰的显示哪些字段比较重要

缺点：

1) 对连续性的字段比较难预测。

2) 对有时间顺序的数据，需要很多预处理的工作。

3) 当类别太多时，错误可能就会增加的比较快。

4) 一般的算法分类的时候，只是根据一个字段来分类。

问题五：c4.5决策树算法怎么得到分类结果决策树主要有ID3，C4.5，CART等形式。ID3选取信息增益的属性递归进行分类，C4.5改进为使用信息增益率来选取分类属性。CART是Classfication and Regression Tree的缩写。表明CART不仅可以进行分类，也可以进行回归。

问题六：决策树分类算法的适用领域，不要概括成经济、社会、医疗领域，具体到实际问题。且用什么软件实现较方便。决策树算法主要用于数据挖掘和机器学习，数据挖掘就是从海量数据中找出规律。一个有名的例子就是啤酒和尿布的例子，这是数据挖掘的典型。决策树算法包括ID3，C4.5，CART等，各种算法都是利用海量的数据来生成决策树的，决策树能帮助人或者机器做出决策。最简单的一个例子就是你去看病，根据决策树，医生能够判断这是什么病。软件的话用VISUAL STUDIO就可以，C语言，C++,C#，java都可以。

问题七：贝叶斯网络和贝叶斯分类算法的区别贝叶斯分类算法是统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法。在许多场合，朴素贝叶斯(Na?ve Bayes，NB)分类算法可以与决策树和神经网络分类算法相媲美，该算法能运用到大型数据库中，而且方法简单、分类准确率高、速度快。
由于贝叶斯定理假设一个属性值对给定类的影响独立于其它属性的值，而此假设在实际情况中经常是不成立的，因此其分类准确率可能会下降。为此，就衍生出许多降低独立性假设的贝叶斯分类算法，如TAN(tree augmented Bayes network)算法。

上一篇：柴可夫斯基悲怆

下一篇：没有了