机器学习有哪些分类器

作者&投稿:邬妮 (若有异议请与网页底部的电邮联系)
机器学习中哪些分类器模型属于线性分类器?哪些属于非线性分类器?~

线性分类器:单层感知器网络、贝叶斯。
影响一个分类器错误率的因素:
训练集的记录数量。生成器要利用训练集进行学习,因而训练集越大,分类器也就越可靠。然而,训练集越大,生成器构造分类器的时间也就越长。错误率改善情况随训练集规模的增大而降低。
属性的数目。更多的属性数目对于生成器而言意味着要计算更多的组合,使得生成器难度增大,需要的时间也更长。有时随机的关系会将生成器引入歧途,结果可能构造出不够准确的分类器(这在技术上被称为过分拟合)。



扩展资料:
决策树分类器:这个过程类似于通过一个植物的特征来辨认植物。可以应用这样的分类器来判定某人的信用程度,比如,一个决策树可能会断定“一个有家、拥有一辆价值在1.5 万到2.3 万美元之间的轿车、有两个孩子的人”拥有良好的信用。
决策树生成器从一个“训练集”中生成决策树。SGI 公司的数据挖掘工具MineSet 所提供的可视化工具使用树图来显示决策树分类器的结构,在图中,每一个决策用树的一个节点来表示。
参考资料来源:百度百科-分类器

  如果训练集很小,那么高偏差/低方差分类器(如朴素贝叶斯分类器)要优于低偏差/高方差分类器(如k近邻分类器),因为后者容易过拟合。然而,随着训练集的增大,低偏差/高方差分类器将开始胜出(它们具有较低的渐近误差),因为高偏差分类器不足以提供准确的模型。

  你也可以认为这是生成模型与判别模型的区别。

  一些特定算法的优点

  朴素贝叶斯的优点:超级简单,你只是在做一串计算。如果朴素贝叶斯(NB)条件独立性假设成立,相比于逻辑回归这类的判别模型,朴素贝叶斯分类器将收敛得更快,所以你只需要较小的训练集。而且,即使NB假设不成立,朴素贝叶斯分类器在实践方面仍然表现很好。如果想得到简单快捷的执行效果,这将是个好的选择。它的主要缺点是,不能学习特征之间的相互作用(比如,它不能学习出:虽然你喜欢布拉德·皮特和汤姆·克鲁斯的电影,但却不喜欢他们一起合作的电影)。

  逻辑回归的优点:有许多正则化模型的方法,你不需要像在朴素贝叶斯分类器中那样担心特征间的相互关联性。与决策树和支撑向量机不同,你还可以有一个很好的概率解释,并能容易地更新模型来吸收新数据(使用一个在线梯度下降方法)。如果你想要一个概率框架(比如,简单地调整分类阈值,说出什么时候是不太确定的,或者获得置信区间),或你期望未来接收更多想要快速并入模型中的训练数据,就选择逻辑回归。

  决策树的优点:易于说明和解释(对某些人来说—我不确定自己是否属于这个阵营)。它们可以很容易地处理特征间的相互作用,并且是非参数化的,所以你不用担心异常值或者数据是否线性可分(比如,决策树可以很容易地某特征x的低端是类A,中间是类B,然后高端又是类A的情况)。一个缺点是,不支持在线学习,所以当有新样本时,你将不得不重建决策树。另一个缺点是,容易过拟合,但这也正是诸如随机森林(或提高树)之类的集成方法的切入点。另外,随机森林往往是很多分类问题的赢家(我相信通常略优于支持向量机),它们快速并且可扩展,同时你不须担心要像支持向量机那样调一堆参数,所以它们最近似乎相当受欢迎。

  SVMs的优点:高准确率,为过拟合提供了好的理论保证,并且即使你的数据在基础特征空间线性不可分,只要选定一个恰当的核函数,它们仍然能够取得很好的分类效果。它们在超高维空间是常态的文本分类问题中尤其受欢迎。然而,它们内存消耗大,难于解释,运行和调参也有些烦人,因此,我认为随机森林正渐渐开始偷走它的“王冠”。

  然而…

  尽管如此,回忆一下,更好的数据往往打败更好的算法,设计好的特征大有裨益。并且,如果你有一个庞大数据集,这时你使用哪种分类算法在分类性能方面可能并不要紧(所以,要基于速度和易用性选择算法)。

  重申我上面说的,如果你真的关心准确率,一定要尝试各种各样的分类器,并通过交叉验证选择最好的一个。或者,从Netflix Prize(和Middle Earth)中吸取教训,只使用了一个集成方法进行选择。

机器学习中的分类器有:

1.决策树分类器

提供一个属性集合,决策树通过在属性集的基础上作出一系列的决策,将数据分类。这个过程类似于通过一个植物的特征来辨认植物。可以应用这样的分类器来判定某人的信用程度,比如,一个决策树可能会断定“一个有家、拥有一辆价值在1.5 万到2.3 万美元之间的轿车、有两个孩子的人”拥有良好的信用。决策树生成器从一个“训练集”中生成决策树。SGI 公司的数据挖掘工具MineSet 所提供的可视化工具使用树图来显示决策树分类器的结构,在图中,每一个决策用树的一个节点来表示。图形化的表示方法可以帮助用户理解分类算法,提供对数据的有价值的观察视角。生成的分类器可用于对数据的分类。

2. 选择树分类器

选择树分类器使用与决策树分类器相似的技术对数据进行分类。与决策树不同的是,选择树中包含特殊的选择节点,选择节点有多个分支。比如,在一棵用于区分汽车产地的选择树中的一个选择节点可以选择马力、汽缸数目或汽车重量等作为信息属性。在决策树中,一个节点一次最多可以选取一个属性作为考虑对象。在选择树中进行分类时,可以综合考虑多种情况。选择树通常比决策树更准确,但是也大得多。选择树生成器使用与决策树生成器生成决策树同样的算法从训练集中生成选择树。MineSet 的可视化工具使用选择树图来显示选择树。树图可以帮助用户理解分类器,发现哪个属性在决定标签属性值时更重要。同样可以用于对数据进行分类。

3. 证据分类器

证据分类器通过检查在给定一个属性的基础上某个特定的结果发生的可能性来对数据进行分类。比如,它可能作出判断,一个拥有一辆价值在1.5 万到2.3 万美元之间的轿车的人有70 %的可能是信用良好的,而有30 %的可能是信用很差。分类器在一个简单的概率模型的基础上,使用最大的概率值来对数据进行分类预测。与决策树分类器类似,生成器从训练集中生成证据分类器。MineSet 的可视化工具使用证据图来显示分类器,证据图由一系列描述不同的概率值的饼图组成。证据图可以帮助用户理解分类算法,提供对数据的深入洞察,帮助用户回答像“如果... 怎么样" 一类的问题。同样可以用于对数据进行分类。

扩展资料:

影响一个分类器错误率的因素:

(1)、训练集的记录数量。生成器要利用训练集进行学习,因而训练集越大,分类器也就越可靠。然而,训练集越大,生成器构造分类器的时间也就越长。错误率改善情况随训练集规模的增大而降低。

(2)、属性的数目。更多的属性数目对于生成器而言意味着要计算更多的组合,使得生成器难度增大,需要的时间也更长。有时随机的关系会将生成器引入歧途,结果可能构造出不够准确的分类器(这在技术上被称为过分拟合)。因此,如果我们通过常识可以确认某个属性与目标无关,则将它从训练集中移走。

(3)、属性中的信息。有时生成器不能从属性中获取足够的信息来正确、低错误率地预测标签(如试图根据某人眼睛的颜色来决定他的收入)。加入其他的属性(如职业、每周工作小时数和年龄),可以降低错误率。

(4)、待预测记录的分布。如果待预测记录来自不同于训练集中记录的分布,那么错误率有可能很高。比如如果你从包含家用轿车数据的训练集中构造出分类器,那么试图用它来对包含许多运动用车辆的记录进行分类可能没多大用途,因为数据属性值的分布可能是有很大差别的。

参考资料:百度百科-分类器




机器学习分类器有哪些
机器学习分类器的种类有很多,主要包括以下几种:一、决策树分类器 决策树分类器是一种基于树形结构的分类方法。它通过一系列的判断规则,将数据点分配到不同的类别中。常见的决策树分类器包括ID3、C4.5和CART等。二、逻辑回归分类器 逻辑回归分类器是一种基于统计方法的分类技术。它通过拟合一个逻辑函...

机器学习有哪些分类器
1.决策树分类器 提供一个属性集合,决策树通过在属性集的基础上作出一系列的决策,将数据分类。这个过程类似于通过一个植物的特征来辨认植物。可以应用这样的分类器来判定某人的信用程度,比如,一个决策树可能会断定“一个有家、拥有一辆价值在1.5 万到2.3 万美元之间的轿车、有两个孩子的人”拥有...

机器学习有多种不同的分类方法
一、朴素贝叶斯分类器 朴素贝叶斯分类器是一种基于贝叶斯定理的分类方法,它假定特征之间相互独立。在分类时,朴素贝叶斯分类器会计算给定特征下每个类别的条件概率,然后选择具有最高概率的类别作为预测结果。该方法常用于文本分类、垃圾邮件检测等领域。二、逻辑回归 逻辑回归是一种统计方法,主要用于二分类问...

机器学习中常见的线性分类器有哪些?
探索机器学习中的强大工具:线性与非线性分类器在机器学习的广阔领域中,线性与非线性分类器是数据科学家们的得力助手。让我们深入了解这些基石算法:线性分类器,包括感知机、LDA、逻辑斯蒂回归和SVM(线性核),以及非线性分类器如朴素贝叶斯、KNN、决策树和SVM(非线性核)。线性分类器以其直观的模型结构...

分类器有哪些
分类器的种类:1. 决策树分类器。这是一种基于树状结构的分类模型,它通过一系列的判断规则将数据集划分到不同的类别中。决策树分类器易于理解和解释,且计算效率较高。2. 支持向量机分类器(SVM)。SVM基于统计学习理论,通过寻找一个超平面来分隔数据,使得不同类别的数据分隔开。它对于处理非线性问题...

机器学习中哪些分类器模型属于线性分类器?哪些属于非线性分类器?
线性分类器:单层感知器网络、贝叶斯。影响一个分类器错误率的因素:训练集的记录数量。生成器要利用训练集进行学习,因而训练集越大,分类器也就越可靠。然而,训练集越大,生成器构造分类器的时间也就越长。错误率改善情况随训练集规模的增大而降低。属性的数目。更多的属性数目对于生成器而言意味着要...

如何选择机器学习分类器
可以采用最近邻分类器试试。如果最近邻不好,可能是特征选择与提取不好,可以做一下PCA或者LDA,如果再不好,可以试着使用SVM或者ANN试下,这两个分类器对区分相似特征效果较好。也可以试试其它分类器,KNN、BYS、DT、MQDF等等,现在小字符集一般都使用多分类器方法。分类器正确率是一方面,误识率同样...

哪几种分类器算法是常用的?
1. 决策树:决策树是一种基于树形结构的分类器算法。它通过对特征进行一系列的问题判断,将数据逐步划分到不同的类别中。决策树的优点是直观易懂,可以直接呈现决策逻辑;缺点是容易过拟合,对连续性的数据处理不够平滑。例如,在判断一个水果是否是苹果时,决策树可能会通过询问“颜色是否为红色”、“...

机器学习中常见的线性分类器有哪些
线性分类器:单层感知器网络、贝叶斯非线性分类器:多层感知器网络、决策树至于SVM两者都有

常见的机器学习相关算法包括
- 朴素贝叶斯分类器:它基于贝叶斯定理,通过计算给定特征下各个类别的概率来预测数据点属于哪个类别。贝叶斯定理表达了后验概率P(A|B)与先验概率P(A)和似然概率P(B|A)的关系。- K-近邻算法(KNN):这是一种基于实例的学习方法,它通过计算新数据点与训练集中数据点的距离,并找出与之最近的K个...

津南区13822747529: 基于规则的分类器有哪些 -
种鲍非言: 决策树,随机森林,Aprior

津南区13822747529: 用于数据挖掘的分类算法有哪些,各有何优劣 -
种鲍非言: 常见的机器学习分类算法就有,不常见的更是数不胜数,那么我们针对某个分类问题怎么来选择比较好的分类算法呢?下面介绍一些算法的优缺点:1. 朴素贝叶斯 比较简单的算法,所需估计的参数很少,对缺失数据不太敏感.如果条件独立性...

津南区13822747529: 分类器的选择 -
种鲍非言: 如果训练集很小,那么高偏差/低方差分类器(如朴素贝叶斯分类器)要优于低偏差/高方差分类器(如k近邻分类器),因为后者容易过拟合.然而,随着训练集的增大,低偏差/高方差分类器将开始胜出(它们具有较低的渐近误差),因为高偏差...

津南区13822747529: 机器学习 比较分类器性能的基线是什么 -
种鲍非言: 一些基础的分类器吧,譬如说J48,Logistic Regression,SVM,Naive Bayes,Random Forest等等.或者说和你提出的分类算法相关的,具有相类似原理的其他经典分类器.

津南区13822747529: 机器学习非监督机器学习算法有哪些 -
种鲍非言: 非监督机器学习可以分为以下几类 (1)聚类:K-均值聚类、谱聚类、DBSCAN聚类、模糊聚类、GMM聚类、层次聚类等 (2)降维:PCA、t-SNE、MDS等 (3)其它:PageRank、SOM等 详细介绍可以参考图书:The Elements of Statistical Learning的第14章

津南区13822747529: 初学者如何选择合适的机器学习算法(附算法 -
种鲍非言: 如何为分类问题选择合适的机器学习算法 若要达到一定的准确率,需要尝试各种各样的分类器,并通过交叉验证选择最好的一个.但是,如果你只是为你的问题寻找一个“足够好”的算法或者一个起点,以下准则有利于选择合适的分类器:你的...

津南区13822747529: 如何使用opencv 训练分类器以及训练过程中的问题 -
种鲍非言: 网上提供的级联分类器训练都是基于opencv_haartraining.照着上面的步骤成功训练出了xml,但是用于识别的过程中,识别率很低.改换几次样本后,检测效果还是一般.想想估计是自haar特征不能很好区分,所以想通过opencv_traincascade...

津南区13822747529: 什么是自动文本聚类? -
种鲍非言: 基于文本的信息自动聚类的算法很多 简并算法是指在文本信息空间内寻找任何两个最相关的文本信息,并将之简并成一个文本信息,从而实现信息数量的收缩.简并算法的实现通过比较整个信息空间内的所有文本的相关性(相识性),得到相互...

你可能想看的相关专题

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网