10种机器学习算法介绍:监督式学习、非监督式学习与强化学习详解
《10 种机器学习算法介绍.ppt》是会员分享的,能够在线阅读。如果想了解更多相关内容,可以在三一办公上进行搜索。该 PPT 共 21 页。非监督式学习有特定方法,可实现聚类。强化学习一直处于学习状态,没有尽头。分类算法适用于因变量为连续变量的情况,回归算法适用于因变量为离散变量的情况。聚类和分类存在差别,聚类可能有无限种类别,分类可能有有限种类别。监督式学习的工作机制是,这个算法由一个目标变量或结果变量(或因变量)组成,此变量由已知的一系列预示变量(自变量)进行预测。我们利用这一系列变量来生成一个函数,这个函数能够将输入值映射到期望的输出值。这个训练过程会持续进行,直到模型在训练数据上达到期望的精确度。像例子回归、决策树、随机森林、K 近邻算法、逻辑回归等这些方法,既有监督式的,也有非监督式的。
学习和工作机制在该算法中,不存在需预测或估计的目标变量或结果变量。此算法被用于不同组内的聚类分析。这种分析方式常被用于细分客户,依据干预方式划分不同用户组。例如关联算法、K 均值算法、强化学习等,该工作机制训练机器进行决策。机器处于一个可让其通过反复试错来自我训练的环境中。机器从过往的经验里进行学习,并且试着运用了解得最清楚的知识来作出精准的商业判断。例如马尔可夫决策过程,还有监督式学习与非监督式学习的差别。监督式学习方法要求事先明确知晓各个类别的信息,并且所有待分类项都有一个类别与之对应。如果不能满足上述这两个条件(比如存在海量数据),那就需要适用聚类算法,也就是非监督式学习。,大数据,线
性回归,其适用场景是根据连续变量来估计实际数值,比如房价、呼叫次数、总销售额等。原理是可以通过拟合最佳直线,以此来建立自变量和因变量之间的关系。拟合出来的结果是一条直线 Y = a * X + b ,这里的 Y 是因变量,a 是斜率,X 是自变量,b 是截距,而最佳直线被称为回归线。系数 a 和 b 是通过最小二乘法获得的。使用这些数据集来训练模型并进行检查 - lm()()# =(,)。假设在不询问对方体重的情况下,让一个五年的人去做某事。
逻辑回归,其适用场景是能够根据已知的一系列因变量来估计离散数值的出现概率。原理方面,它是一个分类算法,而非回归算法。从数学角度来看,在结果当中,几率的对数是通过预测变量的线性组合模型来运用的。ln(p/(1-p))等于 b0 加上 b1 乘以 X1 再加上 b2 乘以 X2 加上 b3 乘以 X3 一直加到 bk 乘以 Xk。R 语言代码,假设你的朋友让你去解开一个谜题,那么只会出现两种结果,要么你解开了,要么你没有解开。想象一下,你需要解答很多道题,以此来找出你所擅长的主题。这个研究的结果就会像是这样:假设题目是一道十年级
https://img2.baidu.com/it/u=1796395634,1063119135&fm=253&fmt=JPEG&app=138&f=JPEG?w=800&h=1422
你的三角函数题,你解开它的可能性为 70%。不过,如果题目是五年级的历史题,你回答正确的可能性只有 30%。这便是逻辑回归所能提供给你的信息。决策树这个监督式学习算法通常用于分类问题,它可同时用于分类变量和连续因变量。在该算法中,我们把总体分成两部分。使用训练集来训练模型,然后用检查 -glm(.,data=x,=)()# =(,)来进行相关操作。
有一个或更多的同类群。这是按照最重要的属性或者自变量去划分成尽可能不一样的组别。R 语言代码,使用 rpart 函数,将 x 与其他内容进行 cbind 操作并进行生长。然后用 rpart 函数,以 data = x 和 class 等参数构建模型 fit。接着使用 rpart.plot 函数来绘制 fit 这个模型。详细说明决策树(1)中的混乱度判断,熵的计算方式为:E 等于对从 I = 1 到 N(N 表示类别的结果,例如客户是否流失)的所有样本的 -p(I) * log(p(I))进行求和。当所有样本都属于一个类别 I(此时最为整齐)时,熵为 0。
如果样本是完全随机的,那么熵为 1。信息增益是原样本的熵减去区分后的各部分熵的和。增益越大,就表示区分的方法越好。Gain(,)等于 E()减去 sum(|(v)|/*E((v)。除了熵以外,还有 GINI 不纯度和错误率这两种计算混乱度的方法,它们的定义不同,但效果类似。细说决策树(2)rpart 参数详解,生成树 rpart 时,其参数主要有:data 等,na.=na.rpart ,model=FALSE ,x=FALSE ,y=TRUE ,parms 等,以及 cost 等。
方法:依据树末端的数据类型来挑选与之对应的变量分割办法,此参数存在四种取值,分别是连续型的“anova”、离散型的“class”、计数型(泊松过程)的“”以及生存分析型的“exp”。程序会依照因变量的类型自动选取方法,不过通常情况下,最好还是明确指出此参数,这样能让程序清楚知晓要构建哪一种树模型。parms 可用于设置三个参数:一是先验概率;二是损失矩阵;三是分类纯度的度量方法。它还能控制每个节点上的最小样本量、交叉验证的次数以及复杂性参量(即 cp:),此参数意味着对于每一步拆分,模型的拟合优度必须提升的程度等。接下来详细说说决策树(3)剪枝 prune 以及复杂度。
对于连续性因变量,ter 可能存在分割过细的情况,可通过复杂度来判断是否还有存在的必要。从 fit 可以看出每个节点的复杂度。fit2 - prune(fit, cp = 0.01)表示修剪复杂度在 0.01 以下的节点。支持向量机是一种分类方法,有其适用场景。我们把每个数据在 N 维空间中用点标注出来,这里的 N 是所有特征的总数。每个特征的值就是一个坐标的值。接着想办法去找到能将两组不同数据分开的一条直线。要同时优化两个分组中距离最近的两个点到这条直线的距离。然后根据测试数据落到直线的哪一边,就把它分到哪一类中去。(e1071)x - cbind(,)# mod
预测结果为离散型因变量的出现概率。R 语言代码,(e1071)将 x 与其他内容进行 cbind 操作,# 然后减去某个点(.,data = x),(fit)# 等于 (fit),这是朴素贝叶斯的相关操作。
https://img1.baidu.com/it/u=1406977427,1884923313&fm=253&fmt=JPEG&app=138&f=JPEG?w=500&h=635
算法针对给出的待分类项,会去求解在该项出现的条件下各个类别出现的概率,然后判断哪个概率最大,就把此待分类项认定属于那个类别。自变量为 x,其取值有 a1、a2、…、an。因变量方面,假设我们的结论有 True 和 False 这两种情况。根据样本可以得到 p(a1|T)、p(a2|T)、…、p(an|T)、p(a1|F)、p(a2|F)、…、p(an|F)。我们想要比较 p(T|x)和 p(F|x),那么依据贝叶斯定理:p(T|x)等于 p(x|T)乘以 p(T)再除以 p(x),也就是 p(a1|T)乘以 p(a2|T)乘以…乘以 p(an|T)乘以 p(T)再除以 p(x);p(T|x)乘以 p(x)等于 p(x|T)乘以 p(T),即 p(a1|T)乘以 p(a2|T)乘以…乘以 p(an|T)乘以 p(T);还有 p(F|x)。
p(x)=p(x|F)*p(T),即 p(x)等于 x 在 F 条件下的概率乘以 T 的概率,同时 p(x)=p(a1|F)*p(a2|F)*...*p(an|F)*p(F),由此可以得出在 x 情况下 T 的概率以及 F 的概率。KNN(K 最邻近算法),其适用场景为可用于分类问题和回归问题。不过在业界内,K 最近邻算法更常被用于分类问题。K 最近邻算法是一个较为简单的算法。它储存所有的案例,通过周围 k 个案例中的多数情况来划分新的案例。依据一个距离函数,新案例会被分配到其 K 个近邻中最普遍的类别里。这些距离函数包括欧式距离、曼哈顿距离、明式距离以及汉明距离。其中,前三个距离函数用于连续函数,而第四个函数(汉明函数)被用于分类变量。,KNN(K最邻近算法),举例右图中,绿色圆要被决定赋予哪
个类的情况如下:是红色三角形还是蓝色四方形呢?倘若 K = 3,因为红色三角形所占比例为 2 / 3,所以绿色圆会被赋予红色三角形那个类;倘若 K = 5,由于蓝色四方形比例为 3 / 5,故而绿色圆被赋予蓝色四方形类。同时要补充说明,KNN 算法不仅能够用于分类,还能够用于回归。找出一个样本的 k 个最近邻居,把这些邻居属性的平均值赋予该样本,就能得到该样本的属性。更有用的做法是,给不同距离的邻居对该样本产生的影响赋予不同的权值,比如权值与距离成反比。(knn)x - cbind(,)# - knn(., data = x, k = 5)
K 均值算法是一种非监督式学习算法,可用于解决聚类问题。将一个数据归入一定数量的集群(假设有 k 个集群)的过程使用 K 均值算法较为简单。一个集群内的数据点均匀齐同,与其他集群不同。算法步骤如下:首先从 D 中随机取 k 个元素,作为 k 个簇的各自中心。分别计算剩下的元素到 k 个簇中心的相异度,然后把这些元素划分到相异度最低的簇。依据聚类结果,重新计算 k 个簇各自的中心,计算方式是取簇中所有元素各自维度的算术平均数。把 D 中全部元素按照新的中心重新进行聚类。重复上述第 4 步的操作,直至得到聚类结果。
不再发生变化。将结果进行输出。K 均值算法中,需要确定 K 值。K 均值算法与集群相关,每个集群都有其质心。一个集群内,质心与各数据点之间距离的平方和构成了该集群的平方值之和。并且,将所有集群的平方值之和相加时,就形成了集群方案的平方值之和。我们知道,集群数量增加时,所有集群平方和之和会持续下降。若用图表表示结果,会看到距离的平方总和快速减少。到值 k 之后,减少速度大幅下降。在此情况下,我们能够找到集群数量的最优值。所谓聚类问题,就是给定一个具有 n 个可观察属性的元素集合 D,运用某种算法把 D 划分成 k 个子集,要让每个子集内部的元素相异度尽量低,而不同子集的元素相异度尽量高。其中每一个子集都被称作一个簇。以国足排序为例,存在缺失情况,涉及随机森林降维算法以及该算法。
页:
[1]