python朴素贝叶斯调参_面试

论坛 期权论坛     
选择匿名的用户   2021-5-30 01:22   152   0
<div style="font-size:16px;">
<p>ML &amp; DM</p>
<p>集成学习 模型融合 ensemble</p>
<p>EM</p>
<p>EM算法的目标是找出有隐性变量的概率模型的最大可能性解,它分为两个过程E-step和M-step,E-step通过最初假设或上一步得出的模型参数得到后验概率,M-step重新算出模型的参数,重复这个过程直到目标函数值收敛。</p>
<p>PageRank</p>
<p>使用了马尔可夫模型,用图模型表示各个网页,并且网页转移符合马尔可夫链 。简单说来就是求Markov转移概率矩阵,通过迭代求该矩阵的最大特征值 只是为了收敛和稳定, 加入了阻尼因子. .</p>
<p>http://blog.jobbole.com/71431/</p>
<p>[ 转载 ]PageRank算法简介及Map-Reduce实现</p>
<p>KNN</p>
<p>1.优点:</p>
<p>1)简单,易于理解,易于实现,无需估计参数,无需训练。</p>
<p>2)作为非线性分类器,可以区分非线性因素</p>
<p>3)特别适合于多分类问题(multi-modal,对象具有多个类别标签), kNN比SVM的表现要好。</p>
<p>2.缺点:</p>
<p>1)该算法在分类时有个主要的不足是,当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。</p>
<p>2)该方法的另一个不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。</p>
<p>3)可理解性差,无法给出像决策树那样的规则。</p>
<p>4)类别评分不是规则化的。</p>
<p>3.改进策略:</p>
<p>针对以上算法的不足,算法的改进方向主要分成了分类效率和分类效果两方面。</p>
<p>分类效率:事先对样本属性进行约简,删除对分类结果影响较小的属性,快速的得出待分类样本的类别。该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。</p>
<p>分类效果:采用权值的方法(和该样本距离小的邻居权值大)来改进,</p>
<p>KNN树?</p>
<p>决策树(ID3与C4.5区别,剪枝),NB(推导),</p>
<p>LR(推导,梯度下降,牛顿法,拟牛顿法),</p>
<p>SVM(推导,核函数,与LR的区别),</p>
<p>SVM与LR的区别</p>
<p>两种方法都是常见的分类算法,从目标函数来看,区别在于逻辑回归采用的是logistical loss,svm采用的是hinge loss(折叶损失).这两个损失函数的目的都是增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重.SVM的处理方法是只考虑support vectors,也就是和分类最相关的少数点,去学习分类器.而逻辑回归要考虑所有的数据。通过非线性映射,大大减小了离分类平面较远的点的权重,相对提升了与分类最相关的数据点的权重.两者的根本目的都是一样的.此外,根据需要,两个方法都可以增加不同的正则化项,如l1,l2等等.所以在很多实验中,两种算法的结果是很接近的.</p>
<p>但是逻辑回归相对来说模型更简单,好理解,实现起来,特别是大规模线性分类时比较方便.而SVM的理解和优化相对来说复杂一些.但是SVM的理论基础更加牢固,有一套结构化风险最小化的理论基础,虽然一般使用的人不太会去关注.还有很重要的一点,SVM转化为对偶问题后,分类只需要计算与少数几个支持向量的距离,这个在进行复杂核函数计算时优势很明显,能够大大简化模型和计算</p>
<p>svm 更多的属于非参数模型,而logistic regression 是参数模型,本质不同.其区别就可以参考参数模型和非参模型的区别就好了.</p>
<p>logic 能做的 svm能做,但可能在准确率上有问题,svm能做的logic有的做不了。</p>
<p>LR需要调参,而朴素贝叶斯不需要。</p>
<p>EnsembleLearning(RF,GBDT,XGBoost原理,区别,实现)</p>
<p>聚类(kmeans的原理,缺点,改进)</p>
<p>CF(itemCF,userCF)</p>
<p>文本处理(tf-idf)</p>
<p>word2vec</p>
<p>相似度/距离</p>
<p>其他VC维</p>
<p>VC维(Vapnik-Chervonenkis Dimension)的概念是为了研究学习过程一致收敛的速度和推广性,</p>
<p>由统计学理论定义的有关函数集学习性能的一个重要指标。</p>
<p>传统的定义是:对一个指示函数集,如果存在H个样本能够被函数集中的函数按所有可能的2的H次方种形式分开,</p>
<p>则称函数集能够把H个样本打散;函数集的VC维就是它能打散的最大样本数目H。</p>
<p>若对任意数目的样本都有函数能将它们打散,则函数集的VC维是无穷大,</p>
<p>有界实函数的VC维可以通过用一定的阈值将它转化成指示函数来定义。</p>
<p>VC维反映了函数集的学习能力,VC维越大则学习机器越复杂(容量越大),</p>
<p>遗憾的是,目前尚没有通用的关于任意函数集VC维计算的理
分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:3875789
帖子:775174
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP