python朴素贝叶斯调参_面试

<div style="font-size:16px;">
ML & DM
集成学习模型融合 ensemble
EM
EM算法的目标是找出有隐性变量的概率模型的最大可能性解，它分为两个过程E-step和M-step，E-step通过最初假设或上一步得出的模型参数得到后验概率，M-step重新算出模型的参数，重复这个过程直到目标函数值收敛。
PageRank
使用了马尔可夫模型，用图模型表示各个网页，并且网页转移符合马尔可夫链。简单说来就是求Markov转移概率矩阵，通过迭代求该矩阵的最大特征值只是为了收敛和稳定, 加入了阻尼因子. .
http://blog.jobbole.com/71431/
[ 转载 ]PageRank算法简介及Map-Reduce实现
KNN
1.优点：
1)简单，易于理解，易于实现，无需估计参数，无需训练。
2)作为非线性分类器，可以区分非线性因素
3)特别适合于多分类问题(multi-modal,对象具有多个类别标签)， kNN比SVM的表现要好。
2.缺点：
1)该算法在分类时有个主要的不足是，当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。
2)该方法的另一个不足之处是计算量较大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。
3)可理解性差，无法给出像决策树那样的规则。
4)类别评分不是规则化的。
3.改进策略：
针对以上算法的不足，算法的改进方向主要分成了分类效率和分类效果两方面。
分类效率：事先对样本属性进行约简，删除对分类结果影响较小的属性，快速的得出待分类样本的类别。该算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分。
分类效果：采用权值的方法(和该样本距离小的邻居权值大)来改进，
KNN树？
决策树(ID3与C4.5区别,剪枝),NB(推导),
LR(推导,梯度下降,牛顿法,拟牛顿法),
SVM(推导,核函数,与LR的区别),
SVM与LR的区别
两种方法都是常见的分类算法,从目标函数来看,区别在于逻辑回归采用的是logistical loss,svm采用的是hinge loss(折叶损失).这两个损失函数的目的都是增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重.SVM的处理方法是只考虑support vectors,也就是和分类最相关的少数点,去学习分类器.而逻辑回归要考虑所有的数据。通过非线性映射,大大减小了离分类平面较远的点的权重,相对提升了与分类最相关的数据点的权重.两者的根本目的都是一样的.此外,根据需要,两个方法都可以增加不同的正则化项,如l1,l2等等.所以在很多实验中,两种算法的结果是很接近的.
但是逻辑回归相对来说模型更简单,好理解,实现起来,特别是大规模线性分类时比较方便.而SVM的理解和优化相对来说复杂一些.但是SVM的理论基础更加牢固,有一套结构化风险最小化的理论基础,虽然一般使用的人不太会去关注.还有很重要的一点,SVM转化为对偶问题后,分类只需要计算与少数几个支持向量的距离,这个在进行复杂核函数计算时优势很明显,能够大大简化模型和计算
svm 更多的属于非参数模型,而logistic regression 是参数模型,本质不同.其区别就可以参考参数模型和非参模型的区别就好了.
logic 能做的 svm能做,但可能在准确率上有问题,svm能做的logic有的做不了。
LR需要调参，而朴素贝叶斯不需要。
EnsembleLearning(RF,GBDT,XGBoost原理,区别,实现)
聚类(kmeans的原理,缺点,改进)
CF(itemCF,userCF)
文本处理(tf-idf)
word2vec
相似度／距离
其他VC维
VC维(Vapnik-Chervonenkis Dimension)的概念是为了研究学习过程一致收敛的速度和推广性，
由统计学理论定义的有关函数集学习性能的一个重要指标。
传统的定义是：对一个指示函数集，如果存在H个样本能够被函数集中的函数按所有可能的2的H次方种形式分开，
则称函数集能够把H个样本打散；函数集的VC维就是它能打散的最大样本数目H。
若对任意数目的样本都有函数能将它们打散，则函数集的VC维是无穷大，
有界实函数的VC维可以通过用一定的阈值将它转化成指示函数来定义。
VC维反映了函数集的学习能力，VC维越大则学习机器越复杂(容量越大)，
遗憾的是，目前尚没有通用的关于任意函数集VC维计算的理