Note
Difference between Dimension Reduction, Feature Selection and Feature Creation.
There are two ways to describe proximity: similarity and distance(or disimilarity), which can be changed accordingly, for example, using Gaussian Kernel.
计算距离有几种方法:欧式距离,Hamming距离等。
Messures that satisfy Positivity, Symmetry, and Triangle Inequality are known as metrics.
计算相似度也有几种方法:SMC(Simple Matching Coefficient),Jaccard Coefficient, Cosine Similarity等。
如何选择合适的度量方法呢?
关于不同分类算法的比较,从下面的方面来考虑。
定义一些度量节点t纯度的方法,比如Entropy, Gini等, 这些值越大,说明纯度越低。然后定义一个分割的纯度增量,
挑选出一个Attribute能够造成最大的增量。
为了防止overfitting,可以对决策树进行剪枝,有两种方法:
决策树的特点,对应于上面的四点:
Overfitting是指train error很低,但是test error很高, 也可以说是bias低,但variance高, 原因是因为模型太复杂,不够general. 导致Overfitting的原因还是有效的训练集不够, 或者是没有具有代表性的元素,或者是因为噪声的干扰。
可以通过交叉验证来评判两个模型的好坏。
基于规则的分类与决策树不同的地方在于 它可以是没有覆盖所有的情况或者是一个数据可以对应多个规则, 而在后面的讨论中都是后者,为了解决冲突的问题, 对规则进行排序,这样排在前面的规则先发挥作用。
排序的方式采用的是按类排序,数目少的类排在规则的前面。 对一个类里面的进行规则提取, 每次提取一条规则,将匹配到这个规则的记录移除,直到终止条件(添加了negtive case)。 提取规则时,有两个方向,从generic到specific或从specific到generic, 可以使用贪婪的方法添加一个conjuction或者移除一个conjunction。 同时,为了弥补贪婪算法的不足,可以使用beam search, 每轮迭代维护k个最可能的结果。
利用validation set来修剪rule,通过移除一个conjuction达到修剪的目的。 比如通过计算(p-n)/(p+n)来看是不是修要修剪。
Note
Rule-Based Classifier非常适合不平衡的分类。
对于它的特点,与决策树一样。
找到一个这样的y作为lable:
通过这样的转换是因为 \(P(y|x)\) 比较难求, 而可以利用这个公式:
求得 \(P(x|y)\) 。
同时可以利用Laplace-Smoothing防止为0的项。
注意Beyesian分类器的条件是属性之间相互独立, 如果不相互独立,要需要通过Beyesian网络来求得概率。
等以后系统学习之后再来做笔记吧。
基本思想:通过组合多个分类器作为一个分类器,能够达到更好的效果。
可以对数据集和属性进行sample来分别训练多个分类器。 Random Forest是指在构建决策树时随机选取Feature进行Split。
对于不平衡的分类问题,准确率还需要通过其他的表示方法来计算。
利用二分类器组合成多分类器时的方法有:
关联分析的目的是提取出类似于{Diapers} -> {Beers}这样的关联规则, 有两个步骤: