Mining of Massive Data Sets ============================ 第一章 ---------------------------- 当存在一个确定的算法时,使用机器学习来解决问题的效果反而不好。 机器学习的优势在于当算法不确定时,或者是算法的 **参数** 不确定时, 通过机器学习获得一个比较正确的参数。 数据挖掘有两个重要的方向: 数据汇总 通过对总体的结构进行分析,得到数据的总体特点。 特征提取 找到一些子集的性质和特点。 邦弗朗尼原理是说如果匹配到某种事情的期望,相对于希望发生事情的期望来说, 前者远大于后者,那么这种统计分析方法无效。 TF.IDF用于确定词语在文档中的重要性。 第二章 ---------------------------- 分布式文件系统通过冗余来增加数据的可靠性, 通过主节点来定位用于节点的位置。 Map-Reduce在出错情况下的处理:: Map出错,重启所有Map, Reduce出错,只要重启这个Reduce就行。